女女同免费播放**片,国产免费黄色网站在线观看

　阿里云優(yōu)惠券先領(lǐng)券再下單

12月17日上午，在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上，阿里云重磅發(fā)布了全棧AI負載高可用架構(gòu)，以滿足AI大模型企業(yè)級應(yīng)用在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)和高性能算力背景下，對云服務(wù)處理能力可擴展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和故障快速恢復(fù)的需求。

以為生成式 AI 打造持續(xù)的卓越用戶體驗為目的，阿里云全棧AI負載高可用架構(gòu)可達到GPU故障預(yù)測準確率92%，千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%，秒級模型自動保存、分鐘級故障恢復(fù)；每分鐘10000個pod擴展，分鐘級自動擴容；核心模型服務(wù)99.99%的API SLA，模型應(yīng)用服務(wù)全鏈路可觀測等重要的AI業(yè)務(wù)高可用目標，在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場景下，實現(xiàn)了對Gen AI應(yīng)用業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性的全面保障。

在論壇上，2025年中國數(shù)字化治理領(lǐng)域最新評估結(jié)果揭曉，阿里云成為首批通過信通院“企業(yè)用云治理能力成熟度評估”評測的兩家企業(yè)之一，同時獲得該項能力評估最高等級。

阿里云全棧AI負載高可用架構(gòu)正式發(fā)布

在AI算力需求逐漸超越通用需求的今天，以GenAI為代表的應(yīng)用場景和技術(shù)倍增，云上企業(yè)需要處理和存儲的數(shù)據(jù)量呈指數(shù)增長，AI驅(qū)動的應(yīng)用在高負載情況下，對保障業(yè)務(wù)的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性均提出了更高要求。

為此，阿里云在升級云平臺自身的技術(shù)服務(wù)能力的同時，將GPU、異構(gòu)算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機器學(xué)習(xí)平臺等AI負載高可用全面融入云平臺架構(gòu)設(shè)計，圍繞大模型訓(xùn)練微調(diào)、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié)，構(gòu)建具備“高可用模型訓(xùn)練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負載高可用架構(gòu)，實現(xiàn)了從通用負載向AI負載的可用性演進，為客戶AI業(yè)務(wù)構(gòu)建提供穩(wěn)定的業(yè)務(wù)服務(wù)和出色的用戶體驗。

WPS圖片(1).png

在高可用模型訓(xùn)練方面，阿里云AI基礎(chǔ)設(shè)施高可用能力融入云服務(wù)整體架構(gòu)設(shè)計，基于AI算法的故障預(yù)測，實現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析，GPU故障預(yù)測準確率達92%，同時將異常預(yù)測接入自愈鏈路，訓(xùn)練恢復(fù)自愈率超90%、千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%，實現(xiàn)秒級模型自動保存、分鐘級故障恢復(fù)；同時，CPFS 高性能存儲集群，在超大集群中 20TB/s 的吞吐能力，支持更大及更加頻繁的 Checkpoint 讀寫，能夠更好地防止數(shù)據(jù)丟失，并提升訓(xùn)練的穩(wěn)定性和可靠性。在網(wǎng)絡(luò)層面，阿里云自研的高性能網(wǎng)絡(luò)，業(yè)界首創(chuàng)雙平面的高可用網(wǎng)絡(luò)架構(gòu)，網(wǎng)絡(luò)Link和設(shè)備中斷，訓(xùn)練任務(wù)不中斷。

在推理資源方面，阿里云容器計算服務(wù)ACS的彈性能力實現(xiàn)每分鐘可以進行10000個pod擴展，分鐘級自動擴容；PAI-EAS模型在線服務(wù)，適用于實時推理、近實時異步推理等多種AI推理場景，能感知每個請求的執(zhí)行進度，做到更公平的任務(wù)調(diào)度，提高擴縮容效率。同時，阿里云將跨區(qū)域的主動式重路由技術(shù)運用到數(shù)據(jù)中心間的通信，從而在跨數(shù)據(jù)中心推理網(wǎng)絡(luò)上，達到跨域帶寬業(yè)界最高的 99.995% SLA，實現(xiàn)秒級內(nèi)重新路由，提供一個更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。

對于在實時語音交互、實時AI搜索等高性能場景有推理需求的客戶，阿里云百煉模型服務(wù)平臺，基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù)，核心模型服務(wù)API達到 99.99% SLA，高性能場景核心用戶用例中的首包延時小于300毫秒，能夠有效解決應(yīng)用開發(fā)、模型調(diào)用等過程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應(yīng)變慢等問題，提升Gen AI應(yīng)用推理與構(gòu)建時的用戶體驗。

在數(shù)據(jù)高可靠方面，阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務(wù)面向不同計算引擎、多種 AI 框架進行了深度集成，形成承載PB級甚至EB級大規(guī)模數(shù)據(jù)統(tǒng)一的存儲底座，同城冗余容災(zāi)，高達99.995% SLA，數(shù)據(jù)多副本冗余、大文件斷點續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務(wù)高可靠，向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務(wù)，跨Region AI數(shù)據(jù)的就近讀寫和負載均衡，滿足AI數(shù)據(jù)多活的強一致性，AI數(shù)據(jù)冷備、熱備、故障自動切換，解決AI數(shù)據(jù)故障風(fēng)險。

AI時代與用戶共建云上的IT新治理

AI時代的浪潮中，企業(yè)對于高可用架構(gòu)的需求不僅僅停留在節(jié)點的穩(wěn)定性上，而是在更高的層面追求智能化運營。阿里云全棧AI負載的高可用架構(gòu)已為企業(yè)奠定了堅實的技術(shù)基礎(chǔ)，而進一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運維管理與治理能力。通過與用戶攜手，阿里云致力于在云環(huán)境中構(gòu)建一個AI-Native的智能化、自動化和可持續(xù)的IT治理體系，為企業(yè)的創(chuàng)新之路保駕護航。

阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗總結(jié)為一系列的方法論和架構(gòu)設(shè)計原則，推出了阿里云卓越架構(gòu) Well-Architeched Framework，意在幫助企業(yè)在云上構(gòu)建一個安全、穩(wěn)定、高效的應(yīng)用環(huán)境。面向AI技術(shù)融入帶來的更復(fù)雜更大規(guī)模的，根據(jù)云計算的彈性、實時交付、自助化等特點，阿里云卓越架構(gòu)進一步升級了用云企業(yè)運維管理和治理規(guī)則基線的最佳實踐，依靠Well-Architeched云卓越架構(gòu)來學(xué)習(xí)-度量-優(yōu)化，落地治理潛在的風(fēng)險隱患，從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運營效率。

阿里云開放平臺負責(zé)人何登成表示，“在云上構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負責(zé)提供云平臺的可靠性，確保提供的云服務(wù)可用性符合或超過阿里云服務(wù)等級協(xié)議；用戶需要根據(jù)業(yè)務(wù)需求，選擇合適的產(chǎn)品服務(wù)，并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu)，來確保云上應(yīng)用的可靠性。”

尤其在AI迅猛發(fā)展的今天，企業(yè)更應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達到高可用，總結(jié)成三個"面向"：面向失敗的設(shè)計架構(gòu)，面向精細的運維管控，面向風(fēng)險的應(yīng)急快恢。同時，用戶可以在建設(shè)持續(xù)穩(wěn)定的云環(huán)境過程中，面向AI并結(jié)合AI，通過良好的AI模型訓(xùn)推架構(gòu)設(shè)計、AI數(shù)據(jù)資產(chǎn)處理與存儲、智能診斷與風(fēng)險預(yù)測等手段，進一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。

阿里云獲信通院企業(yè)用云治理能力成熟度評估最高等級

據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》，企業(yè)用云治理能力成熟度評估共分為L1-L5共5個等級，分別為L1基礎(chǔ)級、L2應(yīng)用級、L3優(yōu)秀級、L4先進級、L5卓越級。該分級要求不僅適用于對云服務(wù)使用方用云治理能力成熟度進行評估，也適用于對云服務(wù)提供商云服務(wù)治理產(chǎn)品、技術(shù)能力成熟度進行評估。阿里云測評結(jié)果為L4+，是目前階段云服務(wù)提供商實際獲得的最高等級。

此前，阿里云企業(yè)用云治理能力曾兩度獲得信通院評測認可，包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領(lǐng)域年度明星解決方案及產(chǎn)品；2023年“云治理中心”獲信通院科技治理領(lǐng)域年度明星解決方案。

今年，針對企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢分析與洞察，阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報告》（https://developer.aliyun.com/ebook/8419），報告調(diào)研取樣來自400多家企業(yè)客戶，橫跨互聯(lián)網(wǎng)、金融、新零售、交通等多個行業(yè)，旨在幫助用戶理解云治理概念、企業(yè)用云實踐的現(xiàn)狀及變遷趨勢，并基于云治理框架的五大分類（即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運營），報告作為企業(yè)云上旅程的實踐樣本，為面向AI時代做好IT新治理和云上架構(gòu)優(yōu)化提供更多的參考與決策依據(jù)。

（完）

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

阿里云發(fā)布全棧AI負載高可用與用戶共建AI時代云上IT新治理

相關(guān)文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標簽