文 | 智能相對論
作者 | 葉遠(yuǎn)風(fēng)
18.8萬億美元,這是市場預(yù)計(jì)2030年AI推動智能經(jīng)濟(jì)可產(chǎn)生的價值總和,其中大模型帶來的AI能力質(zhì)變無疑成為重要的推動力量。
大模型浪潮下,業(yè)界對AI發(fā)展的三駕馬車——算力、算法、數(shù)據(jù)任何一個維度的關(guān)注都到了全新的高度,避免“木桶效應(yīng)”成為大模型發(fā)展首要考慮的問題。
而在這個過程中,業(yè)界對“數(shù)據(jù)”的關(guān)注,往往集中在“量”+“質(zhì)”上,更龐大的數(shù)據(jù)量與更高的數(shù)據(jù)質(zhì)量能推動大模型有更好的訓(xùn)練與應(yīng)用效果,已經(jīng)成為共識。
但是,隨著大模型創(chuàng)新對數(shù)據(jù)需求越來越復(fù)雜,單單關(guān)注數(shù)據(jù)的“量”+“質(zhì)”已經(jīng)不夠,能夠承載數(shù)據(jù)、滿足大模型需要的存儲,同樣值得大模型領(lǐng)域從業(yè)者關(guān)注。
在剛剛舉辦的華為全聯(lián)接大會2023(HC 2023)上,華為方面系統(tǒng)介紹了其存儲解決方案如何解決大模型訓(xùn)練與應(yīng)用痛點(diǎn)、支撐大模型創(chuàng)新進(jìn)程。
華為的動作,從數(shù)據(jù)維度全景展示了大模型發(fā)展的本質(zhì)——“數(shù)據(jù)要素”大開發(fā),以及存儲創(chuàng)新如何為這種本質(zhì)提供力量,幫助大模型從業(yè)者更好地掘金智能經(jīng)濟(jì)時代。
大模型時代即是數(shù)據(jù)要素時代,存儲作為載體的價值彰顯
毫無疑問,大模型對算力、算法、數(shù)據(jù)的需求都在急速提高。
市場研究統(tǒng)計(jì),過去五年,大模型參數(shù)增加2000倍,所需計(jì)算能力增加5萬倍,對數(shù)據(jù)存儲需求增加10萬倍,連帶網(wǎng)絡(luò)帶寬需求增加8000倍。
大開大合大需求,需要大設(shè)施、大投入。
但是,如果從創(chuàng)新的視角來看,實(shí)際上無論是算法還是算力的提供,其難度都在下降或者說收斂。
在很多企業(yè)都頭疼的算力上,雖然需要的量很大,但無非都來自于英偉達(dá)、昇騰等GPU硬件資源,是一件主要依賴成本投入的事。換句話說,只要有足夠多的預(yù)算,算力資源就能供給上來。
在算法端,雖然各大廠商不斷調(diào)優(yōu)迭代,但總體上都在采用Transformer模型基礎(chǔ)架構(gòu),基于Pytorch、TensorFlow、MindSpore等主流開發(fā)框架開發(fā),是逐漸收斂的。
這時候,壓力來到了數(shù)據(jù)這里。
隨著大模型深入發(fā)展,在總量上,數(shù)據(jù)需求早已從TB級躍升到PB級,需要的“池子”越來越大;而同時,對數(shù)據(jù)類型的需求又極大豐富,單一文本的模態(tài)之外,圖片、視頻、語音等多模態(tài)數(shù)據(jù)爆發(fā),數(shù)據(jù)需求越來越復(fù)雜,這些都考驗(yàn)著存儲的承載力,以及如何在訓(xùn)練、應(yīng)用過程中更好地與算力、算法協(xié)同工作。
這期間,諸多難題出現(xiàn),等待存儲攻克,主要包括:
小文件讀取性能。大模型在數(shù)據(jù)需求上以圖片文本等海量小文件為主,單臺AI服務(wù)器每秒能夠讀取2萬多張圖片,這往往會導(dǎo)致數(shù)據(jù)加載效率低(類似于個人PC上的復(fù)制動作,同等空間下,內(nèi)含大量小文件文件夾會比單一大文件要慢很多),影響大模型的訓(xùn)練效率。此時,海量小文件性能就成為瓶頸,萬億參數(shù)大模型的基礎(chǔ)要求已經(jīng)達(dá)到1000萬IOPS。
CheckPoint斷點(diǎn)續(xù)訓(xùn)。大模型訓(xùn)練過程中出于參數(shù)調(diào)優(yōu)等各種需求,會在不特定時間點(diǎn)中斷形成CheckPoint,后續(xù)再啟動繼續(xù)訓(xùn)練(需要時間,形成GPU資源利用的空檔)。這是一種對長時間訓(xùn)練的模型非常友好的能力,但企業(yè)頻繁參數(shù)調(diào)優(yōu)往往會造成GPU利用率降低(目前業(yè)界通常平均每二天就會中斷一次,GPU利用率只有40%),需要存儲具備很強(qiáng)的大文件讀寫性能,才能減少GPU等待時間、提升昂貴資源利用效率。
“AI幻覺”問題。大模型輸出結(jié)果“胡編亂造”,與事實(shí)明顯沖突的現(xiàn)象是業(yè)界十分頭疼的問題,這種大模型自以為是的現(xiàn)象稱作“AI幻覺”??雌饋磉@是算法上的問題,但實(shí)際上,業(yè)界在探索中逐漸發(fā)現(xiàn),它的解決需要的是在數(shù)據(jù)層面不斷“求證”(主要是參考上下文信息),本質(zhì)上要求存儲能夠提供一個類似于“百科詞典”的知識體系,來作為大模型的“海馬體”提供準(zhǔn)確的行業(yè)知識。
可以看到,在創(chuàng)新層面,解決大模型在存儲上面臨的挑戰(zhàn),可能要優(yōu)先于算力和算法。
這一點(diǎn),其實(shí)也讓大模型進(jìn)一步回歸到本質(zhì)上,即以參數(shù)量更大的AI模型進(jìn)一步挖掘數(shù)據(jù)要素的價值,推動千行百業(yè)實(shí)現(xiàn)轉(zhuǎn)型升級。
現(xiàn)在,數(shù)據(jù)要素已經(jīng)作為數(shù)字經(jīng)濟(jì)和信息社會的核心資源,被認(rèn)為是繼土地、勞動力、資本、技術(shù)之后的又一重要生產(chǎn)要素,包括大模型在內(nèi)的無數(shù)創(chuàng)新,都是在圍繞數(shù)據(jù)要素進(jìn)行價值深度開發(fā)。
大模型的發(fā)展過程,可以看作是數(shù)據(jù)要素不斷從原始走向價值輸出的過程。
這一過程中,算法在前方引導(dǎo)方向、走向通用或具體行業(yè),澎湃的算力帶來強(qiáng)勁的推動力,而存儲則提供支撐與協(xié)同能力。當(dāng)算力主要依賴成本投入、算法逐步收斂,存儲作為數(shù)據(jù)要素載體的創(chuàng)新價值就越來越凸顯。
讓數(shù)據(jù)要素價值落地,華為存儲多維度出擊解決痛點(diǎn)問題
如何解決存儲面臨的挑戰(zhàn),華為高性能知識庫存儲OceanStor A800產(chǎn)品與對應(yīng)解決方案在面向行業(yè)模型訓(xùn)推場景擁有全面領(lǐng)先的訓(xùn)推效率,總體而言有四大特點(diǎn):
1、極高的整體性能,匹配大模型訓(xùn)練需要
華為存儲首要解決的是在整體性能上滿足大模型對訓(xùn)練數(shù)據(jù)的龐大需求,尤其是對小文件讀取性能的需求。
OceanStor A800基于創(chuàng)新數(shù)控分離架構(gòu),單框IOPS能夠達(dá)到2400萬,訓(xùn)練集加載效率是業(yè)界的4倍,而且可以根據(jù)客戶需求實(shí)現(xiàn)性能線性擴(kuò)展。此外,OceanFS分布式文件系統(tǒng)實(shí)現(xiàn)全局均衡打散,消除了CPU瓶頸,能帶來海量小文件性能的極致提升體驗(yàn),滿足大量小文件讀取需求。
只要有性能需要,盡管“往上加”,華為存儲都“扛得住”。
2、特殊能力優(yōu)化,滿足斷點(diǎn)續(xù)訓(xùn)等特定需要
斷點(diǎn)續(xù)訓(xùn)等特殊情況下如何更好地提供支撐,是華為存儲在大模型訓(xùn)練階段要同步應(yīng)對的挑戰(zhàn)。
通過盤控協(xié)同、NFS+并行文件系統(tǒng),華為存儲實(shí)現(xiàn)了單框500GB/s超高帶寬,能夠做到CheckPoint的超快恢復(fù),斷點(diǎn)續(xù)訓(xùn)恢復(fù)速度是業(yè)界3倍,TB級CheckPoint讀寫實(shí)現(xiàn)從小時級到分鐘級的跨越(即萬億參數(shù)大模型平均恢復(fù)時間小時級提速到分鐘級),減少昂貴的GPU等待。
只要是優(yōu)化大模型需要的,客戶都能夠更加大膽地進(jìn)行參數(shù)調(diào)優(yōu)等操作。
除此之外,其管控面擁有資源分區(qū)+統(tǒng)一調(diào)度能力,還能夠讓存儲適合不同的業(yè)務(wù)模型。
不管客戶面向什么業(yè)務(wù)模型進(jìn)行開發(fā),不管客戶在過程中選擇在什么時候暫停,華為存儲都能更好地應(yīng)對。
3、響應(yīng)能力強(qiáng)化,滿足大模型應(yīng)用的實(shí)時需求
訓(xùn)練階段完成后,華為存儲要做的,是在應(yīng)用階段滿足嚴(yán)苛的數(shù)據(jù)響應(yīng)需要。
目前,在大模型應(yīng)用階段,得益于內(nèi)置了向量知識庫(以向量的形式儲存行業(yè)知識),華為存儲的QPS達(dá)到了25萬+,已經(jīng)能夠?qū)崿F(xiàn)毫秒級響應(yīng),一方面能夠加速推理,使得應(yīng)用過程中的GPU資源消耗大大減少,有效節(jié)約了落地成本——當(dāng)前很多大模型在開放應(yīng)用階段的資源消耗十分巨大,有些企業(yè)已經(jīng)不堪重負(fù);另一方面“百科詞典”使得大模型更具準(zhǔn)確的行業(yè)知識,對減少AI幻覺產(chǎn)生起到重要的支撐作用,能大大提升推理的精度。
4、架構(gòu)創(chuàng)新,保障整體系統(tǒng)的穩(wěn)定可靠
對存儲最后一個也是最基本的要求是,無論具備什么樣的特性,都要保證穩(wěn)定可靠的整體結(jié)構(gòu),不發(fā)生安全問題、不“掉鏈子”。
華為存儲解決一系列大模型數(shù)據(jù)痛點(diǎn)需求的過程,某種程度上也增加了存儲方案與體系的復(fù)雜性,但與此同時,華為并沒有犧牲系統(tǒng)的可靠性,其創(chuàng)新的全互聯(lián)AA架構(gòu),能夠?qū)崿F(xiàn)5層全方位保護(hù)與6個9的超高可靠。
由此,大模型的數(shù)據(jù)可靠性及訓(xùn)練穩(wěn)定性實(shí)現(xiàn)了端到端的保障。
造輪者,先行久遠(yuǎn)路途
華為存儲能夠解決大模型數(shù)據(jù)痛點(diǎn)問題,根源在于其長期以來在存儲上的創(chuàng)新探索。
OceanStor A800的數(shù)控分離架構(gòu),就利用了業(yè)界前沿的數(shù)據(jù)讀寫直通到盤的技術(shù)創(chuàng)新,讓數(shù)據(jù)面直通到盤,與控制面分離,實(shí)現(xiàn)IO直通,從而減少數(shù)據(jù)讀寫時CPU的運(yùn)算,大大提升存儲性能。
實(shí)際上,華為長期以來在存儲上進(jìn)行技術(shù)耕耘,已經(jīng)取得了頗多類似的前沿創(chuàng)新成果。
目前,華為OceanStor存儲在全球擁有12個研發(fā)中心、4000+研發(fā)人員、3000+專利,產(chǎn)品涉足高性能NAS存儲解決方案、存儲防勒索解決方案、容器存儲解決方案、數(shù)據(jù)中心虛擬化等多個領(lǐng)域,獲得了廣泛好評。
在全球150多個國家,華為存儲已經(jīng)服務(wù)了包括運(yùn)營商、金融、政府、能源、醫(yī)療、制造、交通等行業(yè)在內(nèi)的25000+客戶。
可以說,為數(shù)據(jù)要素價值開發(fā)、為大模型創(chuàng)新需求量身定制的存儲能力,是華為長期以來在存儲賽道上深耕的必然結(jié)果——華為存儲早已做好了為眾多領(lǐng)域數(shù)據(jù)需求(不只有大模型)提供強(qiáng)大承載力與協(xié)同力的準(zhǔn)備。
*本文圖片均來源于網(wǎng)絡(luò)
#智能相對論 Focusing on智能新產(chǎn)業(yè)新服務(wù),這是智能的服務(wù)NO.240深度解讀
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
•AI產(chǎn)業(yè)新媒體;
•澎湃新聞科技榜單月度top5;
•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
•著有《人工智能 十萬個為什么》
•【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!