作者 | 曾響鈴
文 | 響鈴說
提到AI、大模型,很多人腦海里最先想到的是算力、算法、數(shù)據(jù)這“三駕馬車”。
而要論誰最重要,恐怕多數(shù)人都會覺得是算力。
畢竟,“算力緊缺”的氣氛常常被渲染起來。
然而,隨著大模型進(jìn)一步演進(jìn),不同要素的資源配置情況逐步發(fā)生了改變。
其中,數(shù)據(jù)的重要性正提到了前所未有的高度,由此也正在帶來對存儲越來越嚴(yán)苛的要求。
在一個全新的視角下,數(shù)據(jù)與其背后的“存力”,正在成為影響大模型創(chuàng)新整體過程的關(guān)鍵因素。
大模型創(chuàng)新從“片面追求”走向“全局視角”,“存力”價(jià)值凸顯
在某種“算力不足恐懼癥”下,前幾年,各個省市都在大力建設(shè)AI算力中心。
參數(shù)模型有多大、多少卡、每秒多少次運(yùn)算能力……是大家的主要關(guān)心點(diǎn)。
中國強(qiáng)大的基礎(chǔ)設(shè)施建設(shè)能力與優(yōu)勢,在新基建這里又繼續(xù)發(fā)光發(fā)熱。
這無疑對AI、大模型的發(fā)展帶來了很多好處,尤其是讓算力問題得到紓解。
但是,當(dāng)一個“急事”快要落定后,我們的目光,就不免要落到全局層面,思考大模型創(chuàng)新在整體上應(yīng)該如何才能做出優(yōu)勢?
很明顯,算力,只是補(bǔ)了急切的短板,而大模型創(chuàng)新從來都必須是端到端完成,才能最終展現(xiàn)出場景變革的價(jià)值。
我們知道,大模型訓(xùn)練大體上可以分為數(shù)據(jù)歸集、數(shù)據(jù)預(yù)處理(匿名、打標(biāo)簽等工作)、模型訓(xùn)練、應(yīng)用推理幾個流程階段。
一個樸素的邏輯是,要想端到端效率高,一方面要保證每個階段效率高,另一方面還要讓不同階段的接駁更順暢。
然而,目前這兩個方面都存在問題。
在“接駁”這件事上,在數(shù)據(jù)歸集后,由數(shù)據(jù)預(yù)處理階段邁入模型訓(xùn)練階段,因?yàn)榉蛛x部署、存在數(shù)據(jù)煙囪,跨設(shè)備、跨中心拷貝到數(shù)據(jù)訓(xùn)練場景中去,訓(xùn)練準(zhǔn)備耗時冗長——一個20億數(shù)據(jù)集,拷貝都要準(zhǔn)備整整30天。
要知道,現(xiàn)在大模型的發(fā)展進(jìn)度幾乎是按周刷新。
而這也導(dǎo)致模型訓(xùn)練階段的效率不佳。很多企業(yè)圖省事采用本地盤做存儲,數(shù)據(jù)在跨算力服務(wù)器間同步時讀取效率低(加載1TB數(shù)據(jù)往往需4~6小時),GPU長時間處于等待狀態(tài)造成資源閑置。
這背后,除了跨設(shè)備同步,還疊加有另一重原因,即大模型訓(xùn)練往往存在海量的小文件讀取,小文件的讀寫性能較差,極其耗費(fèi)時間。
而訓(xùn)練階段的效率問題還沒完。
一旦出現(xiàn)故障,或者要優(yōu)化算法,就需要讓GPU停下來,調(diào)整好了再啟動,這種往往持續(xù)數(shù)小時的百GB,甚至TB級的Checkpoint斷點(diǎn)續(xù)訓(xùn)的存在,與海量數(shù)據(jù)同步一起,致使GPU資源利用率普遍不高,昂貴的投資被白白浪費(fèi)。
好不容易“熬”到了應(yīng)用推理階段,要想推理效果更好,尤其是規(guī)避“大模型幻覺”等問題,還需要不斷調(diào)取特定的知識數(shù)據(jù)。
在“全局視角”,大模型創(chuàng)新要解決的問題還很多,但從各種問題不難看出,它們都與數(shù)據(jù)及其背后的存儲相關(guān)。
所謂AI全流程“全局視角”,其實(shí)可以歸集到“數(shù)據(jù)”視角進(jìn)行整體規(guī)劃。
事實(shí)上,這本身就是數(shù)據(jù)對大模型越來越重要的一種端到端流程上體現(xiàn)。
當(dāng)前人工智能大模型的快速發(fā)展依賴大規(guī)模、高質(zhì)量的數(shù)據(jù)養(yǎng)料,已經(jīng)是普遍的共識。
在算法都是基于公開大模型微調(diào)、走向收斂,算力主要依靠英偉達(dá)、昇騰等提供資源(意味著與企業(yè)的預(yù)算能力掛鉤,企業(yè)能主動做的并不多)的情況下,數(shù)據(jù)已經(jīng)成為AI大模型的差異化變量,優(yōu)質(zhì)數(shù)據(jù)越多,模型效果越好,數(shù)據(jù)規(guī)模和質(zhì)量決定AI智能的高度。
與此同時,AI大模型迭代加速,從單模態(tài)到多模態(tài)對數(shù)據(jù)的要求并非簡單的“多加一份模態(tài)的”,而是在參數(shù)規(guī)模和數(shù)據(jù)量上都進(jìn)行著PB到EB的萬倍增長。
可以說,“缺數(shù)據(jù),無AI”。
更進(jìn)一步看,在數(shù)據(jù)獲取完成后,大部分有關(guān)數(shù)據(jù)的癥結(jié)問題,最終又都可以歸結(jié)到存儲是否能夠跟上的問題。
因?yàn)椋?strong>AI數(shù)據(jù)存力是人工智能大模型的數(shù)據(jù)載體,與大模型的數(shù)據(jù)歸集、預(yù)處理、訓(xùn)練、推理等全生命周期的流程緊密相關(guān),存力建設(shè)對人工智能發(fā)展非常重要。
此外,在數(shù)據(jù)安全性、可靠性等方面,“存力”也發(fā)揮著直接的作用。
在全局視角下,要提升端到端的效率,“算力”跑的快,“存力”也要跟上,算力與數(shù)據(jù)存力一起系統(tǒng)化地構(gòu)成了AI算力基礎(chǔ)設(shè)施。
如果說“缺數(shù)據(jù),無AI”,那么毫無疑問先進(jìn)數(shù)據(jù)存力將會是構(gòu)建AI差異化優(yōu)勢的關(guān)鍵。
“全局視角”下,外置高性能共享存儲正在推動優(yōu)勢“存力”的形成
既然存力如此重要,那么企業(yè)要如何構(gòu)建優(yōu)勢“存力”?
總結(jié)前文,只有能夠解決數(shù)據(jù)歸集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)訓(xùn)練、模型推理等環(huán)節(jié)的低效問題,推動數(shù)據(jù)價(jià)值的實(shí)現(xiàn),實(shí)現(xiàn)大模型創(chuàng)新端到端效率提升,才能算得上優(yōu)勢“存力”,而這涉及海量數(shù)據(jù)的復(fù)雜讀寫,必須要有高性能共享存儲才能解決。
具體而言,可以得出包括存力在內(nèi)的AI算力基礎(chǔ)設(shè)施面臨著三大挑戰(zhàn)。
集群GPU利用率普遍低于50%;
數(shù)據(jù)加載時間長,小時級斷點(diǎn)續(xù)訓(xùn)時間;
語料數(shù)據(jù)規(guī)模大,從單模態(tài)到Sora等多模態(tài)大模型,語料從PB級到EB級增加,EB級的數(shù)據(jù)規(guī)模擴(kuò)張。
這些挑戰(zhàn),都導(dǎo)向大規(guī)模數(shù)據(jù)集群的可用度上。
換句話說,能夠解決大規(guī)模數(shù)據(jù)集群的可用度的存力,就是好存力。
業(yè)界已經(jīng)有一些領(lǐng)頭羊企業(yè)行動起來了。
例如,英偉達(dá)的SuperPOD參考架構(gòu),采用了外置高性能共享存儲來解決AI大模型三大挑戰(zhàn):
其主要背景,就是數(shù)據(jù)集越來越大,采用GDS(GPU直通存儲)可以更高效地從存儲中讀取數(shù)據(jù),提供更高性能和更低時延。
類似做法的不只有英偉達(dá)一家,Meta采用外置共享存儲,支持了數(shù)千個 GPU以同步方式保存和加載Checkpoint,實(shí)現(xiàn)了靈活、高吞吐量的EB級存儲。
此外,還有DDN(美國高性能計(jì)算和云存儲廠商)利用外置共享存儲消除在不同存儲之間移動數(shù)據(jù)的開銷和風(fēng)險(xiǎn)、Net APP利用高性能全閃存存儲提升GPU利用率等。
三大挑戰(zhàn)都被針對性解決,一種共識已經(jīng)客觀上形成——采用外置高性能共享存儲,是優(yōu)勢“存力”的重要可行解。
而在國內(nèi),也同樣有這樣的產(chǎn)品和服務(wù)可以選擇。
華為同樣提供外置高性能AI存儲,其AI數(shù)據(jù)湖解決方案,能夠?qū)崿F(xiàn)全局文件系統(tǒng)(統(tǒng)一數(shù)據(jù)管理、無論在何處)、上千節(jié)點(diǎn)EB級系統(tǒng)擴(kuò)展、數(shù)據(jù)智能冷熱分級、多協(xié)議互通等能力,從而做到提升GPU利用率、大大降低斷點(diǎn)續(xù)訓(xùn)喚醒時間、滿足EB級語料存儲要求,最終提升大規(guī)模數(shù)據(jù)集群的可用度,一次性解決AI算力基礎(chǔ)設(shè)施面臨的三大挑戰(zhàn)。
外置高性能共享AI存儲同樣得到了國內(nèi)廣大政企客戶的認(rèn)可。
目前,華為高性能共享AI存儲已經(jīng)在智算中心、超算中心、國家實(shí)驗(yàn)室、高教科研、大中型銀行、運(yùn)營商、企業(yè) AI 助手等場景下應(yīng)用,服務(wù)科大訊飛、建設(shè)銀行、天翼云智算中心、昌平實(shí)驗(yàn)室、上海交大、中原銀行(智能客服)等客戶。
以科大訊飛為例,早期其數(shù)據(jù)中心采用“開源分布式存儲軟件+服務(wù)器硬件”搭建,存在讀寫性能不佳(十億小文件數(shù)據(jù)量時讀寫性能陡降)、可靠性不夠充分(故障域小、冗余保護(hù)不足)等掣肘,使得其只能將50PB 數(shù)據(jù)量需要分成多個存儲集群(為了系統(tǒng)安全性的考慮),出現(xiàn)前文提到的問題——AI訓(xùn)練時需要頻繁地將數(shù)據(jù)在存儲集群間進(jìn)行搬遷,GPU 利用率不足 50%。
采用華為AI數(shù)據(jù)湖方案后,科大訊飛實(shí)現(xiàn)了一個集群一個文件系統(tǒng)即可輕松應(yīng)對多模態(tài)大模型時千億~十萬億參數(shù)規(guī)模,同時基于高性能存儲層+大容量存儲層的自動數(shù)據(jù)分級實(shí)現(xiàn)了TCO 最優(yōu)。
高性能,高容量,高密度,高可靠性,高安全性……在科大訊飛激烈競逐大模型賽道時,“存力”不再成為瓶頸,而是帶來了極大的助力。
這也說明,企業(yè)不能因?yàn)闀簳r沒有AI平臺的計(jì)劃就不需要提前準(zhǔn)備“存力”,需要提前規(guī)劃和建設(shè)“Al Ready 的數(shù)據(jù)湖”,否則后續(xù)可能面臨數(shù)據(jù)資產(chǎn)歸集困難、架構(gòu)無法平滑演進(jìn)而造成重復(fù)投資建設(shè)等重大問題。
而一旦優(yōu)勢“存力”形成,其給企業(yè)帶來的四重成本優(yōu)化的價(jià)值也顯現(xiàn)出來:
1、時間成本
在全局視角下,外置高性能共享AI存儲解決大規(guī)模數(shù)據(jù)集群的可用度問題,實(shí)現(xiàn)端到端效率的提升,就是在以加速模型迭代的方式幫助政企搶抓大模型機(jī)遇。
2、財(cái)務(wù)成本
本地盤雖然采購時架構(gòu)較為低廉,然而優(yōu)質(zhì)存儲方案從長期可擴(kuò)展性、架構(gòu)平滑演進(jìn)來看綜合成本卻更低;而且,企業(yè)提前規(guī)劃建設(shè)“AI Ready ”的數(shù)據(jù)湖存力底座,也能夠加速數(shù)據(jù)資產(chǎn)價(jià)值的激活,盤活溫冷數(shù)據(jù),從而完成數(shù)據(jù)到“數(shù)據(jù)資產(chǎn)”的轉(zhuǎn)化。
3、情緒成本
這是針對大模型最終用戶而言,更高效的大模型應(yīng)用迭代,以存儲內(nèi)置的知識庫建設(shè)幫助推理應(yīng)用,流暢、絲滑、準(zhǔn)確,都能大大提升用戶的體驗(yàn),減少不信任感,從而更好地實(shí)現(xiàn)價(jià)值轉(zhuǎn)化。
4、社會責(zé)任成本
馬斯克曾說,AI的盡頭是電力,大模型規(guī)模更大,無論是算力還是數(shù)據(jù)存儲最終都依賴大量電力供應(yīng)。‘’
而華為外置高性能共享AI存儲除了提升GPU利用率、保證EB級大規(guī)模數(shù)據(jù)高效訪問,其業(yè)界性能最高、容量密度最大的設(shè)計(jì),還能夠直接幫助客戶減少數(shù)據(jù)中心物理空間、節(jié)省功耗,與綠色低碳的時代目標(biāo)共振。
總之,外置高性能共享AI存儲在國內(nèi)外都已經(jīng)有了最佳實(shí)踐,是實(shí)現(xiàn)優(yōu)勢“存力”的關(guān)鍵選擇。在大模型洪流下,在數(shù)智化轉(zhuǎn)型升級浪潮中,有需求的政企組織可以盡快行動起來了。
*本文圖片均來源于網(wǎng)絡(luò)
*此內(nèi)容為【響鈴說】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
#響鈴說 Focusing on企業(yè)數(shù)字化與產(chǎn)業(yè)智能化升級,這是關(guān)注一切與創(chuàng)業(yè)、產(chǎn)業(yè)和商業(yè)相關(guān)的降本增效新技術(shù)、新模式、新生態(tài) NO.399深度解讀
【完】
曾響鈴
1鈦媒體、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;
2 虎嘯獎評委;長沙市委統(tǒng)戰(zhàn)部旗下網(wǎng)絡(luò)名人聯(lián)盟成員;
3 作家:【移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會】等暢銷書作者;
4 《中國經(jīng)營報(bào)》《商界》《商界評論》《銷售與市場》等近十家報(bào)刊、雜志特約評論員;
5 鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;
6 “腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)?ldquo;自媒體”,成為一個行業(yè);
7 騰訊全媒派榮譽(yù)導(dǎo)師、功夫財(cái)經(jīng)學(xué)者矩陣成員、多家科技智能公司傳播顧問。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!