史上用戶增速最快消費級應用ChatGPT,自去年11月底發(fā)布以來,讓全球為其狂歡,各方勢力仍持續(xù)為此“上火”:用戶急著試探ChatGPT是否真的有那么聰明 ,每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT,并展現自己的“調教”成果;
(ChatGPT每日點擊訪問量統(tǒng)計 圖源:國盛證券研究所)
國內互聯網大廠們 基于要“活下去”的心愿和講更動聽的AI故事,急著與ChatGPT扯上關系 :一時間百度、騰訊、阿里等紛紛拿出相關技術布局以及底層設施儲備,為中國的ChatGPT奮力一戰(zhàn);
近3個月過去,ChatGPT熱度絲毫未減,有關部門也在努力:
2月24日,東數西算一體化算力服務平臺在寧夏銀川正式上線發(fā)布。據悉,東數西算一體化算力服務平臺將瞄準目前最稀缺、剛需迫切的ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務。
目前,該平臺已吸引曙光、中國電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè),以及國家信息中心、北京大數據研究院等中國主要大數據機構入駐。
各方勢力蜂擁而至,足以見得,目前的算力填補不了ChatGPT們的需求,眾志成城,才能打贏ChatGPT算力攻堅戰(zhàn)。
本文試圖探究,ChatGPT到底需要多大的算力?升級算力的路子是什么?
ChatGPT,企圖榨干算力
通用AI時代來臨,人類對于算力的需求正逐漸失控。
伴隨著摩爾定律失效,大模型時代來臨,算力不再“淡定”,每5-6個月就要翻倍,以困獸沖破牢籠之勢飛速增長:
(模型發(fā)布時間及算力變化 圖源:浙商證券)
2018年,谷歌帶著3億參數BERT模型,闖進大眾視野,開啟大規(guī)模預訓練模型時代;在這之后,OpenAI、英偉達、微軟先后推出15億參數的GPT-2、83億參數的Megatron-LM、170億參數的圖靈Turing-NLG,各個大廠暗自較勁,參數規(guī)模從十億級別競爭到了百億級別。
2020年6月,OpenAI又將算力“戰(zhàn)場”拔高了一個層級:推出1750億參數的GPT-3,把參數規(guī)模提高到千億級別。隨后一山更比一山高:微軟和英偉達在2020年10月聯手發(fā)布了5300億參數的Megatron-Turing自然語言生成模型(MT-NLG)。
2021年,國內迎來預訓練大模型元年。在這一年里,華為、百度、阿里等中國企業(yè)開始發(fā)力:
華為云聯合北京大學發(fā)布盤古α超大規(guī)模預訓練模型,參數規(guī)模達2000億;
百度推出ERNIE 3.0 Titan模型,參數規(guī)模達2600億;
阿里達摩院的M6模型參數達到10萬億,又將大模型參數帶到新的高度 ……
在這之中表現最為亮眼的,莫過于從GPT-3迭代而來的ChatGPT,2022年底一出世就博得全球目光,無論是在模型預訓練階段,還是模型被訪問階段, ChatGPT都對算力提出“史無前例”的要求。
在模型預訓練階段, 從GPT-1到GPT-3,從GPT-3 Small到GPT-3 175B,對算力的需求呈指數型增長。
在大模型的框架下,每一代 GPT 模型的參數量均高速擴張,參數量從GPT-1的1.17億個,翻了1029倍至GPT-3 的1750 億個;
具體來看,在GPT-3歷代模型中,短短2年,參數量便從GPT-3 Small的1.25億個,翻了1399倍至GPT-3的1750億個,未來GPT-4還要翻倍:根據 Altman 的介紹,預計GPT-4的參數將會達到2800億個。
與此同時,在模型被訪問階段,ChatGPT對算力同樣有著“狂熱”需求:
據Similarweb數據,ChatGPT官網在2023年1月27日-2月3日一周內吸引的每日訪客數量高達2500萬。假設以目前的穩(wěn)定狀態(tài),每日每用戶提問約10個問題,則每日約有2.5億次咨詢量。
如果想要“消化”掉這2.5億次咨詢量,根據國盛證券測算,需要大量的A100 GPU芯片“連夜趕工”:
假設每個問題平均30字,單個字在A100 GPU上約消耗350ms,則一天共需消耗729,167個A100 GPU運行小時,對應每天需要729,167/24=30,382片 英偉達A100 GPU。
也就是說,目前每天2.5億次咨詢量,需要30,382片英偉達A100 GPU同時計算,才能把ChatGPT“喂飽”,以下是ChatGPT部分耗費(電費以0.08美元/kwh計算):
而以上圖表所顯示的,僅僅是2.5億咨詢量需求下,使用英偉達A100 GPU相關設備,ChatGPT所需要的算力成本。
其背后對能源的消耗,更是“觸目驚心”。
環(huán)球零碳研究中心曾粗略合計了ChatGPT全生命周期的碳足跡:自2022年11月30日運行以來,其制造設備的碳排放量超過了33.41噸,模型訓練碳排放超過552噸,運行60天碳排放約為229.2噸。
也就是說上線兩個月的ChatGPT,全過程碳排放超過了814.61噸,而這,相當于186個丹麥家庭每年消耗的能量。
現階段ChatGPT背后的大模型仍在迭代,每日訪問量仍在遞增,未來還會有更多的ChatGPT們涌現。彼時,算力以及其背后的功耗還能顧得過來嗎?
對此,蘇媽表示了擔憂:在ISSCC 2023上,蘇媽表示根據目前計算效率每兩年提升2.2倍的規(guī)律,預計到2035年,如果想要算力達到十萬億億級,則需要的功率可達500MW,相當于半個核電站能產生的功率,“這是極為離譜、不切合實際的”。
(2010-2040功率發(fā)展情況 圖源:2023 IEEE international Solid-State Circuits Conference)
為了達到這樣的效果,我們的計算效率起碼要每兩年提升2.2倍,才能匹配上2035年的算力需求。蘇媽坦言,盡管用上目前最先進的計算技術、最先進的芯片,也滿足不了ChatGPT們。
而當ChatGPT吞噬完大量算力、能源,“吃飽喝足”之后,各國打的不再是算力之爭,而是“國運之爭”:一旦搭載ChatGPT的人形機器人能夠大批量地上崗時,吃人口紅利的國家不再有顯著的優(yōu)勢。
ChatGPT們,包括未來的人形機器人們, 正對算力、能源“虎視眈眈”,同時對人類的威脅也不容小覷:往小了看,影響到個人職業(yè)發(fā)展,往大了看,牽扯到國家競爭力。
存算一體承載和釋放ChatGPT
而一切的一切,都得從打好算力之爭開始。
傳統(tǒng)的AI1.0時代的代表企業(yè),例如AMD已經開始探尋新的出路:依靠系統(tǒng)級創(chuàng)新實現更大的突破。系統(tǒng)級創(chuàng)新,即從整體設計的上下游多個環(huán)節(jié)協同設計來完成性能的提升。
一個經典案例是,在對模型算法層面使用創(chuàng)新數制(例如8位浮點數FP8)的同時,在電路層對算法層面進行優(yōu)化支持,最終實現計算層面數量級的效率提升:相比傳統(tǒng)的32位浮點數(FP32),進行系統(tǒng)級創(chuàng)新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計算單元的效率,無論如何也難以實現數量級的效率提升。
于是,為解決“如何用更少的電,輸出更高的算力”這一終極命題,業(yè)內給出不少技術及方案:量子計算(量子芯片)、光機芯片、芯粒(Chiplet)、3D封裝、存算一體……。同時也有團隊將這些技術進行結合,以期達到系統(tǒng)級創(chuàng)新。
在這之中,現在能夠兼容CMOS工藝又能盡快量產的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內普遍認為,能夠突破 AI 算力困境,進行架構創(chuàng)新的兩條清晰路線。
浙商證券指出,面對未來潛在的算力指數增長,短期使用芯粒異構技術加速各類應用算法落地,長期來看,打造存算一體芯片,或將成為未來算力升級的潛在方式。
(架構創(chuàng)新路線 圖源:浙商證券)
芯粒異構技術成為“種子”選手的原因是,該技術能夠突破先進制程的封鎖,且大幅提升大型芯片的良率、降低設計成本、芯片制造成本。
而之所以說是短期,是因為該技術路徑需要犧牲一定的體積和功耗,導致其目前只能在基站、服務器、智能電車等領域廣泛使用。
為解決這一“小缺陷”,目前在學術界,已有團隊選擇將芯粒異構技術與存算一體架構相融合,以期達到1+1>2的效果:
在ISSCC 2022上,復旦大學芯片與系統(tǒng)前沿技術研究院劉明院士團隊提出多芯粒的存算一體集成 芯片——COMB-MCM。
據團隊表示,電路上COMB-MCM采用存算一體設計,能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下,該芯片具有精度無損且支持非結構化稀疏的自適應能效調節(jié)特點,也就補足了芯粒異構技術的短板。
既是芯粒異構技術的最佳拍檔之一,同時也是未來架構創(chuàng)新路徑之一,存算一體為何能博得多方“歡心”?
這是因為存算一體成功打破了“三堵墻”:
在傳統(tǒng)馮·諾伊曼架構之下,芯片的存儲、計算區(qū)域是分離的。計算時,數據需要在兩個區(qū)域之間來回搬運,而隨著神經網絡模型層數、規(guī)模以及數據處理量的不斷增長,數據已經面臨“跑不過來”的境況,成為高效能計算性能和功耗的瓶頸,也就是業(yè)內俗稱的“存儲墻”。
(存儲墻限制具體表現 圖源:浙商證券)
存儲墻相應地也帶來了能耗墻、編譯墻(生態(tài)墻)的問題。例如編譯墻問題,是由于大量的數據搬運容易發(fā)生擁塞,編譯器無法在靜態(tài)可預測的情況下對算子、函數、程序或者網絡做整體的優(yōu)化,只能手動、一個個或者一層層對程序進行優(yōu)化,耗費了大量時間。
這“三堵墻”會導致算力無謂浪費:據統(tǒng)計,在大算力的AI應用中,數據搬運操作消耗90%的時間和功耗,數據搬運的功耗是運算的650倍。
而存算一體能夠將存儲和計算融合,徹底消除了訪存延遲,并極大降低了功耗?;诖?,浙商證券報告指出,存算一體的優(yōu)勢包括但不限于: 具有更大算力(1000TOPS以上)、具有更高能效(超過10-100TOPS/W)、降本增效(可超過一個數量級)······
存算一體,正在沖破三堵墻“解救”ChatGPT,加速算力升級。
大算力芯片需扎好馬步
除了架構創(chuàng)新,芯片本身的升級迭代也非常重要。作為基石的底層芯片,需要足夠“大”,AI大算力應用才能高樓平地起。
(ChatGPT研究框架 圖源:浙商證券)
那么AI大算力說的“大”到底是多大?
以2020年發(fā)布的GPT3預訓練語言模型為例,采用的是2020年最先進的英偉達A100 GPU,算力達到624 TOPS。2023年,隨著模型預訓練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。
再例如自動駕駛領域,根據財通證券研究所表明,自動駕駛所需單個芯片的算力未來起碼1000+TOPS。
目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動駕駛領域:在2021年4月,英偉達就已經發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達直接推出芯片Thor達到2000TOPS。
故,大算力背景下,大算力芯片起碼得是1000+TOPS選手。
而在符合大算力條件下,也需要考慮到“用料”的功耗、造價問題。
目前,在存算一體架構優(yōu)勢下,億鑄科技為當前的算力、能耗困局,給出一條解題思路:選擇有著面積更小、微縮性好等特性的RRAM實現“同等能耗,更大算力;同等算力,更低能耗 ”,為各大數據中心、自動駕駛等應用領域“排憂解難”,在數字經濟時代,實現綠色算力。
而在存算一體架構下,傳統(tǒng)SRAM、閃存(Flash ) 均有著致命的缺陷,無法實現在大算力賽道的降本增效:
SRAM面積較大,占據了英偉達數據中心級GPU總邏輯面積的約50%。而一個A100 GPU的成本就在1萬美元以上,根據測算,成熟產品每GB SRAM內存的成本將在100美元左右,最貴的存儲器當屬SRAM。
除了成本難壓之外, SRAM也存在著不穩(wěn)定的問題。SRAM 的問題在于它的靜態(tài)電流大,當大量的 SRAM 堆積在芯片上時,會產生一種被稱為 DI/DT 的工程性問題(也就是電流在短時間內大量變化),應用落地極具挑戰(zhàn)性。
基于這兩點考慮,SRAM 并不適合做大算力場景。據了解, 目前采用 SRAM 的這些公司大都在基于邊緣端做小算力的場景,比如語音識別、智能家居的喚醒、關鍵命令詞的識別等。
同時,Flash也面臨著因微縮性差導致不穩(wěn)定的問題。傳統(tǒng)存儲器的局限性讓行業(yè)逐漸將目光逐漸轉向了新型存儲器:
比如近期英飛凌宣布其下一代 AURIX ™微控制器 ( MCU ) 將采用新型非易失性存儲器 ( NVM ) RRAM ( ReRAM ) ;
億鑄科技自2020成立以來,就專注于研發(fā)基于RRAM的全數字存算一體大算力AI芯片。
ChatGPT,需要存算一體的“解救”,也需要該架構下,更物美價廉(微縮性好、單位面積小、成本低)的新型存儲器RRAM的大力支持。
億歐獲悉,億鑄科技今年將誕生首顆基于RRAM的存算一體AI大算力芯片。屆時,或許“ChatGPT們”以及其下游的應用能夠基于該芯片,更輕松地吸取算力,更快實現“智力”升維。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
大模型混戰(zhàn),參與者又多了一員。61兒童節(jié)當天,主營母嬰童商品零售與增值服務的孩子王重磅上線“AI育兒顧問大模型”一一KidsGPT,旨在為6000萬會員提供更高維、更新穎的數字化體驗。據節(jié)點財經了解,KidsGPT為孩子王自研的大模型,經過對育兒、教育等方面系統(tǒng)的垂類數據訓練和大量內測,已實現智能對
導語:隨著人工智能的迅速發(fā)展,ChatGPT的應用正以驚人的速度滲透到各個行業(yè)。其中,在跨境電商平臺上,ChatGPT作為一種智能助手,為賣家?guī)砹饲八从械睦妗1疚膶⑸钊胩接慍hatGPT在跨境電商中的應用,以及如何將其融合在店鋪管理操作中,為賣家?guī)頍o限商機。智能客服與溝通:ChatGPT作為
邁特AI助手ChatGpt源碼安裝部署詳細文檔:1、所需環(huán)境服務器建議:centos7.4以上,安裝寶塔運行環(huán)境:LNMP軟件版本:php7.4+mysql5.7php拓展安裝:fileinfo、2、安裝寶塔自行去安裝1、數據庫配置這里改為自己的數據庫賬號密碼。4、偽靜態(tài)配置打開寶塔偽靜態(tài)內容loc
“七天制作新游戲”、“AI全自動完成所有游戲!”......繼各種AI繪畫、AI合成照片、視頻之后,AI在游戲領域開啟了新一場狂歡。長久以來,游戲和AI一直有著“相互扶持”的親密關系——一邊是游戲充當AI科研基地,正向拉動AI技術進步;一邊是AI定位為先進的技術工具,為游戲體驗帶來更多可能性。如今,
如果人可以快速地適應空間,同時空間也可以根據人的行為做出反應,到底會擦出什么樣的火花?過去相當長一段時間里,諸如此類的話題可能僅限在設計師的圈子里討論??僧斨悄茉O備越來越流行,用戶需求逐漸從PC、手機延伸到整個生活空間,交互已然成為人感知空間智能進化的起點。人們需要什么樣的空間體驗,怎么去獲取智能化
蘋果16弄了兩個版本,一個是專門給中國人用的,準備用百度的AI,還要交錢。第二個是全世界都可以用的,用了ChatGPT,包括臺灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型
“技術日新月異,人類生活方式正在快速轉變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數字人。圖片來源網絡隨著數字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據官方統(tǒng)計數據,今年現場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知