12月5日,以“智能躍進 創(chuàng)造無限”為主題的2024中國生成式AI大會(上海站)正式開幕。在主會場首日的大模型峰會上,RockAI CTO楊華帶來《非Transformer架構大模型Yan在端側的實踐》主題演講,主要探討了生成式AI在端側面臨的挑戰(zhàn),詳解國內(nèi)首個非Transformer架構大模型Yan的技術路線及其落地應用,同時分享了大模型從單體智能到群體智能的發(fā)展路徑。
Transformer架構雖在大模型領域取得巨大成功,但它表現(xiàn)出的局限性,例如計算和內(nèi)存消耗大、特征提取能力相對較弱等,使得人們開始思考是否過度依賴它,以及現(xiàn)有大模型形態(tài)的可持續(xù)性。
基于以上思考,RockAI從底層原理出發(fā),在架構層面做創(chuàng)新,推出了非Transformer架構的大模型——Yan架構大模型。底層原理主要有兩點,一是類腦激活機制,二是MCSD。前者參照人腦神經(jīng)網(wǎng)絡,大幅減少計算冗余,有效提升計算效率和精度;后者在訓練時可充分利用GPU并行計算能力,推理時也能夠解決內(nèi)存占用逐漸增加的問題。
依托算力受限場景下的本地部署運行等優(yōu)勢,Yan架構大模型在手機、電腦、機器人、無人機、樹莓派等端側設備上均可部署,且模型具有強大的指令跟隨能力、多應用場景。此外,自主學習、群體智能也是RockAI在大模型領域的思考和探索。
以下為演講全文(共4355字,約需15分鐘)。
非Transformer架構大模型Yan
“非Transformer”對大多數(shù)人來說可能會比較陌生。為什么會陌生?因為我們現(xiàn)在身邊所接觸、所使用的模型,基本上都是基于Transformer。
RockAI為什么要做一個非Transfermer Based的模型,以及我們是怎么做的,當前做到什么樣的進展?今天我會圍繞這個主線和大家做一些分享,同時也會分享RockAI在大模型時代對技術路線的一些思考。
兩年前,GPT掀起了這一輪大模型的浪潮?,F(xiàn)在來看,無論是自然語言的大模型還是多模態(tài)的大模型,甚至是文生圖、文生視頻的模型,大家能看到曝光率最高的是Transformer,Transformer毫無疑問也取得了很大的成功。
但是在浪潮之后,作為技術的從業(yè)人員不禁會思考:當前我們是否會過度依賴于Transformer?在Transformer之外還有沒有其他可能性的進展以及技術上的突破?Transformer作為大模型時代一個明星的技術點,它是不是真的不可取代?
另外一個事實現(xiàn)象也會告訴我們:人腦在思考問題的時候,只會使用到二十瓦的功耗,而我們現(xiàn)在普通人接觸到的一臺GPU服務器,它所需要的功耗差不多在兩千瓦。面對這巨大的功耗懸殊比,我們不禁要問,當前的技術路線是不是可持續(xù)發(fā)展的?
另外,我們還會思考一個問題,現(xiàn)有的大模型,它的形態(tài)是什么樣子?更多的是模型廠商基于大量的數(shù)據(jù)、大量的算力做離線訓練,然后給到使用者使用,模型并不會再次進化、再次演進。這樣的學習范式,是不是能夠支撐我們通向AGI?
RockAI也一直在思考這些問題,同時,行業(yè)里面也會有很多的聲音。人工智能的三巨頭在不同的時間點、不同的場合下,表達了對Transformer的一些顧慮跟思考?!禔ttention is All You Need》論文的原作者,也在今年GDC大會發(fā)表了一些觀點。
目前的大模型,無論參數(shù)量是千億還是萬億,思考一個簡單問題還是一個復雜問題,所有的神經(jīng)元參數(shù)會被全部激活,并不會因為某個問題難,而像人類一樣需要思考的時間更多,輸出更慢。
基于這些思考,RockAI從底層原理出發(fā),在架構層面做創(chuàng)新,我們推出了Yan架構大模型。
主要有兩個基本原理,類腦激活機制和MCSD。在這兩塊技術模塊的加持下,Yan架構的設計理念秉承三點:
一是類人的感知,我們認為模型跟外界環(huán)境的接觸,不僅僅是文本一種形態(tài),還會有視覺形態(tài),也會有語音形態(tài)。
二是類人的交互,如果我們過度依賴于云端的模型,隱私的安全、通信的延遲,都有可能成為它的瓶頸。
三是類人的學習,現(xiàn)在的模型部署后,在和物理世界交互的過程中并不會獲得二次進化的能力。
圖示是Yan架構迭代到今天為止所依賴的技術模塊。我們以神經(jīng)元選擇激活(類腦激活機制)以及MCSD這兩個模塊替換了Transformer里面的Attention機制。
類腦激活機制,參照人腦的神經(jīng)網(wǎng)絡。人類的腦神經(jīng)元,是一個分層的結構,比如說我們在看東西的時候,更多的是視覺皮層的神經(jīng)元被激活,那思考問題的時候,可能是邏輯神經(jīng)元被激活。我們的大模型在訓練、推理時,也符合這樣的特性,在一次前向推理的過程中,激活神經(jīng)元是有選擇的。
MCSD,設計之初,我們希望模型具有可并行訓練、可循環(huán)推理的特點,在訓練的過程中達到更少的功耗消耗,在推理的時候也能達到一個O(n)的時間復雜度以及常量的空間復雜度,解決注意力機制推理時內(nèi)存占用逐漸增加的問題。
今年八月份在部分數(shù)據(jù)集上進行的測評,對比相同參數(shù)量的Transformer架構模型,Yan架構大模型無論是訓練效率,還是推理吞吐量,都有明顯提升。
值得一提的是,我們的Yan架構大模型已經(jīng)通過了國家網(wǎng)信辦的備案。
Yan架構大模型的端側多模態(tài)應用
基于Yan架構的自然語言大模型,我們也開啟了多模態(tài)的探索。
模型一旦部署到端側,文本這樣的形態(tài)反而是最不容易會觸發(fā)的,更多的是語音交互?;谶@樣的思考,我們設計了Yan多模態(tài)大模型。不同于現(xiàn)在很多大模型可能會做對視覺的理解、視覺圖像的生成,Yan-Omni多模態(tài)大模型聚焦的是對文本、人聲、圖像、視頻混合模態(tài)的理解,以及文本和音頻的token輸出。
我們核心解決的點包括:
第一個是Audio Tokenizer,為什么會有這么一個模塊?因為我們需要將連續(xù)一個人的聲音變換成離散化特征表征。我們探索了很多種路徑,包括語音,因為人說話時,除了語義信息之外,還有更多的聲學特征,比如說這個人的喜怒哀樂,這個人的性別。我們也會對語義token和聲學token做一個區(qū)分,并且在離散化特征表征時對碼本有所考量,設計合適的碼本,同時盡可能保證碼本的高利用率。
第二個是Vision Encoder,視覺模塊,我們也設計了一個中文友好的跨模態(tài)特征對齊。另外一個層面我們會發(fā)現(xiàn),現(xiàn)在多數(shù)視覺和文本的對齊模型,可能會聚焦在全局語義信息的對齊。但是,如果能做到圖像里的圖像塊和文本里的文本片段更細粒度的對齊,這對多模態(tài)大語言模型的使用性能會有巨大提升。
同時我們也會關注信息壓縮的高效性。比如說,在端側算力受限的場景下,如果一個視覺圖像編碼時的token長度過長,勢必會影響模型推理的耗時。
基于這些點,我們研發(fā)了Yan-Omni。
圖示中,我們能看到Yan-Omni當前能夠做到的一些模態(tài)的輸入輸出。
首先它作為多模態(tài)大模型,自然而然會有一個文本的輸入和輸出的狀態(tài)。
同時還會有聲音,比如當我說話的時候去問模型問題,它也會以語音的方式來回復我,也就是第二個模塊VQA。
在視覺的問答模塊里,當用戶以文本的形式去問問題,模型會自動選擇以文本的模態(tài)進行回復,當用戶以聲音的模態(tài)去問的時候,模型會自動選擇用聲音的模態(tài)進行回復,這表現(xiàn)了模型強大的指令跟隨能力。同時在OCR這個模塊,它對一個長密集的中文文本也能做到很高準確率的轉錄。
在Ref Grounding目標檢測里,例如自然災害、火災等,可以應用在無人機航拍,及時做到異常場景的發(fā)現(xiàn)。
最后還有ASR跟TTS任務,它能夠很好地處理中英文混用的場景。
通過Yan-Omni模型在這些任務上的表現(xiàn),我們可以發(fā)現(xiàn),它能夠做到多模態(tài)的輸入,以及文本跟音頻選擇性模態(tài)的輸出。
基于Yan-Omni,我們在多個端側上進行了模型的本地化部署跟推理。最低算力上,Yan架構的大模型可以在樹莓派5的開發(fā)板上部署運行,推理的token吞吐量能夠達到7tokens每秒。樹莓派開發(fā)板廣泛應用在工業(yè)控制、智能家居、機器人、平板電腦等載體設備上。
在中低算力的手機上,也能部署Yan多模態(tài)大模型,能夠達到20tokens每秒的輸出。它能當作個人的智能助手,準確理解用戶意圖。比如我要給小張發(fā)一條短信,它能從我的通訊錄里找到小張,激活短信應用,然后基于要發(fā)的主題進行信息生成。
Yan架構多模態(tài)大模型,無論是部署在教育機器人,還是人形機器人,都能實現(xiàn)通用問答、動作控制、環(huán)境感知。
如果一架無人機搭載了多模態(tài)大模型,它可以做哪些事兒?我們在無人機場景中設置了四個巡航點,到第一個巡航點的時候,它通過視覺信息的捕獲,明白當前場景“限低10米”,會將飛行高度提高到10米以上,繼續(xù)飛行。在第二個巡航點,我們設定的任務是垃圾溢出檢測,它能夠準確識別到當前有垃圾溢出。第三個巡航點,是河對岸一個沒有垃圾溢出的垃圾桶,最后是河面垃圾的檢測,無人機都能夠基于視覺模態(tài)進行準確的識別。
邁向群體智能
創(chuàng)新,RockAI一直在路上。我們自主研發(fā)的Yan架構大模型不僅能夠在端側部署,更多的是希望讓它具備自主學習的能力。RockAI認為,智能最本質(zhì)的特征是能夠糾正現(xiàn)存知識的缺陷和不足,同時能夠增加新的知識。
目前無論是大模型還是小模型,大多數(shù)都是離線訓練好再給用戶使用。用戶在使用過程中,模型的知識并不會二次變更和進化,不會因為它和我的接觸時間長了就會更理解我的喜好。
而RockAI想做的是訓推同步,將人類學習進化的特點也賦予機器,這依賴于Yan架構的選擇性神經(jīng)元激活。
當部署Yan架構大模型的設備,在和物理世界進行交互的過程中,比如學習到“Yan is a non-Transformer architecture large model developed by RockAI.”,基于這樣的輸入,機器會選擇激活神經(jīng)元,從信息里面提煉出兩條,一條是“Yan is a non-Transformer architecture”,一條是“Yan is developed by RockAI”。這兩條信息,是模型進行自主學習的一個過程。
有了自主學習的能力,大模型會演變成什么樣?反觀人類社會還有自然界,我們會發(fā)現(xiàn),無論是蟻群、蜂群,還是人類群體,廣泛存在的是群體智能。這也是RockAI認為通往AGI的一條可能的路線。
當機器有了群體智能,每一個部署Yan多模態(tài)大模型的智能終端,就是一個具備自主學習能力的智能體。當智能體和物理世界進行交互時,能夠通過環(huán)境的感知,進行自發(fā)地組織與協(xié)作,解決復雜的問題,同時在外界的環(huán)境中,實現(xiàn)整體智能的提升,這一點很有必要。為什么?因為現(xiàn)在的大模型,它是依賴于海量數(shù)據(jù)、大算力,數(shù)據(jù)總有一天會使用枯竭,而部署了Yan架構大模型的終端設備,可以在與物理世界交互中進行二次進化,將實時獲得的數(shù)據(jù)內(nèi)化到模型里。
RockAI認為,實現(xiàn)群體智能有三個必要條件:
首先,兼容廣泛的終端,模型需要有強大的適配伸縮性,比如說低至樹莓派這樣的開發(fā)板,然后到手機、AIPC,還是無人機這樣搭載Jetson算力的硬件平臺。只有在更廣泛的端側設備上進行部署,群體智能才成為一種可能。
其次是人機交互。我們會發(fā)現(xiàn),當一款產(chǎn)品推向市場的時候,如果不能做到實時性交互,用戶的耐心其實并不會很高。同時它也一定不是以單一模態(tài)在載體中呈現(xiàn),我們需要的是它能感知視覺,感知聲音,甚至能感知信號。
最后我們認為,實現(xiàn)群體智能需要有一款具備自主學習能力的模型。也就是說,讓模型從實驗室階段,或者從單純的推理應用階段,走向物理世界,在和人、其他硬件進行交互的過程中進化、演變。
從Yan架構大模型到群體智能的革新之路,是我們RockAI的技術之路。
最底層,我們希望有兼容廣泛終端設備的大模型存在,同時能夠支持很好的人機交互,每一臺部署Yan架構大模型的設備具備自主學習的能力。在此基礎上,以這樣的模型充當每臺設備上的一個通用智能操作系統(tǒng),部署到玩具,還有手機、機器人、AR眼鏡、無人機,以及AIPC等等。基于廣泛的終端應用,構成群體智能。廣泛的終端,它可以是一個無中心節(jié)點的組織形式,也可以是一個有中心節(jié)點的組織形式。
今年珠海航展,RockAI Yan架構大模型,跟隨上海交通大學,在珠海航展亮相,展示了在無人機的場景里面,怎么做到讓機群進行一個任務的完成。
RockAI是一家技術創(chuàng)新型的創(chuàng)業(yè)公司,我們的目標是邁向群體智能,這個目標分為四個階段。
第一個階段是架構的重塑,架構的重塑意味著我們不再依賴于Transformer這一套單一的技術體系。
第二個階段是單體的推理。非Transformer架構的模型能夠在更廣泛的設備端進行推理和部署,不再依賴于云端的計算資源,甚至不再依賴于通信網(wǎng)絡的存在。
第三個階段也是目前我們在實驗室階段的單體智能。要求我們現(xiàn)在的模型往前更進一步,在和環(huán)境交互的過程中形成一個正反饋系統(tǒng),擁有訓推同步、自主性二次進化能力。
有了更多的單體智能,我們會走向第四階段——群體智能。
現(xiàn)階段RockAI已經(jīng)邁過了第二階段,在第三階段進行沉淀。而多數(shù)大模型廠商受限于Transformer架構所需的推理算力以及多模態(tài)性能,目前還在端側設備上進行推理部署的嘗試。
最后謝謝大家!希望國內(nèi)有更多開發(fā)者做出更多創(chuàng)新,也歡迎加入RockAI,和我們一起探索群體智能的技術路線。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!