国产精品VA在线观看超清,国产高清不卡免费视频

　阿里云優(yōu)惠券先領券再下單

通往AGI終極之路,是什么?

這世界,沒有一個完整的定義,也沒有具體的答案。

此前曝出的OpenAI秘密路線圖,將通往AGI目標劃分五級。

而「草莓」o1模型出世,代表著第二級已經實現。

李飛飛估值10億美金獨角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。

他們計劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動。

國內一家AI初創(chuàng)團隊,對此也有不同的看法。

他們認為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個設備都擁有自己的智能,能夠以類人的方式交互。

不過,實現這一想法的前提是,我們需要一個創(chuàng)新的算法架構。

值得一提的是,這個團隊卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨特路線。

基于全新架構,他們打造的Yan系列模型已經植入到樹莓派、機器人、AIPC等終端設備中。

恰在RockAI開放日上,多模態(tài)模型Yan1.3全面升級,直接擊敗開源Llama 3,「真端側」最強大腦誕生了!

模型端到端,秒級實時人機交互

全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。

它模擬了人類復雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達。

可以說,它是全球首個人機交互領域中,端到端的多模態(tài)大模型。

憑借出色的架構設計,Yan1.3模型在兼容性和性能,取得了最優(yōu)的表現,從低算力到高算力全面覆蓋。

在不同終端上的體驗,多模態(tài)Yan1.3更是實現了秒級實時響應。

在CPU上秒級響應,GPU上更是有百毫秒級的人機交互,體驗非常絲滑趕超云端的大模型。

不如一起來看看,Yan1.3在手機、PC、機器人、無人機上,如何無損部署的。

低配1500元可跑,真·AI手機來了

在人手一臺手機的時代,搭載一個本地的大模型,那才是真·AI手機。

現場演示中,離線部署Yan1.3 3B參數的手機,直接斷網,上演了不用聯網也能體驗LLM的精彩一幕。

告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關于上海的一些簡單概要。

它還可以跨應用,完成系統(tǒng)的調用。

讓它打開相冊,并找出一張夕陽的照片。

RockAI不僅準確找到了夕陽照片,還給出了小紅書的風格描述,這種費腦的事兒,它全部代勞了。

更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。

RockAI直接進入短信界面,自動生成編輯了一段內容,你所做的就是點擊「發(fā)送」了。

可見,一個30億參數離線模型,同時具備了以文找圖、以圖生文,Agent、語音助手等能力,強大到足以讓人震撼。

在同等的手機硬件配置上,Yan1.3模型相比Transfomer有30%的性能超越。

或許有的人會問,能夠運行這樣的模型,一定需要高配的手機。

RockAI聯創(chuàng)鄒佳思稱,從低端￥1500到中端￥3000配置,而且還只是8G運行內存,都可以無損適配。

懂人話高效助手,AI PC更便利

不僅如此,在個人PC上,業(yè)界早就掀起了AI PC的概念。

但若是沒有在設備端完全部署模型,AI能力的使用會嚴重受限。而且,AI PC根本無法普及到大多數用戶。

接下來,這段現場演示中,直接為AI PC掐斷了網線。

上傳一段主持人的天氣預報音頻,然后AI智能助手將其實時轉錄成了文字。

轉寫完成后,還能幫你立即總結出一份摘要。

另外,每個人辦公時均會遇到一個困擾,「xxx圖片」誰知道保存到了哪個文件夾。

現在,這個煩惱完全可以打消了。

只要一句話,AI智能助手就能直接幫你找到想要的那個圖片。

而且,它還可以支持以圖搜圖的方式。

這些功能的實現,僅需要一臺配備英特爾Core i5主機即可流暢運行。

四步成詩,輕松拿捏新中式

Yan1.3還在人形機器人上,實現了離線運行。

我們都知道,構成機器人最核心的三要素,便是大腦、小腦、本體。

如果讓一個冰冷的機械,同時具備「看聽說想動」的能力,并基于已有的知識完成決策,最后指揮肢體進行行動。

這樣的前提,一定是離不開大模型、分層控制算法的植入。

當你呼叫小蘇小蘇,你看見了什么?

憑借強大的多模態(tài)認知能力,它準確地描述出了當前周圍的環(huán)境和布局。

另外,Yan1.3「大腦」控制的軀體,還能完成各類高效復雜的任務。

現場,讓小蘇吟詩一首——關于冬天的七言絕句,并在4步之內完成。

只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。

寒風凌冽雪紛飛,萬物蕭疏鳥自棲。唯有梅花凌雪放,清香四溢滿庭芳。

有趣的是,當小蘇吟詩后離拍攝者太近,讓它讓一讓。

只見,憨態(tài)可掬的它向另一邊慢慢踱步。

其實,在今年世界人工智能大會上,搭載Yan模型,基于樹莓派打造的胖虎機器人就亮相了。

它在現場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。

城市巡檢拍照,無人機全包了

而在無人機方面,搭載Yan1.3后的用法就更多了。

它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當那個為你抓拍美照的「男友」。

當然了,智能巡檢這類任務,對于一個城市管理來說非常重要。

植入離線模型的無人機,可以從多方位感知環(huán)境,快速識別圖像信息,自適應調整飛行高度。

它可以搭配手機,完成「端」和「端」的互聯操作。

交通巡檢過程中,它可以智能識別違規(guī)車輛,并將信息傳送到手機上。

當你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。

可見,全新升級的Yan1.3已經賦予了每個端側設備「靈魂」。

它不僅在無人機、機器人、PC、手機等終端設備中,絲滑適配,而且模型智能能力迎來了全新升級。

無需閹割模型,讓端側設備具備了完整性、可持續(xù)性。

這種類人的輸入輸出過程,不僅大幅地提升人機交互的質量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應用場景。

當一個最強端側完成進化,那么一群最強端側協作,能夠實現什么?

簡言之,群體智能。

群體智能,怎么實現?

其實,群體智能,很早就存在于生物界。

蟻群會一起搬運食物、搭建蟻巢;蜜蜂會各司其職,協作維護蜂巢;狼群結隊,捕獲獵物等等。

這些都是,生物界群體智能的體現。

縱觀生物界的發(fā)展,能夠得出一個基本規(guī)律——個體智能化程度越高,群體智能的表現力越強。

就像人類一樣,我們的群體智能,所表達出的文明程度遠遠高于蟻群、蜂群、狼群.......

從中汲取靈感,人工智能也會有「群體智能」。

單元大模型的智慧,能夠反哺整個大模型群體,進而讓AI群體更聰明、更智能。

或許你會說,其實國外很多研究,早就通過多個智能體協作,實現了高性能群體智能。

其實不然,它們之間有著本質的區(qū)別。

智能體本身,存在一個很大缺陷——不具備自主學習能力。

而且,智能體之間的協作,也是一個很小范圍的協作。

究其根本,是因為基于Transformer架構大模型搭建的智能體,實現自我訓練非常困難。

群體智能中最核心的要素便是個體,也就是「端」。

而基于Transformer架構的模型,若想在端上運行、并自主學習,根本不可行。

因為模型通常會被量化裁剪壓縮之后,才會植入端設備。而被閹割之后的模型,就不再具備學習能力。

那該如何破解?

為了實現群體智能,RockAI經過多年的技術沉淀,獨創(chuàng)了不同于Transformer的MCSD架構,并且提出了「類腦激活」機制。

這條路線,與OpenAI、World Labs有著本質區(qū)別,是國產公司在AGI前沿另辟蹊徑的嘗試。

Transformer不是唯一路徑

當前的現狀是,大模型領域早已呈現出Transformer「一家獨大」的格局。

用AI大神Karpathy的話說:最先進的GenAI模型,要么是自回歸訓練,要么是擴散訓練,底層的神經網絡通常都是Transformer架構。

雖然Transformer自身有許多優(yōu)秀的特質,但不可否認,這仍不是一個百分百完美的架構。

甚至,有很多業(yè)界AI大佬已經看到了其中的巨大弊端。

首當其沖的,就是被詬病已久的幻覺問題。

Yann LeCun認為,LLM的幻覺根源于當前所使用的自回歸Transformer架構。

「幻覺問題是自回歸LLM架構特有的」「自回歸LLM會產生幻覺…幻覺是自回歸生成的本質缺陷」

這種架構上的本質缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經90年代末走出SVM生態(tài)、3年前走出BERT生態(tài)一樣。

就連提出Transformer核心架構作者之一Aidan Gomez認為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。

「現在使用了太多計算資源,做了很多浪費的計算」

部署方面,基于Transformer架構模型對終端設備運行內存、儲存空間提出了更高要求,同時壓縮后的模型,在實際推理上大打折扣。

能源方面,今年3月,馬斯克表示,2025年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運行transformers(模型)。」

很明顯,無論是從減少幻覺、推動技術進步的角度,還是從環(huán)境保護、促進GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構誕生。

國內首個非Attention機制

RockAI首次提出的MCSD(Multi-Channel Slope and Decay)架構就是跳出Transformer路線的一次絕佳嘗試。

而MCSD最大的特點,便是替換了Transformer架構中的注意力機制。

隨著序列長度的增加,Transformer架構對計算資源的消耗呈現O(N^2)增長,相比之下,MCSD實現了線性擴展,而且推理速度更快,將空間和時間復雜度分別降低到了O(1)和O(N)。

直白講,MCSD全新架構能夠將算力消耗降至更低。

也就意味著,基于此架構打造的模型,在端側設備上運行有了新的可能。

論文地址:https://arxiv.org/abs/2406.12230

MCSD的具體架構如圖1所示,由嵌入層和N個相同的組合層堆疊而成,每個組合層中由兩個殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個RMS歸一化模塊,并使用GeLU作為激活函數。

MCSD塊的內部結構如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預定義矩陣捕捉局部和全局特征。

兩個部分均采用了雙分支設計,一個分支負責進行線性投影,另一個通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個分支進行擾動(perturbation)操作。

slope和decay部分主要存在兩方面的區(qū)別,一是預定義權重不同,因此在提取歷史信息時對上下文的感知能力不同,前者更注重短程上下文,后者則更關注全局上下文。

將slope和decay兩部分的輸出進行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關注到距離更近的歷史信息,也不會丟失更遠的長距離上下文,從而同時增強了局部和全局的特征提取。

此外,論文還提出通過遞歸形式簡化推理計算,將推理所用的空間和時間復雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。

實驗數據顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內存也幾乎不變。

給定序列長度后,隨著批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。

此外,有相同批大小或序列長度時,MCSD的吞吐量性能也遠遠好于Transformer架構。

除了大大節(jié)約吞吐量、延遲、內存消耗等方面的成本,MCSD還在基準測試上有更佳的性能。

類腦激活機制

基于MCSD架構,RockAI實現了能在「端側」運行群體智能單元大模型。

但這并不代表著,能夠在更多端側上實現最優(yōu)性能。

因此,RockAI還在Yan系列模型中采用了獨創(chuàng)的「類腦激活」機制,實現基于仿生神經元驅動的選擇算法。

在主流的神經網絡中,每次推理都需要激活全部神經元,這會導致大量算力浪費。

而人腦的運作并非如此。

不同的大腦區(qū)域負責不同的認知功能,因此不同的執(zhí)行不同的任務只會造成一部分腦神經元的激活,而且激活的區(qū)域也各有不同。

比如開車時,視覺皮層會更加活躍;而寫作時,掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調動每個處理單元的計算機,大腦明顯更加「節(jié)能」。

因此,模擬大腦中的神經元激活模式,可以讓神經網絡更加高效地處理復雜數據和任務,從而顯著提升計算效率和精度。

通過以上兩種方式結合,一是用MCSD替換注意力機制,而是通過選擇性神經元計算,帶了極致低算力消耗。

正是基于如此強大的「雙機制」,RockAI在今年1月發(fā)布了國內首個非Transformer架構的大模型Yan 1.0。

隨之7月,發(fā)布了國內首個終端多模態(tài)大模型Yan 1.2。

經過幾次迭代,目前已經升級為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點,是群體智能的單元大模型。

厚積薄發(fā),終極目標邁向群體智能

要實現AI的群體智能,并不是一件簡單的事,提出MCSD架構和「類腦激活」機制,只是一個開始。

為了達到群體智能,RockAI將這個大目標分解為4個階段的子目標,一步步穩(wěn)扎穩(wěn)打。

目前,他們已經跨越了第一級,正在完成第二級的躍升。

創(chuàng)新基礎架構,是要跳出Transformer的既定路線,旨在實現模型性能效率的跨越式發(fā)展;

多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實現條件。

隨著Yan 1.3模型的發(fā)布和廣泛部署適配,意味著前兩個階段的目標已經基本實現。

從Yan 1.0到Yan 1.3,不僅覆蓋了更多設備,還實現了端到端的多模態(tài)支持。

輸入輸出形式包含了文本、語音、視覺在內的多模態(tài),不但大大方便人機交互,還能讓多個AI模型之間更靈活地交流同步。

下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強化模型的自主學習、自我優(yōu)化能力,讓AI更好地和真實的物理世界交互。

在Yan系列智慧生態(tài)的基礎上,持續(xù)的群體進化將成為可能,最終繪制出「群體智能」的未來藍圖。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

「群體智能」劍指AGI革命！國產架構挑戰(zhàn)Transformer霸權，首款非Attention模型更新

相關文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯解答互聯網廣告的存在意義何在？

熱門標簽