如何實(shí)現(xiàn)“數(shù)字人自由”,顛覆內(nèi)容生產(chǎn)行業(yè)?一是通過標(biāo)準(zhǔn)化、平臺(tái)化,吸引更多用戶、企業(yè)、行業(yè)擁有數(shù)字人;二是基于平臺(tái)打造的生態(tài)鏈服務(wù),降低數(shù)字人高門檻、高投入。
作者|楊 銘
編輯|劉珊珊
1305年,元代畫壇宗師黃公望以富春江山水為背景,創(chuàng)造的曠世名作《富春山居圖》,譽(yù)為“中國十大傳世名畫”之一。
此畫在民間流傳甚久,清代順治年間遭火焚,從此斷為長短兩卷。前段現(xiàn)收藏于浙江省博物館,較長后段現(xiàn)藏臺(tái)北故宮博物院。一幅名畫,就這樣遺憾斷離失散數(shù)百年。
AI技術(shù)迭代飛躍,讓曠世名作“合璧”,再現(xiàn)江南意象成為可能——2022百度世界大會(huì)現(xiàn)場,百度利用文心大模型的AIGC能力一秒讓《富春山居圖》“重生”后,600年前的富春山水進(jìn)入全國觀眾眼簾。
與其他習(xí)以為常的老照片、老電影、演唱會(huì)等AI修復(fù)術(shù)不同,如果用戶在百度App搜索“富春山居圖”,每個(gè)人都可以根據(jù)自己想法“虛擬補(bǔ)全”,創(chuàng)作屬于自己的《富春山居圖》。
站在技術(shù)發(fā)展角度,人人都能補(bǔ)全自己心中的《富春山居圖》,正是下一代互聯(lián)網(wǎng)Web3.0最好落地探索——兼具去中心化和交互性理念的Web3.0,能讓用戶共建、共治的同時(shí)分享平臺(tái)價(jià)值。
Web3.0也稱Web3,是最近兩年加密貨幣、元宇宙浪潮下共同推動(dòng)的熱門詞匯,被公認(rèn)為互聯(lián)網(wǎng)下一個(gè)時(shí)代。資本、互聯(lián)網(wǎng)企業(yè)扎堆進(jìn)入下,Web3何時(shí)能現(xiàn)實(shí)快速落地,一直備受業(yè)界追問。
答案呼之欲出。從本屆百度世界大會(huì)來看,除了AI修復(fù)曠世名作,一系列AI數(shù)字人不同場景落地應(yīng)用案例,都是基于大眾對Web3、數(shù)字人自由的未來生活想象圖景。
無論是Web概念從祛魅到快速落地,還是數(shù)字人內(nèi)容產(chǎn)業(yè)迭代升級,都離不開AIGC賦予的強(qiáng)大生產(chǎn)力。“未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式。”百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏說。
01
數(shù)字人進(jìn)化,關(guān)鍵在AIGC
“今天起得太早了,又累又困,我想點(diǎn)杯咖啡呀?”當(dāng)央視主持人撒貝寧用“十級”粵語點(diǎn)咖啡,度曉曉能秒懂下單嗎?
度曉曉是目前大火的百度AI數(shù)字人,此前她與龔俊數(shù)字人聯(lián)合演唱的《每分 每秒 每天》歌曲MV刷屏全網(wǎng)。后來,她又在各種場合表現(xiàn)出驚人的寫作、繪畫、采訪等等“天賦”。
和演唱、寫作、繪畫相比,度曉曉此次挑戰(zhàn)難度翻倍——粵語本就晦澀難懂,撒貝寧個(gè)性化提問又極其刁鉆,她必須“聽到”撒貝寧的話,并快速“理解”字句,實(shí)時(shí)轉(zhuǎn)換成手語“動(dòng)作”,并在App上直接點(diǎn)單。
這意味著相比其他數(shù)字人,度曉曉需要有更高強(qiáng)度的“大腦”運(yùn)轉(zhuǎn),接近真人的情感理解,才能完成流程復(fù)雜的工作需求。
毋庸置疑,數(shù)字人度曉曉能否完成挑戰(zhàn),取決于她在AI技術(shù)上的迭代速度和“學(xué)習(xí)能力”。
數(shù)字人最早可追溯到2007年,以語音合成程序?yàn)榛A(chǔ)開發(fā)的音源庫“初音未來”。受限于技術(shù),此后數(shù)字人多以二次元形象出現(xiàn),直到2016年人工智能“絆愛”,才讓虛擬主播熱潮席卷全球。2021年元宇宙概念大火后,數(shù)字人更是吸引無數(shù)企業(yè)聚焦、資本追逐。
Web3浪潮涌動(dòng),數(shù)字人被賦予更多意義,從Web2世界里“工具性賦能”輔助角色,躍升為Web3世界不可或缺的基礎(chǔ)設(shè)施——數(shù)字“原住民”。
因此,國內(nèi)外互聯(lián)網(wǎng)大廠探索Web3,往往通過數(shù)字人“卡位”Web3的試驗(yàn)場和前哨陣地。數(shù)字人的市場價(jià)值也隨之被持續(xù)抬高,IDC報(bào)告顯示,中國AI數(shù)字人市場規(guī)模呈現(xiàn)高速增長趨勢,預(yù)計(jì)到2026年將達(dá)102.4億元人民幣。
想贏得“卡位戰(zhàn)”勝利并不容易。技術(shù)層面看,大多數(shù)字人僅能進(jìn)行簡單決策——大多依靠“2D或3D模型+實(shí)時(shí)動(dòng)作捕捉+聲優(yōu)配音”模式,無法實(shí)現(xiàn)智能化交互,在業(yè)界屬于2.0階段,難以順利實(shí)現(xiàn)撒貝寧的“十級粵語”點(diǎn)咖啡挑戰(zhàn)。
作為一種繼UGC、PGC之后全新的內(nèi)容生產(chǎn)方式,不斷進(jìn)化的AIGC——顧名思義,即人工智能自動(dòng)生成內(nèi)容,成為業(yè)界解題思路。
AIGC并非新概念,近年來很多AI虛擬數(shù)字人用到了AIGC能力。2015年,國外曾出現(xiàn)兩撥基于單點(diǎn)技術(shù)把產(chǎn)品迅速做火的AIGC案例,但受限于技術(shù)和成本,大多未能推廣開來。
行業(yè)對AIGC能力的要求,一直在升級之中。最早AIGC僅需要以假亂真,通過既定圖片或語音生成風(fēng)格一致內(nèi)容,但在Web3時(shí)代,數(shù)字人用到AIGC,除了基本的近真人需求,還要具有超強(qiáng)的創(chuàng)造力,像人一樣學(xué)習(xí)溝通和工作。
為什么數(shù)字人對AIGC能力要求越來越高?
“‘技術(shù)+應(yīng)用+發(fā)展’三位一體,正在持續(xù)提升數(shù)字人產(chǎn)業(yè)‘天花板’。”市場調(diào)研機(jī)構(gòu)IDC就指出,PGC、UGC這樣的生產(chǎn)模式,已不適應(yīng)數(shù)字人本身的技術(shù)驅(qū)動(dòng)和需求牽引。
從產(chǎn)品技術(shù)趨勢看,未來數(shù)字人將由AI驅(qū)動(dòng)內(nèi)容生成,多模態(tài)AI技術(shù)是核心;交互會(huì)越來越智能;形象越來越逼真,由擬人到類人到同人,只有AIGC才能實(shí)現(xiàn)。
行業(yè)應(yīng)用趨勢看,未來幾年人類與數(shù)字人開始并存;從產(chǎn)業(yè)落地趨勢看,出行、產(chǎn)業(yè)、生活等千行百業(yè)正在加速向數(shù)字化轉(zhuǎn)型和智能升級——這意味著,對AIGC能力的需求,并不局限在數(shù)字人行業(yè),而是應(yīng)用于各行各業(yè)。
02
效率提升千倍,顛覆現(xiàn)有生產(chǎn)模式
僅就百度世界大會(huì)而言,如今百度AIGC能力輸出已經(jīng)可以達(dá)到近真人,甚至超越人類水平。
度曉曉能秒懂完成撒貝寧的“刁鉆提問”,依靠的是不斷進(jìn)化的AIGC能力——不斷汲取海量數(shù)據(jù)過程中,度曉曉的“自主能力”呈指數(shù)級增長,不僅能準(zhǔn)確捕捉并判斷用戶搜索及服務(wù)類需求,和用戶互動(dòng)交流更為生動(dòng)有趣。甚至,她還會(huì)反問用戶意想不到的問題。
這種有邏輯、有個(gè)性的交互、反饋,是度曉曉采用AIGC能力后,與其他數(shù)字人的最大不同。
《富春山居圖》山水最終“合璧”,背后核心技術(shù)也來自AIGC的“自主”修復(fù)能力——盡管原畫被焚燒部分后人已無法知曉,但在黃公望紀(jì)念館負(fù)責(zé)人毛傳鑌看來,“與現(xiàn)存真跡風(fēng)格一致,光線風(fēng)格統(tǒng)一,山水脈絡(luò)和諧,不僅符合原畫審美特點(diǎn),視覺上還同樣具有觀賞價(jià)值”。
真假難辨表現(xiàn)能力輸出外,AIGC更重要的是提升內(nèi)容生產(chǎn)效率,讓數(shù)字人的落地應(yīng)用領(lǐng)域越來越廣泛、越來越深。
目前,度曉曉已成百度搜索能力重要進(jìn)化。用戶直接在百度App搜索“你好”,即可召喚度曉曉,通過“問一問”4萬多名答主快速匹配專業(yè)回答,連接科技到用戶的最后一公里,進(jìn)入“人均一個(gè)數(shù)字人”時(shí)代。
另一百度AI數(shù)字人希加加,同樣會(huì)作畫、寫詩、作曲、說多國語言、還能實(shí)時(shí)直播。7月21日的大會(huì)直播中,她還和撒貝寧搭檔,擔(dān)當(dāng)AI策劃官兼主持人,同時(shí)在現(xiàn)場用幾十秒完成繪畫。
生產(chǎn)效率上,AIGC提升明顯。比如,1秒讓國寶級名畫完美合璧,度曉曉1秒寫1篇作文,希加加直播中幾秒畫一幅畫——與人類生產(chǎn)效率相比,這是指數(shù)級的提升。
這是李彥宏認(rèn)為未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式的重要原因。“可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”
而AIGC自主學(xué)習(xí)能力,在李彥宏看來也會(huì)創(chuàng)造出有獨(dú)特價(jià)值和獨(dú)立視角的內(nèi)容。
的確如此,在AI創(chuàng)作、AI作畫、AI作曲、AI剪輯等內(nèi)容創(chuàng)作領(lǐng)域,外界直觀感受到的數(shù)字人的生產(chǎn)能力,早已遠(yuǎn)遠(yuǎn)超過一般人類。而AI主播、AI創(chuàng)意、AI智能新聞播報(bào)等,也在進(jìn)入應(yīng)用場景深化之際。
這些都在助推AIGC的進(jìn)一步進(jìn)化。根據(jù)李彥宏最新判斷,AIGC將走過“助手”(輔助人類內(nèi)容生產(chǎn))、“協(xié)作”(虛實(shí)人形態(tài)出現(xiàn),人機(jī)共生)、“原創(chuàng)”(AIGC獨(dú)立完成內(nèi)容創(chuàng)作)三個(gè)發(fā)展階段。
不斷進(jìn)化的度曉曉、希加加們,很大程度上已經(jīng)表明,百度AIGC能力正從“協(xié)作”加速跨入“原創(chuàng)”階段,助推數(shù)字人進(jìn)入更多元化應(yīng)用場景,迎來AIGC浪潮時(shí)代。
但從業(yè)界看,其實(shí)大部分AIGC能力輸出還處于“助手”或“協(xié)作”階段。
“數(shù)字人要用好AIGC能力,做到真假難辨,技術(shù)難度非常大,成本非常高,最終導(dǎo)致數(shù)字人制造成本較高,生產(chǎn)效率低下。”一位業(yè)界人士表示。
AIGC從業(yè)人士陳雨恒在接受媒體采訪時(shí)也提到,AIGC分為兩大部分:一是圖像側(cè)AI,包括圍繞人物角色展開的骨骼動(dòng)畫生成、面部表情生成、動(dòng)作捕捉等技術(shù);二是邏輯側(cè)AI,包括圍繞語言對話展開的語義理解、語言模型、對話機(jī)器人等技術(shù)。“無論哪一側(cè),都面臨技術(shù)、成本門檻問題。”
這方面案例并不少。利用到AIGC能力的柳夜熙,去年10月以來憑借“捉妖”題材短視頻爆紅,10個(gè)月過去才發(fā)布19個(gè)作品,遠(yuǎn)遠(yuǎn)不能滿足用戶高頻需求。英偉達(dá)在2021年動(dòng)用34個(gè)3D美術(shù)師、15個(gè)軟件研究人員,做了21個(gè)版本的黃仁勛,才呈現(xiàn)出一個(gè)真假難辨的“數(shù)字人”。
AIGC能力的差異,成為百度領(lǐng)跑數(shù)字人產(chǎn)業(yè)重要原因。最新數(shù)據(jù)顯示,度曉曉在《2022虛擬數(shù)字人商業(yè)價(jià)值潛力》榜單中排名第一;在更多第三方機(jī)構(gòu)發(fā)布的榜單中,依托百度 AI 的全棧能力,百度在數(shù)字人綜合實(shí)力方面排名第一。
03
AI降低創(chuàng)作門檻,實(shí)現(xiàn)“數(shù)字人自由”
百度領(lǐng)跑AIGC能力原因何在?
原因看上去很簡單,不管是AI數(shù)字人,還是“補(bǔ)全”《富春山居圖》,百度AIGC背后的技術(shù)支撐,離不開百度搜索引擎海量數(shù)據(jù)的先天優(yōu)勢(數(shù)億日活)、產(chǎn)業(yè)級深度學(xué)習(xí)平臺(tái)飛槳和產(chǎn)業(yè)級“知識增強(qiáng)”大模型文心的AI綜合沉淀能力,并由此帶來的創(chuàng)作門檻、創(chuàng)作成本的大幅降低。
2016年,百度打造了中國第一個(gè)自主研發(fā)、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺(tái)飛槳。2019年,基于飛槳,百度開始深耕預(yù)訓(xùn)練模型研發(fā),從大規(guī)模知識和海量數(shù)據(jù)中融合學(xué)習(xí),打造具備“知識增強(qiáng)”能力的文心大模型。
比如,數(shù)字人畫畫能力,使用的是文心大模型——跨模態(tài)圖文生成模型ERNIE-ViLG;而人對話能力,使用的是對話生成大模型——文心 PLATO,PLATO有接近真人水平的對話能力,對話效果已經(jīng)達(dá)到世界領(lǐng)先水平。
《富春山居圖》合璧,就是文心大模型能力完整體現(xiàn):其先是學(xué)習(xí)大量中國山水畫,實(shí)現(xiàn)從“小白”向“大師”的進(jìn)階,再去學(xué)習(xí)就可以讓補(bǔ)全出來的畫作與現(xiàn)存真跡風(fēng)格一致。
這就是“視覺生成大模型+單樣本微調(diào)”的技術(shù)策略,意味著該模型可以在更多書畫文物修復(fù)以及普通人書畫藝術(shù)創(chuàng)作中,發(fā)揮重要作用。
AIGC方向外,文心大模型還廣泛應(yīng)用于搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,并通過飛槳開源開放平臺(tái)、百度智能云賦能工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè),幫助千百行業(yè)降本增效以及智能化升級。
這正是百度大腦、飛槳和文心大模型等綜合AI技術(shù)的核心價(jià)值——降低制作成本,實(shí)現(xiàn)大規(guī)模應(yīng)用。
在數(shù)字人產(chǎn)業(yè),更是幫助百度解決落地難問題的關(guān)鍵——產(chǎn)業(yè)鏈割裂、服務(wù)場景與演藝場景沒有有效打通、滿足高頻需求成本高,是當(dāng)前業(yè)界公認(rèn)的數(shù)字人落地難題,也是實(shí)現(xiàn)“數(shù)字人自由”的最大障礙。
這些問題,歸根結(jié)底是數(shù)字人生產(chǎn)效率、制作成本問題。百度解題思路是,通過AI底層技術(shù)支撐和成熟實(shí)踐,打造了數(shù)字人平臺(tái)“百度智能云曦靈”,讓數(shù)字人制作成本、生產(chǎn)周期大幅下降。
目前“曦靈”形成了一個(gè)“AI數(shù)字人家族”,擁有數(shù)十萬度曉曉這樣能力的數(shù)字人。最重要的是,普通用戶也可以通過“曦靈”快速生成自己的數(shù)字人——只需上傳一張照片,就能用分鐘級生成一個(gè)可被AI驅(qū)動(dòng)的2D數(shù)字人像,以前需要兩三個(gè)月時(shí)間做出來的3D數(shù)字人,現(xiàn)在可以壓縮到一兩周。并且,這些數(shù)字人的AIGC能力非常成熟,ASR(聽得清)準(zhǔn)確性可達(dá)98%以上。
多位業(yè)內(nèi)人士認(rèn)為,這是實(shí)現(xiàn)“數(shù)字人自由”的重要方向:一方面通過標(biāo)準(zhǔn)化、平臺(tái)化,吸引更多用戶、企業(yè)、行業(yè)擁有數(shù)字人;另一方面基于平臺(tái)打造的生態(tài)鏈服務(wù),降低數(shù)字人的高門檻、高投入。
這讓百度在數(shù)字人行業(yè)有更大領(lǐng)跑機(jī)會(huì)。百度“AI數(shù)字人家族”原來集中在金融、銀行、供應(yīng)商客戶,現(xiàn)在增加到廣電、互聯(lián)網(wǎng)娛樂、傳統(tǒng)工業(yè)等諸多B端客戶,另外C端的需求也越來越多——比如諸多品牌商的虛擬代言人合作需求。
04
叩門Web3.0,百度體現(xiàn)中國力量
“未來每個(gè)企業(yè)、每個(gè)人都有一個(gè)、甚至多個(gè)專屬的數(shù)字人。”2019年4月,李彥宏在百度與浦東銀行的數(shù)字人合作會(huì)上如此表示。
兩年過去,伴隨B端、C端齊頭快跑,更多數(shù)字人各種場景的落地應(yīng)用,這個(gè)愿景逐漸變成現(xiàn)實(shí)。
這一切,源于百度對AI領(lǐng)域壓強(qiáng)式、馬拉松式的研發(fā)投入。公開數(shù)據(jù)顯示,研發(fā)投入方面,2021年百度核心研發(fā)費(fèi)用221億元,研發(fā)投入強(qiáng)度位列中國民營企業(yè)500強(qiáng)第一位。
如今,AI早已成為百度引擎之一。飛槳、文心大模型、深度語音系統(tǒng)、百度大腦、度秘、Apollo自動(dòng)駕駛平臺(tái)等多個(gè)AI相關(guān)的技術(shù),都是百度不計(jì)成本投入的注腳。
百度由此打下未來元宇宙、Web3時(shí)代牢固的基礎(chǔ)設(shè)施——Web3衍生出的三大基礎(chǔ)設(shè)施分別是數(shù)字人、數(shù)字藏品、元宇宙。除了AI數(shù)字人,其余兩方面百度均基于AI能力有深入布局。
數(shù)字藏品是支撐Web3經(jīng)濟(jì)體系的核心要素。百度2017年成立區(qū)塊鏈技術(shù)部門,2022年上線超級鏈數(shù)字產(chǎn)品平臺(tái)。如今,百度超級鏈已推出30多個(gè)全場景、全行業(yè)、全領(lǐng)域解決方案,打造出諸多標(biāo)桿案例。
今年6月,中國探月航天以數(shù)字藏品形式發(fā)行我國第一艘數(shù)字載人飛船“夢想號”,招募1萬名“太空數(shù)字乘客”上太空,背后依靠的正是百度超級鏈技術(shù)。
元宇宙則是開放的Web3數(shù)字空間。去年12月,百度在AI開發(fā)者大會(huì)上發(fā)布了元宇宙產(chǎn)品“希壤”。百度智能汽車品牌“集度”的首款汽車機(jī)器人概念車,就是在希壤全球首發(fā)。
這些都讓百度在大廠扎堆Web3的競賽中,處于行業(yè)領(lǐng)跑地位——相比“社交+Web3“、“支付+Web3”、“電商+Web3”等等模糊概念,百度無疑是最早叩開Web3落地大門的那一個(gè)。
“相較于布局直接和消費(fèi)者互動(dòng)的‘前端’,百度正在布局的是能夠支撐起Web3的‘后端’,即從底層技術(shù)到產(chǎn)品、再到標(biāo)準(zhǔn)化解決方案的基礎(chǔ)設(shè)施。”百度集團(tuán)品牌負(fù)責(zé)人曹語馨曾如此介紹。
如今在業(yè)界,互聯(lián)網(wǎng)大廠Web3情緒更為火熱,爭搶下一代互聯(lián)網(wǎng)話語權(quán)。包括Meta、谷歌、亞馬遜、阿里、騰訊、字節(jié)跳動(dòng)、華為、推特、eBay、奈飛等等,都已爭相入局。但無論如何競爭,都需要讓用戶、行業(yè)切實(shí)感受到真正改變。
這仍然需要依托AI全棧能力。至少,不能出現(xiàn)直播無人駕駛技術(shù)時(shí),因頻頻提及“開車”而被直播系統(tǒng)判斷為違規(guī),從而斷掉直播的“梗”。
從這個(gè)角度看,當(dāng)出行、產(chǎn)業(yè)、生活等千行百業(yè)正加速向數(shù)字化轉(zhuǎn)型和智能升級——百度在AI數(shù)字人等基礎(chǔ)設(shè)施上的大規(guī)模落地應(yīng)用,即是對內(nèi)容生產(chǎn)模式上的顛覆變革,也是Web3中國重要力量的體現(xiàn)。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!