文 | 智能相對論
作者 | 沈浪
隨著OpenAI在2024開年發(fā)布Sora引爆市場,視頻大模型成了新一代“全球通殺”的AI技術,也讓業(yè)界對誰能成為“中國版Sora”充滿了期待。
其結果,是各類廠商在龐大的市場蛋糕驅動下,都不可避免地爭做“中國版Sora”。而正如歷次技術重大革新浪潮中,“中國版”的名頭并非誰最先做出來,誰就能戴上王冠,其背后,自帶兩重要求:
首先,“中國版”本身意味著對本土內容創(chuàng)作有直接的驅動價值,否則大模型創(chuàng)新價值將減少,陷入“別人有所以我才要有”的邏輯中,而不是真正圍繞本土價值展開。這是價值標準和導向。
然后,要能力夠強、夠全面,要能對標到“Sora”的能力方向,而不是差較遠。這是基礎也是底氣。
“中國版”+“Sora”,組合起來,才是“中國版Sora”。
欣慰的是,智能相對論發(fā)現(xiàn),目前業(yè)內部分大模型已開始展現(xiàn)這一潛力。今年1月初,AIGC軟件A股上市公司萬興科技(300624.SZ)發(fā)布了國內首個專注于數(shù)字創(chuàng)意領域的音視頻多媒體大模型——萬興“天幕”,并憑借大模型在視頻、音頻、圖像、文本等多媒體領域的強大能力,吸引了業(yè)界的廣泛關注。據介紹,萬興“天幕”依托15億用戶行為數(shù)據和百億本土化音視頻數(shù)據,具備近百項音視頻原子能力,并已通過中央網信辦備案。
前不久,萬興“天幕”正式開放公測,提供了包括文生視頻、文生音樂、文生音效、文生圖等等多樣化功能的測試入口,其中文生視頻功能支持一鍵生成60秒+視頻。上周末,睽違4年的《歌手2024》震撼開唱,而據透露,節(jié)目片頭中部分畫面便是由萬興“天幕”支持生成,超高清晰度的精致畫面更是吊足了視頻從業(yè)者的胃口。
(《歌手》片頭部分畫面由萬興“天幕”技術加持生成)
萬興“天幕”綜合能力究竟如何,有是否真的能生成60+秒視頻?《智能相對論》特別在萬興“天幕”近期公測期間,體驗了相關能力。
1.基本操作:小白友好,可體驗7大功能
(萬興“天幕”公測頁面)
打開萬興“天幕”的公測頁面,7大功能陳列在左側功能欄,包括文生視頻、視頻風格化、文生音樂、視頻配樂、文生音效、文生圖、圖生圖,完美契合了“音視頻大模型”這一定位。
目前,每個功能每日可進行10次生成;具體到操作層面,每個功能的操作都很簡單,基本都只需要進行prompt輸入+選擇風格即可生成,新手也可快速上手,符合其“賦能創(chuàng)作者”的定位。
2.文生視頻功能實測:“中國特色”理解力及生成效果表現(xiàn)優(yōu)異
在萬興“天幕”的介紹中,“本土化音視頻數(shù)據”引人注目。目前包括Sora、MidJourney等在內的大部分視頻/圖像生成模型,都主要是以海外數(shù)據進行訓練,對中國元素的生成仍舊不盡如人意。作為國產音視頻大模型的先鋒者,除了視頻整體效果外,萬興“天幕”在“中國特色”內容的生成層面表現(xiàn)如何,也是我們這次測評的重點之一。
點開文生視頻功能頁,輸入描述詞“張家界美麗的自然風光,包括其標志性的柱狀山脈、茂密的森林和云霧繚繞的景觀”。等待5分鐘后,一段60秒長度的視頻就生成出來了。單從生成效率來看,天幕表現(xiàn)不錯。
(萬興“天幕”文生視頻頁面)
接下來具體看看生成效果。
描述詞還原度方面,表現(xiàn)得可圈可點——張家界的景色特點鮮明,奇峰聳立、山巒疊嶂、云霧繚繞,且整體畫面自然真實,細節(jié)上也完成得不錯。此外值得注意的是,天幕在沒有任何動作、情節(jié)描寫的簡短描述詞的基礎上,進行了不少“自我創(chuàng)作”,不僅有遠景近景以及視角的變幻,還可根據自己的理解,在畫面中增加了河流、寺廟、花朵等視覺元素,讓1分鐘時長的視頻內容更豐富、變化更多樣。
(萬興“天幕”部分視頻生成效果)
3.多媒體內容生成實測:“六邊形戰(zhàn)士”發(fā)揮穩(wěn)定
作為全國首個音視頻多媒體大模型,天幕不僅僅具備文生視頻能力,更集合了音頻、圖像等其他多媒體種類的內容生成能力。接下來,就一起來看看天幕在其他內容類型上的表現(xiàn)吧。
首先是圖像生成。還是張家界,這次我們加點人物進去,選取“電影打光”風格,輸入提示詞“一名游客在張家界快樂地游玩,寫實風格”,幾秒后圖片就生成出來了。
從生成效果來看,景色展示一如既往的穩(wěn)定,這次描述詞中沒有具體的景色描寫,但是可以看到張家界的特色依舊很明顯。
此外,圖片中還有一個細節(jié)非常驚喜。描述詞中強調人的特征,但是天幕自然而然生成了中國人的形象,不論是畫面中的主要人物還是作為背景展現(xiàn)的其他游客形象,都是清一色的黑頭發(fā)黃皮膚。自信大方的笑容,自然輕松的體態(tài),非常符合日常的穿著。
(萬興“天幕”文生圖效果)
接下來,看看文生音效的表現(xiàn)。輸入描述詞“鳥叫聲”即可生成,很快就生成出10秒的音頻出來。質量方面,鳥叫聲非常清脆逼真,用來作為視頻的背景音效毫無問題。
(文生音效頁面)
綜合來看,天幕已經具備了多模態(tài)處理能力,任務完成度和一致性上表現(xiàn)不錯,已經初現(xiàn)“六邊形戰(zhàn)士”雛形,是目前市面上少見的以本土內容為核心進行訓練及生成的大模型。隨著后續(xù)技術的持續(xù)發(fā)展,通過不斷的打磨及投喂訓練,相信天幕會是一個非常不錯的產品。
4.天幕未來展望:素材“彈藥”生產商
從實際體驗層面,天幕在風景、場景類畫面生成上確實表現(xiàn)不錯,同時還具備音頻、圖像等多模態(tài)內容的生成能力。結合目前透露的信息來看,萬興科技為天幕規(guī)劃的未來發(fā)展方向已呼之欲出:相較業(yè)界普遍討論的所謂“一鍵成片”“AI生成成品視頻”,天幕當前階段在素材類內容生成上表現(xiàn)突出,可為商業(yè)廣告、影視、旅游、社媒等視頻創(chuàng)作提供豐富的素材“彈藥”。
這也符合技術發(fā)展規(guī)律以及商業(yè)化落地基本邏輯。技術層面,由于數(shù)據集限制以及理解難度的指數(shù)級上升,視頻生成技術在完成度上仍有較大提升空間,其中自然景色類視頻相較人像類視頻的視頻數(shù)據更充分、完成度較高。
商業(yè)邏輯層面,視頻市場規(guī)模正在不斷擴大,但AI內容在其中的切入角度還需要持續(xù)探索。目前來看,空鏡頭類素材在商業(yè)化層面的優(yōu)先級更高,人像類視頻則通常傾向于真人出鏡,還需要經歷一定的技術和效果跨越。
總之,實測下來,可以說,“中國版Sora”是業(yè)界期許,也在萬興“天幕”上看到可能性。應用驅動大模型發(fā)展、磨煉技術實力,以萬興科技為代表的先鋒者仍在持續(xù)探索和實踐。相信假以時日,萬興科技為代表的國產廠商,將帶領從業(yè)者們共同奔赴更美好的AI+視頻未來。
此內容為【智能相對論】原創(chuàng),
•AI產業(yè)新媒體;
•澎湃新聞科技榜單月度top5;
•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
•著有《人工智能 十萬個為什么》
•【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!