1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. AI智能
  4. 正文

8款AI視頻生成產品實測,誰將成為中國Sora?

 2024-03-27 11:06  來源:A5用戶投稿  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

©自象限原創(chuàng)

作者丨羅輯、蘇奕

編輯丨程心

2024年開年,科技圈沒有什么比Sora的出現更讓人興奮。

如同ChatGPT在2023年初帶來的LLM創(chuàng)業(yè)潮,Sora的發(fā)布也同樣將視頻生成模型推到了風口浪尖。

科技巨頭猛推產品,創(chuàng)業(yè)公司則乘風而上。

3月13日,AI視頻大模型公司愛詩科技完成億元級人民幣A1輪融資;3月12日,生數科技完成數億元A輪融資;3月1日,AI視頻生成 SaaS服務商「布爾向量」完成近千萬元融資...

Sora首次踐行了DiT架構,將過去各自獨立的擴散模型和大模型融合在了一起,也將視頻生成模型的歷史翻開了新的篇章。

毫無疑問,一場新的技術風暴正在到來。一夜之間,國內大大小小的視頻生成大模型爭搶“中國版Sora”的標簽。

為了探究這個問題的答案,「自象限」通過國內已有的視頻生成產品進行實際體驗,并結合公開信息、第三方檢測機構數據等多個維度,對當下主流的視頻生成模型進行了全面評估。

我們將從產品設計、實測效果和行業(yè)分析三個角度,全面探究,究竟誰能成為“中國版Sora”?

一、DIT的創(chuàng)新,誰能復刻?

Sora的風雖然才剛剛從大洋彼岸吹到了中國,但視頻生成卻不是什么新鮮的話題。

在此之前,這個賽道已經經歷了Runway的Gen-2、Pika1.0和谷歌VideoPoet的幾波革命浪潮,終于來到了生成效果更好、時間更長、邏輯性更強、更穩(wěn)定性的“Sora”時刻。

「自象限」梳理繪制出了國內視頻大模型公司及產品的基本情況。

▲圖:國內外視頻生成大模型企業(yè)一覽,訪問量以2024年2月計

在國外,谷歌、微軟這類“硅谷老錢”很早就投入到了多模態(tài)視頻生成的研究中。去年,谷歌發(fā)布了多模態(tài)大模型Gemini和VideoPoet視頻大模型,讓人從直觀的效果層面看到了多模態(tài)生成視頻的可能性。

在國內,多模態(tài)技術路徑方向上我們看到了更多的可能性,既有技術積累深厚的大廠百度,也有大模型獨角獸公司智譜,還有像生數科技、智象未來一類以多模態(tài)大模型為目標的創(chuàng)業(yè)公司。

擴散模型路線是文生視頻的主流路線,在保證效果生成上發(fā)揮著重要的作用,所以即使是驚為天人的Sora在底層架構上也只是改造,而非全盤顛覆。

無論國內外,在這條道路都最為擁擠,首先是一手打造和開源擴散模型的Stability AI公司,緊跟其后的是猛猛向前沖的Runway、Pika,然后才是OpenAI、Meta、英偉達這些巨頭。

回到國內,騰訊、阿里、字節(jié)三個大廠在前期幾乎包攬了視頻生成領域的研究,時不時地拋出一個demo小小地驚艷一下。但真的談到落地產品,還是創(chuàng)業(yè)公司明顯更快一步,比如愛詩科技、Morph studio、右腦科技等公司已經開始面向用戶開放。

被稱之為“Sora路線”的DiT,全稱為Diffusion Transformer,本質是把訓練大模型方法機制融入到了擴散模型之中,從Sora技術報告呈現的結果來看,大力出奇跡之下可能會產生世界物理模擬器的效果。

如今,Sora的底層架構被扒了個遍,訓練的組件和技術也在開源的路上,但這也并不意味著人手一個Sora指日可待,技術、數據、算力、訓練規(guī)模都是一道道關卡。

近期,Sora核心團隊負責人在采訪中透露:“Sora目前還處于反饋獲取階段,還不是一個產品,短期內不會向公眾開放。”

從技術路線上看,國內的愛詩科技是少數從一開始就堅持了DiT路線的企業(yè),其創(chuàng)始人王長虎在公開采訪中談到,Sora的出現驗證了愛詩視頻生成大模型的方向正確性。正因如此,愛詩科技定下了“3—6 個月趕超Sora”的目標,抓住機會,奮起直追。

二、產品實測,用戶“跑分”

在視頻生成模型賽道,目前國內的創(chuàng)業(yè)公司大致可以分為兩類。

一類是以愛詩科技(PixVerse)、生數科技(PixWeaver)、 Morph Studio和智象未來(Pixeling)為代表的自研基礎大模型,聚焦通用場景的視頻生成工具。

另一類則包括右腦科技(Vega AI)、李白AI實驗室(神采promeai)、毛線球科技(6PenArt)、布爾向量(boolv.video)和MewXAI(藝映AI)。這一類數量更多,也更加產品化,專注于解決某一類場景下的問題,更像是一個AIGC的在線編輯平臺。

我們的測試和評比通過三個部分組成,分別是使用門檻,基礎產品功能和內容生成能力。

首先是使用門檻。我們測試的8款產品,都已經支持通過網站使用產品(許多創(chuàng)業(yè)公司產品只能通過Discord使用),也都可以免費試用。

但其中,僅有愛詩科技的PixVerse不限制免費試用次數,其他產品都有三到五次的試用限制,超過試用次數之后就需要開通會員或充值能量使用,價格從幾元到幾百元不等。

除了PixVerse之外,其他產品在付費之前基本都有功能限制,比如藝映AI和Pixeling只能生成2s、4s的視頻,更長的視頻則需要付費。

所以從使用門檻上綜合考慮,PixVerse對用戶要更加友好,在這一板塊相對更有優(yōu)勢。其他產品在使用門檻上則相對平均。

具體情況如下圖:

其次是產品基礎功能。

我們測試的8款產品,除了神采Promeal和6PenArt之外,都同時具備文生視頻和圖生視頻的能力。而神采Promeal和6PenArt只具備圖生視頻的能力,不具備直接文生視頻的能力。

除了這兩家之外,其他廠家就比較成熟,但產品功能差異卻比較大。

其中,愛詩科技的PixVerse在基礎功能之上還增加了豐富的輔助功能,比如除了正向提示詞,用戶還可以輸入負向提示詞,要求生成畫面中不要出現某些元素。

圖片生成視頻時,用戶也可以撰寫提示詞控制輸出效果??梢赃x擇視頻風格,可以調節(jié)畫面比例等等。

同類產品中,只有Pixeling擁有負向提示詞、圖生視頻提示詞和視頻比例調節(jié),只有藝映AI可以調節(jié)視頻風格、畫面比例。

大模型的技術水平決定視頻生成的質量,而產品能力則決定了大模型是否能夠被很好地利用,與應用場景相結合。

對于視頻生成產品而言,功能的豐富程度決定了用戶上手的容易程度,對視頻生成的掌控能力,并最終影響輸出結果和用戶體驗。

所以從產品的完善程度和功能完整度上,PixVerse整體領先,智象未來的Pixeling排名第二,藝映AI第三,Vega AI第四。其中布爾向量相對例外,作為專注跨境電商的視頻生成工具,其在特定場景下功能更加齊全易用,但在視頻生成方面相對缺乏競爭力。

當然,基本功能之外,更核心還是視頻生成效果。所以第三部分是視頻內容生成能力測試。

首先是視頻生成時長。Sora目前能夠生成60s的視頻,但國內創(chuàng)業(yè)公司的視頻生成大模型,時長大多集中在2s~4s左右,差距并沒有特別大。

其次是依據提示詞的內容表現能力。

Sora發(fā)布時,輸出過這樣一段視頻,其提示詞是:美麗,白雪皚皚的東京街道很繁華。幾個人在附近的小攤上享受著美麗的雪天并購物。美麗的櫻花花瓣和雪花在風中飛舞。

依據這段提示詞,我們也分別使用愛詩科技的PixVerse、右腦科技的Vega AI、MewXAI和智象未來的Pixeling生成了同樣一段視頻。(由于生數科技的PixWeaver網頁端暫停試用,故未納入測評)

首先是愛詩科技的PixVerse。

4s的內容基本還原了提示詞中提到的所有關鍵詞,同時體現了“繁華”和“小攤”的氛圍。鏡頭跟著畫面緩緩推進,視頻整體風格保持一致,建筑、燈光、路旁的樹木、行人都比較真實,畫面沒有明顯卡頓,除了人物行走稍有些不自然之外,沒有出現元素扭曲。

其次是右腦科技的VegaAI。

同樣4s的內容,同樣只有一個鏡頭,順著人流密集的街道緩緩推進。但與PixVerse將場景放到華燈初上的傍晚不同,VegaAI選擇的是白天。

與愛詩科技的PixVerse相比,VegaAI的人物腳步混亂情況更加嚴重,部分人物在行走過程中從兩只腳變成三只腳,然后又消失不見。此外,部分人物的生成也非常模糊,只有一個人影且在不斷變幻。

然后是藝映AI。

與PixVerse和VegaAI有一定的鏡頭運動不同 ,藝映AI生成的視頻鏡頭是固定的,也是這幾個視頻中唯一一個選擇了正面視角的視頻。

但選擇正面視角也同樣給藝映AI帶來一個問題,即在人物的面部表情沒有辦法很好地處理。視頻中迎面走來的兩個人面部一直沒有穩(wěn)定下來。此外,藝映AI也同樣存在人物移動的問題,但由于生成的視頻只有2s,表現得并不明顯。

第四是智象科技的Pixeling,4s的視頻,采用固定鏡頭,人物往前運動。類似的畫面,除了同樣存在人物生成、移動等方面的問題之外,Pixeling對語義的理解明顯更淺。

比如提示詞中的“繁華”,前面的視頻都通過燈光、街道店鋪、人流來進行表現,但Pixeling選擇的卻是一個雨天小巷,人流也比較少。整個畫面顯得比較冷清。此外,提示詞中的“購物”該視頻中也并沒有體現。

最后是Morph Studio。其官網尚未開放公測,「自象限」通過Discord進行測試。

Morph Studio有趣的地方有兩個,其一是英文提示詞的生成效果要大大好于中文提示詞?!缸韵笙蕖瓜仁峭ㄟ^中文提示詞生成視頻,得到的結果與提示詞毫不相關,隨后「自象限」將提示詞改為英文,輸出的效果直線提升。

從視頻內容上看,Morph Studio的視頻生成只有3s,要比其他產品的時長都要短,清晰度要比其他產品更低一些,但整體畫面內容更加寫實。從細節(jié)上看,Morph Studio生成的視頻仍然存在細節(jié)模糊扭曲,人物“漂移”、出現又消失等問題。

▲Morph Studio依據這段提示詞生成的視頻

在文生視頻之外,剩下兩位只支持“圖生視頻”的玩家——神采Promeal和6PenArt。但這兩位,在圖生視頻上的表現也并不好。

其中,神采Promeal僅支持單張圖片生成“動態(tài)圖”,也沒有提示詞功能。因此生成的視頻人物形象扭曲,沒有實際使用價值。

對比來看,6PenArt更像一個AIGC的內容社區(qū),圖片生成和視頻生成只是其中一個能力。但6PenArt并不支持直接通過提示詞生成視頻,而是需要先在平臺通過提示詞生成圖片,然后將圖片轉化成視頻。

「自象限」通過提示句“一只正在散步柯基,嘴里叼著一朵花。”生成了四張圖片。

然后以這四張圖片為基礎,用提示詞“一只在春天里奔跑的小狗。”生成視頻。

可以看到,這個視頻仍然停留在“動態(tài)圖片”的狀態(tài),與視頻相差甚遠。

除此之外,布爾向量也沒有被納入到這次評比中。

因為從產品使用體驗上,布爾向量的boolv.video更像是一個AI編輯器的概念,當我們輸入一段提示詞之后,系統(tǒng)會自動將提示詞拆解成多個腳本、分鏡,然后撰寫文案,分別輸出多段視頻。生成視頻之后,用戶可以對每一個分鏡進行編輯,替換視頻、更換旁白和聲音等等。

但boolv.video的視頻生成能力其實很有限,既無法理解深度語義,也不能生成與提示詞準確對應的視頻內容。

在我們以上測試的產品中,嚴格意義上只有PixVerse、Morph Studio是專注于視頻生成的大模型,其他產品都是由早期文生圖、圖生圖的AIGC應用演變而來。

▲圖片:測試產品是否專注于視頻生成

回過頭來,我們依據多次測試,針對以上提到的產品進行了整理。

從對提示詞的理解能力、畫面的邏輯表達能力、畫面細節(jié)的表現,到視頻生成的質量、畫面的一致性、穩(wěn)定性和流暢性等角度。

在測試的8個產品后,綜合對比下來,愛詩科技旗下的PixVerse和Morph Studio綜合能力相對較好,右腦科技的VegaAI排名第二,藝映AI第三,Pixeling第四。

最后,從整個測評從使用門檻,到產品功能,再到內容生成能力,中國創(chuàng)業(yè)公司的各類產品各有千秋。但整體來看,在中國創(chuàng)業(yè)公司中,愛詩科技的PixVerse整體能力略高一籌,是中國最具備Sora氣質的產品。其次是Morph Studio,這兩者構成中國視頻生成模型的第一梯隊。

其次包括VegaAI、藝映AI、Pixeling則共同處在第二梯隊(生數科技因產品暫停使用,未納入測評),最后神采Promeai、6PenArt和boolv.video則在第三梯隊。

以下是「自象限」測評總表:

三、用生產力工具,形成數據飛輪

事實上,對比了國內科技巨頭和創(chuàng)業(yè)公司到目前為止的落地產品后的情況我們會發(fā)現,大公司更慢,反而是創(chuàng)業(yè)公司的產品和用戶規(guī)模跑地更快。

李彥宏也曾經提到:大公司做小創(chuàng)新,小公司才能做大改變。

而想要真正在激烈的角逐中突圍,目前來看,除了技術路線選擇和產品本身的能力外,產品的使用場景、用戶體驗、行業(yè)應用等等綜合維度,仍然是視頻生成模型比拼的關鍵。

產品使用場景方面,如前文所言,一類公司在埋頭做新工具而另一類公司則將技術嵌入在某些成熟的產品中,這是兩條完全不同的路線。

對于工具類的產品,產品力的一個核心體現在于:能否成為生產力工具。

讓我們簡單回顧一下Midjourney的發(fā)展歷程就會發(fā)現,Midjourney V5版本是文生圖歷史上的一個關鍵臨界點,無論是從效果、準確性和速度等多方面的因素來看,V5正式從“玩具”蛻變成了生產力工具,而這一次產品能力的突破,帶來的是用戶大規(guī)模涌入,數據飛輪開始轉動,效果日新月異。

對比“V5時刻”我們發(fā)現,視頻生成模型也即將迎來奇點。

通過真實的測評我們發(fā)現,PixVerse生成的視頻在主體一致性、運動平滑度、運動幅度、清晰度等方面都更具備使用價值。

在生產力工具的前提下,也分為兩條產品路線,一類是如Adobe公司踐行的走專業(yè)工具的路線,讓專業(yè)的人更專業(yè),另一類則是如Word一般,讓普通人也能成為生產力。

在這個問題上,Pika創(chuàng)始人郭文景在采訪時表示Pika并不是電影制作工具,而是為日常消費打造的產品。PixVerse的思路則更加明確,相比于Pika分層訂閱的商業(yè)模式,PixVerse在用戶量和視頻效果都處于全球第一梯隊的前提下,仍在持續(xù)向世界各地免費開放,這是目前其它視頻生成產品都難以企及的。

也正是由于用戶友好的態(tài)度和領先的視頻生成效果,讓PixVerse的飛輪先轉了起來。根據第三方數據監(jiān)測平臺顯示,目前PixVerse的用戶規(guī)模與Pika處于同等量級,其訪問量也遠超國內其他主流視頻生成產品。(數據來源:similarweb.com)

▲PixVerse,與Pika,Runway產品頁面2024年2月數據對比

▲國內主要文生視頻產品2月數據對比

▲國內主要文生視頻產品數據走勢

通過調研我們發(fā)現,愛詩科技還積極在國內外贊助/舉辦各類AI大賽,推動技術加快落地的同時,也在加速實現技術普惠。這個過程中,也有越來越多的用戶感受到其產品PixVerse的優(yōu)勢。

除此之外,愛詩科技的用戶生態(tài)做得非常突出,X上每天都會涌現大量使用PixVerse創(chuàng)作的視頻內容,覆蓋英語、漢語、日語、西班牙語等多地區(qū)。這是其它國內品牌完全不具備的優(yōu)勢,也一定程度上反映了市場的選擇。

“PixVerse第一個優(yōu)點是免費、免費、免費;第二個優(yōu)點是操作簡便且有效,我只需要把圖片放進去,不寫任何prompt,讓PixVerse自己決定畫面運動,往往都能得到滿意的結果。期待PixVerse可以實現更大幅度的運動以及更長更穩(wěn)定的視頻。” 2024 MIT AI電影黑客松最佳影片提名獎獲得者反饋到。

自象限認為,免費并不意味著放棄商業(yè)化,而是在產品打磨的初期,通過這樣的方式獲得真實的用戶使用體驗和用戶生成后的高質量視頻數據,再反哺給視頻生成模型,將迭代的速度加快,形成數據—訓練的飛輪。

四、結 語

綜合來看,目前國內整個視頻生成模型的技術仍然在效仿國外,但以愛詩科技為首的創(chuàng)業(yè)公司已經找到了自己的發(fā)展節(jié)奏和模式,正通過產品設計、用戶規(guī)模、運營策略等綜合能力進行全面趕超。

相比之下,Sora目前并未開放,能否承受住大規(guī)模用戶同時在線尚未可知,能否能每次都做到準確、一致的1分鐘視頻生成仍有待檢驗。

所以,并不一定非要找到中國版Sora,以愛詩科技為代表的中國視頻大模型公司,已經走出了新的、獨立的上升曲線。

文中配圖來源于網絡

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
ai技術
ai智能

相關文章

  • 庫克已納投名狀:蘋果AI沒得選,只能選百度

    蘋果16弄了兩個版本,一個是專門給中國人用的,準備用百度的AI,還要交錢。第二個是全世界都可以用的,用了ChatGPT,包括臺灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型

  • AI加速時代的“進度條”,我們撥動了百分之幾?

    “技術日新月異,人類生活方式正在快速轉變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。

    標簽:
    ai智能
  • AI視頻賽道,要變天了

    “毀滅你,與你何干?”,這是在劉慈欣的科幻小說《三體》里用來形容人類與三體人之間的戰(zhàn)爭的一句話。

    標簽:
    ai智能
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)

    標簽:
    ai智能
  • 智能體進化發(fā)展了一年,現在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型

    標簽:
    大模型
  • 這一屆“出道”的數字人,已經拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數字人。圖片來源網絡隨著數字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標簽:
    數字人
  • 來到IPO關口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領產業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據官方統(tǒng)計數據,今年現場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知