從“牛頓時(shí)刻”到“雞肋時(shí)刻”:微軟免費(fèi)Sora的尷尬首秀
作者|涯角 來(lái)源|直面AI(ID:faceaibang)
微軟將Sora免費(fèi)了,但卻已經(jīng)晚了。
前天,微軟Bing宣布在其應(yīng)用程序中推出 Bing 視頻創(chuàng)作器(Bing Video Creator),該功能基于OpenAI的Sora模型,允許用戶(hù)通過(guò)文本提示詞生成視頻。這也是Sora首次面向用戶(hù)免費(fèi)開(kāi)放。
就在昨天,Manus推出原生文生視頻,嵌入進(jìn)了自家Agent的工作流中。
一個(gè)是默默關(guān)注Sora、OpenAI背后的“大東家”,另一個(gè)則是AI Agent里的“新秀”,兩方在自家產(chǎn)品生態(tài)中上馬文生視頻的時(shí)間點(diǎn)幾乎是一樣的。可見(jiàn),微軟這一步棋到底慢了多久。
從Sora代號(hào)第一次問(wèn)世到現(xiàn)在,整體局面的發(fā)展路徑很像:“微軟想要,OpenAI不給,但最后微軟如愿以?xún)數(shù)玫搅薙ora的副產(chǎn)品”。
為什么說(shuō)它是Sora的副產(chǎn)品?因?yàn)槲④浬暇€的Bing 視頻創(chuàng)作器從產(chǎn)品力和宣傳上來(lái)講,很難說(shuō)得上是個(gè)完整的產(chǎn)品。
當(dāng)微軟終于宣布將它免費(fèi)向用戶(hù)開(kāi)放時(shí),這個(gè)消息并未掀起預(yù)期中的熱潮,反而透著一股尷尬的遲到感。網(wǎng)友對(duì)這款產(chǎn)品的“自來(lái)水”評(píng)價(jià)很差,甚至直言:我們已經(jīng)有了可靈和Veo,為何還用Sora?
Sora,這個(gè)曾被OpenAI寄予厚望、甚至被譽(yù)為“AI視頻領(lǐng)域的牛頓時(shí)刻”的模型,自誕生之日起便充滿(mǎn)了戲劇性:不斷延期、高昂的定價(jià)、復(fù)雜的安全風(fēng)險(xiǎn),讓市場(chǎng)對(duì)它的期待逐漸消退。如今微軟通過(guò)Bing上線了免費(fèi)的“Bing 視頻創(chuàng)作器”,但它卻顯得有些“食之無(wú)味,棄之可惜”,從產(chǎn)品力到用戶(hù)反饋,都難以令人滿(mǎn)意。
下面讓我們來(lái)看看,在微軟與OpenAI的復(fù)雜博弈中上線的Bing 視頻創(chuàng)作器,到底體驗(yàn)如何?
01
微軟的Sora,這回表現(xiàn)如何?
當(dāng)OpenAI首次官宣Sora時(shí),“Sora的誕生是牛頓時(shí)刻”的說(shuō)法迅速刷屏網(wǎng)絡(luò),甚至激發(fā)了諸多科技大廠的產(chǎn)品靈感與探索方向。當(dāng)時(shí)的OpenAI用實(shí)際宣發(fā)告訴所有人:AI得這么玩。
盡管如今文本生成視頻已經(jīng)成了“爛大街”的常規(guī)功能,但在當(dāng)時(shí)幾乎只有Sora成功出圈了。
雖然經(jīng)歷了一次次延期,但OpenAI的深厚技術(shù)底蘊(yùn)依然穩(wěn)固,Sora的視覺(jué)表現(xiàn)雖不能稱(chēng)得上頂尖,仍舊處于業(yè)界第一梯隊(duì)。如今,這個(gè)備受關(guān)注的明星產(chǎn)品也終于免費(fèi)上線微軟的Bing視頻生成器,用戶(hù)可以直接體驗(yàn)。
不過(guò),免費(fèi)歸免費(fèi),微軟的Bing視頻生成器目前仍存在明顯局限:視頻長(zhǎng)度僅限5秒,畫(huà)面比例只有9:16可選,且同時(shí)最多只能排隊(duì)生成三個(gè)視頻。更尷尬的是,其生成速度也頗為感人,F(xiàn)ast模式尚需幾分鐘,Standard模式甚至要耗費(fèi)數(shù)小時(shí),難免讓人懷疑微軟究竟獲得了OpenAI多少的資源支持。
沒(méi)錯(cuò),這個(gè)“產(chǎn)品”只有下面這 4 個(gè)可選項(xiàng):
我們實(shí)際測(cè)試了兩個(gè)案例,來(lái)看一看Bing視頻生成器和現(xiàn)在的SOTA模型相比,效果如何:
(1)羊駝穿西裝在冰上跳舞
提示詞:
一只羊駝穿著藍(lán)色的西裝,像人一樣雙腿直立,在中央公園的冰面上跳著動(dòng)感舞曲
An alpaca wearing a blue suit and standing upright on its legs like a human being, dances a dynamic dance on the ice in Central Park
Bing 視頻生成器:
畫(huà)面主體羊駝辨識(shí)度低,背景AI感強(qiáng)烈,動(dòng)作雖流暢,但整體質(zhì)感回到了一年前。如果我不提誰(shuí)能看得出來(lái)這是只羊駝?
Sora:
緊接著,我同樣用OpenAI的Sora試了下一模一樣的提示詞。畫(huà)面的視覺(jué)效果明顯上了一個(gè)層次,無(wú)論是顏色的層次感、畫(huà)面主體的動(dòng)作流暢度,甚至是冰面的陰影的顯示都很真實(shí)。
可靈 2.1
接下來(lái)就是可靈2.1大師版了。雖然用最新出的模型去對(duì)比Sora有點(diǎn)欺負(fù)人,但是2.1的普通模式無(wú)法文生圖,也就只能出出血,拿大師版試一下了。
可以看得出來(lái),運(yùn)鏡設(shè)計(jì)創(chuàng)意比較好,畫(huà)面連貫且風(fēng)格統(tǒng)一,動(dòng)作復(fù)雜性和自然程度也很高。
即夢(mèng):
相比之下,即夢(mèng)的效果就比較抽象了。風(fēng)格略顯割裂,背景像是綠幕效果,動(dòng)作重復(fù)且表情僵硬,整體表現(xiàn)不佳。我很懷疑是否是我的提示詞給錯(cuò)了。
Veo3:
谷歌的Veo3效果依舊耐打,視頻整體視覺(jué)效果流暢,畫(huà)面連貫性比較好。色彩正常偏明亮,動(dòng)作和表情也比較自然不僵硬。但是沒(méi)有運(yùn)鏡,鏡頭語(yǔ)言比較單一。Veo 3 的真實(shí)感和流暢度確實(shí)都很好。
(2)玻璃茶杯中的旋轉(zhuǎn)光芒
提示詞:
一個(gè)空的玻璃茶杯內(nèi)有旋轉(zhuǎn)的彩色光芒,杯身放置在木桌上,木桌上映出茶杯明亮的倒影。鏡頭緩緩向茶杯靠近。
An empty glass teacup with a swirling colored glow inside is placed on a wooden table, which reflects the bright reflection of the teacup. The camera slowly moves closer to the teacup.
Bing 視頻生成器:
茶杯這個(gè)例子是我從Bing視頻生成器的官方推薦靈感庫(kù)里找到的,效果只能說(shuō)勉強(qiáng)貼合提示詞,但色彩生硬,整體視覺(jué)感受奇怪。
Sora:
OpenAI的Sora在動(dòng)態(tài)光效上的呈現(xiàn)能力確實(shí)比較強(qiáng),畫(huà)面非常協(xié)調(diào),光芒以很柔和的方式隨著液體閃動(dòng),桌面上的倒影也很真實(shí)。
可靈 2.1
可靈2.1的視頻流暢度比較好,桌面的倒影非常真實(shí),會(huì)隨著光線變化而變化。這顯示了可靈對(duì)物理效果的理解。但茶杯內(nèi)的流光有些單薄,沒(méi)有完全達(dá)到提示詞的要求。
即夢(mèng):
即夢(mèng)在動(dòng)態(tài)效果上的表現(xiàn)也還是比較好的。視頻流暢美觀,色彩和諧飽和度高,運(yùn)鏡也非常自然,但是未能貼合提示詞生成一個(gè)空茶杯,語(yǔ)義理解能力稍顯不足。
經(jīng)過(guò)一番體驗(yàn),Bing視頻生成器整體呈現(xiàn)的水平似乎還停留在2024年的水準(zhǔn)。視頻時(shí)長(zhǎng)、畫(huà)面比例、生成速度以及多模態(tài)融合功能上的明顯短板,都讓我感到力不從心。此外,它在處理復(fù)雜提示詞時(shí)的準(zhǔn)確性也難稱(chēng)得上滿(mǎn)意,距離用戶(hù)的期望值還有明顯差距。
我還放了幾個(gè)官方Case,大家可以自行評(píng)判效果:
02
Sora免費(fèi)了,但已經(jīng)晚了
如今,圍繞AI下半場(chǎng)的討論熱火朝天,但無(wú)論爭(zhēng)論的焦點(diǎn)如何變化,“AI下半場(chǎng)比拼的是產(chǎn)品能力”已經(jīng)成為行業(yè)共識(shí)。然而,OpenAI旗下的Sora產(chǎn)品因價(jià)格高昂和發(fā)布延期,幾乎已從主流“AI視頻工具”的競(jìng)賽中Out了。
從2024年初開(kāi)始,現(xiàn)象級(jí)別的Sora帶給所有關(guān)注者的不是驚喜,而是不斷的懵圈:不斷延期的同時(shí),每隔一段時(shí)間就釋放一些新的令人驚艷的“小道消息”,展示自身的強(qiáng)大能力。終于,在年末時(shí),Sora終于發(fā)布了,奧特曼甚至稱(chēng)它為“視頻版的GPT-1”。
但在這個(gè)等待的過(guò)程中,OpenAI留給了一眾競(jìng)爭(zhēng)對(duì)手追趕的生存空間,現(xiàn)在的它們?cè)缫淹瓿闪硕啻沃卮蟾潞偷?。像是快手的可靈、字節(jié)的即夢(mèng)、通義萬(wàn)相的WanX、谷歌的Veo等新玩家都熬成了頂級(jí)老玩家。
媒體VentureBeat 在一篇評(píng)論中直言:“Sora上市時(shí)萬(wàn)眾矚目,但不到一年,其光環(huán)已經(jīng)大幅褪色。”Sora的發(fā)布頻繁跳票,錯(cuò)過(guò)了AI視頻產(chǎn)品的黃金發(fā)展期,其背后離不開(kāi)大東家微軟與OpenAI之間錯(cuò)綜復(fù)雜的博弈。
微軟與OpenAI在AI領(lǐng)域的合作關(guān)系,從一開(kāi)始發(fā)展得非常要好到“心生嫌隙”,幾乎貫穿了這款產(chǎn)品的研發(fā)周期。從2023年下半年開(kāi)始,自O(shè)penAI推出自有企業(yè)版產(chǎn)品之后,微軟就不再“完全相信”OpenAI了。
在那場(chǎng)圍繞OpenAI CEO 奧特曼的宮斗風(fēng)波中,微軟深度介入?yún)f(xié)調(diào),但雙方管理層之間仍舊出現(xiàn)了很多矛盾:?jiǎn)T工之間互相不爽,OpenAI團(tuán)隊(duì)依靠自有技術(shù)高人一等,微軟團(tuán)隊(duì)也對(duì)分享前沿技術(shù)持保守態(tài)度。這個(gè)時(shí)候,微軟內(nèi)部就已經(jīng)有呼聲希望盡快將Sora整合進(jìn)產(chǎn)品線了。
在2024年,微軟招攬Mustafa Suleyman負(fù)責(zé)自家AI業(yè)務(wù),更加明確了“擺脫對(duì)OpenAI依賴(lài)”的意圖。Salesforce CEO Marc Benioff更是爆料稱(chēng),奧特曼與Mustafa Suleyman的關(guān)系不睦。
大家普遍認(rèn)為:微軟與OpenAI的蜜月期宣告結(jié)束。在這段時(shí)間里,Sora的發(fā)布策略一改再改。可以說(shuō),2024 年微軟與 OpenAI 圍繞 Sora 乃至整體合作關(guān)系,上演了一場(chǎng)錯(cuò)綜復(fù)雜的博弈。
此外,Sora自身在安全性上的問(wèn)題遲遲未能有效解決。YouTube曾公開(kāi)指責(zé)Sora侵犯其數(shù)據(jù)版權(quán)。雖然一番風(fēng)波中,有槍打出頭鳥(niǎo)的嫌疑,但是自從Sora代號(hào)公布以來(lái),麻煩確實(shí)不斷??偨Y(jié)成一句話:微軟想用Sora當(dāng)王牌拯救產(chǎn)品線,OpenAI則礙于一系列考慮不斷推遲。
微軟這回圍繞免費(fèi)版“Sora”推出的一系列市場(chǎng)推廣動(dòng)作,卻讓用戶(hù)好感度驟降。比如,微軟選擇在Bing平臺(tái)上線Sora而非旗艦AI平臺(tái)Copilot,這是否是微軟游移不定的最佳證明?再有,Bing上利用Sora視頻生成時(shí)還需要賺積分操作,生硬的推廣也讓大家“愣神一秒”。
與此同時(shí),市場(chǎng)上涌現(xiàn)了如Kling、Vidu AI、即夢(mèng)、PixVerse、WanX、谷歌Veo、Luma和Runway等一大批優(yōu)秀的AI視頻生成工具。Kling早在2.0版本時(shí)便宣稱(chēng)在物理引擎和敘事連貫性上超過(guò)了Sora;谷歌的Veo系列甚至支持了高品質(zhì)AI配樂(lè)和音效。
反觀Sora,承諾的單次60秒視頻生成至今未完全兌現(xiàn),用戶(hù)實(shí)際最多只能體驗(yàn)20秒的輸出效果??梢哉f(shuō),如今的Sora雖然免費(fèi),但在技術(shù)表現(xiàn)和用戶(hù)體驗(yàn)方面已很難與競(jìng)品保持競(jìng)爭(zhēng)力。更何況,這一年中,中國(guó)廠商紛紛將成本壓到什么等級(jí),所有用戶(hù)有目共睹 。
可以說(shuō),微軟這回搞的免費(fèi)版Sora,真的有點(diǎn)晚了。
03
中國(guó)廠商后來(lái)者居上,優(yōu)勢(shì)能保持多久?
Sora剛問(wèn)世時(shí),曾給國(guó)內(nèi)AI視頻行業(yè)帶來(lái)了巨大壓力。如今,盡管微軟將Sora免費(fèi)開(kāi)放,但在文本生成視頻領(lǐng)域,黃金窗口期似乎已被錯(cuò)過(guò)。不過(guò),微軟畢竟是微軟,龐大的Windows和Office用戶(hù)生態(tài),加上必應(yīng)這一強(qiáng)大的入口渠道,能迅速放大Sora的影響力,觸達(dá)到數(shù)量巨大的普通消費(fèi)者。
過(guò)去的一段時(shí)間中,中國(guó)的Kling、Vidu AI、即夢(mèng)、PixVerse、WanX等一眾產(chǎn)品已經(jīng)經(jīng)過(guò)了無(wú)數(shù)次的迭代,其中像是Kling等產(chǎn)品都已經(jīng)成功跑通商業(yè)化。
Sora就像達(dá)摩克利斯之劍,一直懸在國(guó)內(nèi)外眾廠商的頭頂上。沒(méi)人知道,Sora的到來(lái),是否會(huì)瞬間變革一切。Sora本身的性能可以說(shuō)仍在第一梯隊(duì),其流暢性一直被人津津樂(lè)道。這回有了微軟這家“橫跨PC時(shí)代,移動(dòng)互聯(lián)時(shí)代,云計(jì)算時(shí)代,并且在每一個(gè)時(shí)代都引領(lǐng)潮頭的超級(jí)巨廠”在產(chǎn)品端的下場(chǎng),Sora得到的助力將會(huì)遠(yuǎn)超以往。
“工業(yè)化+產(chǎn)品化”被認(rèn)為是AI視頻生成賽道的下半場(chǎng)的答案之一。Sora如果能獲得一個(gè)寶貴的場(chǎng)景入口,可能就會(huì)從現(xiàn)在的困局之中抽身開(kāi)來(lái),轉(zhuǎn)入新賽道。一個(gè)場(chǎng)景入口的重要性,我們其實(shí)已經(jīng)在Anthropic的身上看到了?,F(xiàn)在的AI大營(yíng)銷(xiāo)時(shí)代下,基礎(chǔ)模型最怕的不是“技術(shù)落后一絲”而是默默無(wú)聞。
“已經(jīng)晚了”并不意味著沒(méi)有機(jī)會(huì)了。
可以預(yù)計(jì),微軟開(kāi)放 Sora 將迫使競(jìng)爭(zhēng)對(duì)手們加速創(chuàng)新,推出更優(yōu)服務(wù)。國(guó)內(nèi)AI視頻廠商想必都感受到了一些沖擊。之前,他們通過(guò)快速迭代,從而在AI視頻效果的各個(gè)領(lǐng)域積累起來(lái)的優(yōu)勢(shì),儼然無(wú)法讓大家繼續(xù)安心前行。
AI視頻生成領(lǐng)域可以說(shuō)是一個(gè)“強(qiáng)技術(shù)、高變動(dòng)”的賽道,這條路有多難走,國(guó)內(nèi)大廠有話說(shuō)。比如,百度CEO李彥宏就曾在2024年第三季度內(nèi)部會(huì)上明確表示:“百度不碰 Sora 類(lèi)的視頻生成。”他認(rèn)為T(mén)o B業(yè)務(wù)應(yīng)盡量避免那種“吃力不討好”的定制項(xiàng)目,而應(yīng)推出標(biāo)準(zhǔn)化產(chǎn)品。
阿里巴巴通義團(tuán)隊(duì)的AI視頻生成模型WanX2.1的開(kāi)源策略,也走出了一條獨(dú)特的道路,在開(kāi)源的領(lǐng)域蠶食關(guān)注力。
Sora會(huì)跑的多快?我們無(wú)法預(yù)測(cè),但是中國(guó)廠商仍需提速。過(guò)去一年,谷歌Veo2、Veo3在性能上的領(lǐng)先幅度非常大,但高昂的成本令市場(chǎng)反應(yīng)平淡;反而是價(jià)格適中、性能更均衡的Kling等產(chǎn)品大受歡迎,迅速積累了2200萬(wàn)用戶(hù)。
“免費(fèi)”策略對(duì)用戶(hù)的心理沖擊是巨大的。盡管微軟的免費(fèi)行動(dòng)更像是被動(dòng)追趕,而非主動(dòng)創(chuàng)新,但在巨頭資源的加持下,Sora仍可能引發(fā)新一輪行業(yè)競(jìng)爭(zhēng)。
Sora能否憑借免費(fèi)重回巔峰?國(guó)產(chǎn)廠商們還能保持多久的領(lǐng)先優(yōu)勢(shì)?或許答案并不遙遠(yuǎn)。畢竟在AI時(shí)代,“誰(shuí)跑得更快”比“誰(shuí)先起跑”更為關(guān)鍵,先行者需要不斷提速,追趕者則希望彎道超車(chē)。
編者按:本文轉(zhuǎn)載自微信公眾號(hào):直面AI(ID:faceaibang),作者:涯角
前瞻經(jīng)濟(jì)學(xué)人
專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。