追不上Sora的同行有難了
作者|畢安娣 來源|字母榜(ID:wujicaijing)
Sora公布第10天,同行已經坐不住了。
2月16日,中國大年初七,OpenAI公布了全新的生成式人工智能模型Sora:輸入自然語言指令,輸出至多60秒的視頻。
從文本到視頻的生成式AI模型并不新鮮,但sora——就像ChatGPT——一樣,因其斷崖式的質量提升,登時點燃了互聯網。高清的畫質,流暢的畫面,乍看之下頗為自然的物理軌跡,和一年前近乎鬼畜的“威爾·史密斯吃意大利面”視頻看起來像隔了一個世紀,同行去年才發布的AI產品與之相比也黯然失色。
10天很短,但在AI領域卻足以生變。
至少有兩家AI界“當紅炸子雞”站了出來:2月22日,StabilityAI正式開放Stable Video的公測,該產品背后的模型Stable Video Diffusion去年11月就已經發布。幾乎同時,另一家在文生圖領域頗有建樹的Midjourney也透露,可能會在下一次迭代時包含視頻功能。
昔日“炸子雞”站在陰影中,追不上Sora的同行有難了。
一
在接受了Sora演示視頻的直接沖擊之外,人們立刻開始做縱向和橫向的比較。
縱向比較,人們拿出了一年前“威爾·史密斯吃意大利面”的AI視頻。這位好萊塢明星臉部變形嚴重、面的形態千變萬化,分分鐘觸發恐怖谷效應,越看越詭異。
一年之后,Sora已經可以做出一個女人在東京街頭漫步的視頻,不管是畫面質量、連續性和穩定性,還是女人的步態與神情,都已經幾乎可以以假亂真,讓人連連稱贊:文本到視頻的進步也太大了。
可惜的是,盡管無數網友在OpenAI CEO山姆·奧特曼(Sam Altman)的社交媒體賬號下求Sora版本的“威爾·史密斯吃意大利面”,并沒能得償所愿。倒是史密斯本人跑出來整了個活兒,真人拍攝,“偽造”了一個新版本。你別說,還真差點給人騙過去——真人都能拍視頻假裝是AI生成的了,倒也足見Sora視頻的高質量。
橫向對比,同行就有點尷尬了。OpenAI把每一個Sora演示視頻的文本指令都公布了,雖然人們不能直接用Sora,但是可以拿著指令去市面上已有的產品里試,看看有什么差別。
不試不要緊,一試嚇一跳:看到Sora視頻的時候就覺得厲害,看了同行的表現更對Sora的威力有了新的認知。
同樣是女人在東京街頭漫步的指令,Runway生成的視頻暫停看還都像那么回事,連起來就只能用“千變萬化”形容,女人的形象并不能隨著時間的推移保持穩定。要知道Sora的演示視頻中還有機位的變化,從遠景到臉部特寫,女人的形態始終如一。Runway生成的視頻更像是很多張圖片的動態融合。
StabilityAI——就是那個開源了文生圖Stable Diffusion的公司——的Stable Video生成的畫面清晰度和美觀度都很不錯,但是女人的臉變形嚴重,看起來很像一個骷髏頭,詭異感拉滿。
Pika則有些取巧,其畫面相對流暢,但比較模糊,且并非寫實風格。
此外,打鬧的猛犸象、行駛中的汽車、俯瞰的景觀、看蠟燭的小怪物等指令都被網友做了橫向對比,Sora并非和同行打得有來有回,而是碾壓了同行。
二
一朝之間,文生視頻當紅“炸子雞”發現自己站在了OpenAI投下的陰影中。
從文本到視頻的AI工具并不是新鮮事物。在2023年,多個文本到視頻AI工具問世,Runway、PikaLabs(下稱Pika)、StabilityAI等初創公司在這個賽道都備受矚目,熱錢不斷,估值暴漲。
其中Runway成立于2018年,3月開放Gen-2內測,6月正式對外發布。此前有Gen-1圖像到視頻AI工具。Runway同時還技術支持了多部電影。其中最大名鼎鼎的是奧斯卡獲獎影片《瞬息全宇宙》。
Runway的CEO兼聯合創始人克里斯托瓦爾·巴侖蘇埃拉(Cristóbal Valenzuela)說:“我們已經看到了圖像生成模型的爆發。我相信,2023 年將會是視頻之年。”
在5月時,Runway已經完成了1.41億美元的D輪融資,投資方包括谷歌、英偉達等,估值暴漲三倍,達到15億美元,
Pika去年4月剛剛成立,A輪融資達5500萬美元,估值登時超過2億美元,11月就發布了第一個文本到視頻產品Pika1.0。到了12月時,其用戶已有超過50萬,每周生成近百萬視頻內容。
而StabilityAI則因其文本到圖像工具Stable Diffusion名聲在外,早在2022年獲得1億美元融資后,估值就已經超過了10億美元,成為獨角獸企業。去年11月,Stable Video Diffusion發布,注意后面還有一個“Diffusion”后綴,這是一個基于Stable Diffusion的生成式視頻基礎模型,需要用戶自己部署使用,還不算面向大眾發布的產品。
三家初創公司,2023年三個重要生成式視頻產品/模型,突然就被Sora會心一擊。
在OpenAI興沖沖向世界展示Sora之后,Runway的CEO巴侖蘇埃拉在社交平臺X上發帖:“游戲開始(Game On)。”而StabilityAI的CEO兼創始人莫斯塔克(Emad Mostaque)則將奧特曼稱作“巫師大人”。
從演示視頻來看,Sora的確有改變游戲格局的威力,跟不上Sora的同行有難了。
參照ChatGPT發布之后,雖然AI浪潮讓投資人熱情高漲,AI初創公司如雨后春筍般冒出來,新晉獨角獸一個接著一個。但這是一個冰火兩重天的故事,不少AI創業公司走上下坡路,或尋求收購,或大幅裁員,甚至就此壽終正寢。據智東西梳理,僅2023年11月到2024年1月,全球就有AI新聞初創企業Artifact、AI醫療公司Olive等4家AI初創企業宣布關停。
The Infoemation稱,至少有7家開發生成式視頻的AI公司,共籌集了至少5.5億美元的資金。有投資人私下對The Information表示,之前剛剛錯過某熱門AI視頻初創企業的融資,看到Sora的視頻后“感到慶幸”。
三
人工智能賽道熱度高,但門檻也高,廝殺之中刀光劍影,掉隊就可能掉入墳墓。
知名AI初創企業Huggine Face在一篇博文中,提到了文本到視頻的三大挑戰:算力挑戰,確保跨幀空間與實踐的一致性伴隨著高計算成本,使得大多數研究人員無法負擔這類模型的訓練費用;缺乏高質量數據集,用于文本到視頻生成的多模態數據集非常稀少,而且經常缺乏注釋;指令模糊性,如何以一種讓模型更容易學習的方式描述視頻不是一件容易的事。
即便是看似站穩了腳跟的StabilityAI都麻煩不斷。去年6月,福布斯發布一則長新聞,超過30位StabilityAI前員工和投資人細數創始人兼CEO莫斯塔克的9大罪證,包括:竊取StableDiffusion成果融資10億;隱瞞融資困難;夸大公司收入;拖欠員工工資;學歷和工作經歷造假。
拋開其他不談,硅谷“當紅炸子雞”卻又融資困難、公司收入被夸大的問題,著實令人意外。知情人士稱,StabilityAI每個月的開銷大概是800萬美元,而莫斯塔克卻曾自爆公司8月的營收大概在120萬美元,有機會超過300萬美元。莫斯塔克很快就刪除了該帖,但從這個數字不難聞到燒錢的味道。
11月,也就是其發布Stable Video Diffusion模型的同月、公司完成1億美元融資的一年后,StabilitAI傳出多位高級管理人員辭職、公司財務狀況脆弱的消息,并一度傳聞考慮出售,這一消息隨后被莫斯塔克否認。
入不敷出、人才流失,StabilityAI的危機暴露了光鮮的熱門創企的軟肋。
巨頭的加入也會讓戰事更加激烈。在AI視頻的賽道,巨頭早有布局。2022年10月,Meta和谷歌相繼發力。Meta先發布了Make-A-Video模型,僅一周后,谷歌CEO桑德爾·皮查伊(Sundar Pichai)親自安利他們在這一領域的兩個最新成果,Imagen Video和Phenaki,分別強調視頻品質和長度。
但不管是Meta還是谷歌,目前都尚未向公眾開放其文本到視頻AI工具。谷歌官方認為用于訓練AI視頻模型的數據仍包含有問題的內容,可能會導致Imagen Video產生圖形暴力或色情剪輯,造成不良影響。巨頭的保守操作大家也都熟悉了,在自然語言聊天機器人的賽道,谷歌也是早早就手握模型但未向C端推出產品,原因也是安全問題。但ChatGPT與微軟的聯手讓巨頭走出保守,Sora未嘗不能做同樣的事。
已經有巨頭有新動作。在Sora公布的一周前,字節宣布人事變動,原抖音集團CEO張楠宣布辭去集團CEO一職,未來把精力聚焦在剪映的發展上。據時代周報援引接近剪映的人士,張楠親自帶隊尋求在AI輔助創作上突破,并即將推出一個AI生成視頻的產品。
面對新開的“游戲”,Sora的同行只能全力向前。
就在Sora公布的幾天之后,2月22日,StabilityAI正式開放了Stable Video的公測,從模型走向人人可以方便上手的產品。雖然視頻長度還是比較短,只有7秒,但視頻質量比較高。莫斯塔克在社交平臺上宣傳新產品時顯得很謙虛,表示開放的原因是:“我們想要創造類似Sora的大型開放的Stable Video2,但需要更多的數據和計算。”
此外,在文生圖領域有超高口碑的Midjourney也跑步入場,創始人大衛·霍爾茲(David Holz)在Office Hours中透露,下一個版本,也就是Midjourney V7“可能包含視頻功能”。
OpenAI現階段還在對Sora進行評估,距離Sora正式對外公開可能還有幾個月的時間。好消息是,同行還有時間應變。壞消息是,留給同行的時間不多了。
參考資料:
1、智東西:《AI創業冰火兩重天:Sora降世資本狂歡,數家創企倒閉關門》
2、連線Insight:《Sora來了,字節發力:張楠的重任和挑戰》
3、新火種:《被迫賣身、CEO下臺、高管出走,又一家AI獨角獸出事》
4、機器之心:《圖像生成卷膩了,谷歌全面轉向文字→視頻生成,兩大利器同時挑戰分辨率和長度》
5、財聯社:《AI圈子不太平 知名開源模型開發商Stability AI被曝 “尋求賣身”》
編者按:本文轉載自微信公眾號:字母榜(ID:wujicaijing),作者:畢安娣
前瞻經濟學人
專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。