OpenAI這兩天發布一款名為「Sora」的影片生成AI,和許多影片生成工具一樣,用戶只要給出文字敘述或靜態圖片,Sora 就能自動生成 1080p 的動畫,可以支持各種不同的角色、動作類型和背景畫面。
「Sora」的名稱源自日語的「天空」(そら),能夠生成長達1分鐘的影片,光是這一點就已經超越當前許多同類產品。OpenAI 已經向一些研究人員和創作者開放 Sora 的訪問權限,OpenAI 在社交平台 X 發布的範例影片中,可以看到細膩的場景、複雜的運鏡和情緒飽滿的角色。

Sora 使用約10000 小時的」高品質「影片訓練,OpenAI 表示,Sora 基於DALL·E、GPT 模型的研究成果,一方面使用DALL·E 3 的重述技術,能為視覺數據生成高度描述性的標題,所以Sora 可以更好地遵循用戶的指令,生成情感豐富、引人入勝的角色,甚至還能深入理解指令提到的人、事、物在現實世界中的樣子。
OpenAI的研究人員Bill Peebles在X上公布了幾段影片和相應的提示詞,比如這個「陰森恐怖的鬼屋,友好的傑克燈籠和幽靈人物在入口處歡迎搗蛋鬼,移軸攝影」,影片畫面很好地呈現了描述詞的內容。

知名科技YouTuber Evan Kirstel直接用「SORAWOOD」替換「HOLLYWOOD」的梗圖表達對Sora的感嘆。

NVIDIA科學家Jim Fan觀察到一些針對Sora的質疑,包括那些認為Sora生成影片的過程只是在操作2D像素,對物理並沒有真正的理解。他認為這樣的觀點過於片面,Sora 的軟物理模擬是在大規模擴展文本到影片訓練時產生的一種自然而然的特性。
Jim Fan在推文中分析稱,GPT-4 必須內部學習某種語法、語義和數據結構,才能生成可執行的 Python 代碼,Sora 也必須學習文本到三維圖像、三維變換、光線追蹤渲染和物理規則的隱性知識,這樣它才能儘可能準確地模擬影片像素。它需要掌握遊戲引擎的概念來達成這個目標。
如果不考慮交互性,虛幻5可以看作是一個生成影片像素的複雜過程。Sora 同樣是一個生成影片像素的過程,但它是基於端到端的 Transformer 來實現的。這兩者在抽象層面上是相同的。但不同之處是,UE5 是精心設計且精確的,而 Sora 則是完全通過數據學習和直覺來實現的。

不過Jim Fan也指出,Sora對物理的理解還很脆弱,遠非完美,而且它還經常產生一些與我們常識不符的幻覺。它在理解物體互動方面還有很大的不足。
Sora 就像 GPT-3 的一個重要時刻。回顧 2020 年,GPT-3 儘管不夠完善,需要大量的提示優化和監督,但它是第一個令人矚目的在上下文中學習並展示出這種特性的模型,GPT-3固然有許多不足之處,但是想像一下,在不久的將來,GPT-4 將會帶來怎樣的變化。
在這些爭論之外,已經有用戶利用Sora「賺到錢了」,X平台上這位ID為「JamesGoong」的用戶表示,他上線了一個sora app落地頁,成交了一個年付。

從OpenAI官方公布的效果來看,和其他文字生成影片AI模型相比,Sora確實是令人印象深刻的進步。不過OpenAI自己也表示Sora還存在很多問題,可能難以準確模擬複雜場景的物理原理,也可能無法理解因果關係。
OpenAI 表示,他們還將與專家合作,找出模型的漏洞,並建立配套工具,來檢測網上的影片是否由Sora 生成;同時還會與全球政策制定者、教育者、藝術家接觸,來探討如何不被濫用。