自從OpenAI公布全新的生成式人工智慧模型Sora之後,可謂是「一石激起千層浪」,相關的討論一直沒有停止。
關於這個號稱「只要輸入文本指令,就能輸出60秒影片」的新工具,人們感到期待、焦慮、恐懼……共同組成了一幅巨大的「Sora亂象圖」。一方面,各種標籤上寫著「該影片由Sora生成」,但實際上是網友製作的搞怪影片成為了「整活」的流量密碼,讓不少網路樂子人收穫了歡樂。
另一方面,雖然Sora並沒有開放使用,但網路上卻出現了一大批「培訓機構」,利用行業焦慮和資訊不對稱,打起了收割韭菜的算盤。一個自稱清華博士的賣課博主,入門AI課達到了199元一份,光是在影片號里,就賣出了520多份。還有人扒出,這門AI課他一年售出了25萬套,銷售額將近5000萬。於是網友們紛紛陰陽怪氣地稱他為:唯一可以與奧特曼平起平坐的AI巨頭。
Sora究竟是什麼?
Sora,源自日語「空(そら,發音為sora)」,不僅指代天空,還象徵著無垠的空間和無限的可能性,從而引申出自由的寓意。在OpenAI關於Sora的介紹中,首頁就可以看到無數在空中自由飛翔的紙飛機,象徵著Sora模型的自主性和創造性,反映出「空」所蘊含的自由理念。
sora介紹頁面
關於Sora生成的各種影片我想大夥應該都已經見得不少了,相信很多人在看完影片之後都會有一個疑問:Sora是如何生成影片的呢?
在OpenAI放出的技術報告中是這樣描述Sora的:Sora是一個「擴散變換器(Diffusion Transformer)」。與傳統的變換器(包括編碼器和解碼器)在處理方式上存在類似之處,但其處理的並不是文本標籤,而是被稱為「補丁(Patches)」的視覺數據。
補丁(Patches),其實就是大模型在處理影片和圖像數據時,將視覺數據分解成小塊或小部分的一種方法。通過將影片壓縮到一個低維度的潛在空間,把空間的標識分解成為多個補丁,以此來讓模型更好地處理和生成高質量的影片和圖像內容。這種方法的優勢在於能夠允許模型處理不同解析度、持續時間和寬高比的視覺數據,為影片和圖像生成提供了更大的靈活性和能力。
而「擴散變換器」則是一種結合了擴散模型和變換器架構的技術,能夠通過利用變換器處理數據間複雜關係的能力,以及擴散模型逐步精煉數據的策略,來生成或預測影片和圖像中的「乾淨」補丁,逐步從包含噪聲的數據中恢復出乾淨的數據,來生成圖像或影片。
我們舉個簡單的例子,假如我們現在有一張狗狗的照片,我們可以一步步給這張照片增加噪點,讓它變得越來越模糊,最終會變成一堆雜亂的噪點。如果我們把這個過程倒過來,對於一堆雜亂無章的早點,我們同樣可以一步步去除噪點,把它還原成目標圖片,而擴散模型的關鍵就在於學會逆向去除噪點。
事實上,此前大火的Midjourney和Stable Diffusion的圖像和影片生成器就同樣基於擴散模型,不過不同的是Sora能夠通過讓模型一次預測多幀畫面,確保了即使被攝體在離開視線後仍然能保持不變,也使其展示出了對影視拍攝語法的全新自發理解,不僅可以跟隨對象移動鏡頭,還可以在移動鏡頭轉換角度的時候,仍然能夠保持畫面的合理與完整。
Sora另一個很強的地方在於,它「繼承」了OpenAI對文本的理解能力,能夠根據提示詞生成高質量的圖片和影片,並且能夠對影片進行向前或向後的擴展,例如,在這個官網展示的這個影片中,Sora能夠基於同一個影片開頭進行拓展,延伸出不一樣的結尾,或從不同的開頭引入,最終得到同一個結尾。
不過事實上,OpenAI的野心遠不止於此,Sora不僅是一個創造性的工具,它實際上還是一個基於數據的複雜模擬系統,能夠模擬現實或想像中的世界。它通過學習如何正確地渲染場景、模擬物理行為、進行長期推理和理解場景的含義,從而創建出逼真的 3D 場景和動畫。
這就使其能夠創造出很多現實中不存在的影片,例如在下面這個影片中,提示詞為「兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫影片」。這樣的要求不僅需要Sora生成一個逼真的3D模型,還需要讓這些模型根據物理規則動畫化,並模擬液體的動力學,還要使用高級渲染技術來實現照片級的真實感,即使場景的語義在現實世界中並不存在,但引擎仍然能實現我們期望的正確物理規則。
這一點雖然目前Sora仍有缺陷,但確是一個很有前景的目標,通過建立這樣一個複雜的模擬系統,我們就能夠對真實世界進行建模和預測,甚至是構建起真實世界的數字交互。無論Google、OpenAI還是馬斯克的xAI,終極目的都是構建起世界模型,就比方說電影《流浪地球2》裡面的MOSS,就是一個強人工智慧的化身,能夠通過構建真實世界模型,再加上強大的算力,來推演不同選擇導致的結果,達到預測的目的,這或許就是很多人眼中AI的終極形態了吧。
不過無論如何,這些都是後話了。
Sora真會砸掉整個影視行業的飯碗?
事實上,人工智慧從誕生的那一天起,就常常會成為很多人幻想中的「假想敵」,而隨著ChatGPT等新工具的發展,對於AI的遙遠恐懼漸漸演變成了近在眼前的對飯碗的深深擔憂,在Sora發布後更是如此。
單就Sora生成影片的能力來看,首當其衝的必然是影視從業者。畢竟傳統方式製作一段1分鐘的影片成本非常高,除了場景、燈光、演員,還要提前溝通分鏡、找好角度、考慮好攝像機與演員的走位等。如果再需要一些特殊因素,例如轉瞬即逝的光影、理想的天氣條件等,那就更要賭一賭運氣了。
而這一切在Sora這裡都不是問題,只要通過簡單的提示語句,就可以直接生成影片,而且相較於之前的AI工具,無論是影片的時長、畫面精細度,還是細節的完整性,甚至是多鏡頭拍攝,Sora都可以用「碾壓」來概括,很明顯將會為相關從業者帶來更大影響。
行業調查公司CVL Economics不久前發布的一項對好萊塢行業領袖的調查顯示,目前憂慮的情緒正籠罩著整個好萊塢,36%的受訪者表示生成式AI已經減少了他們公司的日常工作技能需求,72%的受訪公司都是生成式AI工具的最早採用者。
而在這其中還有75%的受訪者表示,生成式AI工具已經促使他們業務部門削減與合併相關的工作崗位。還有人預計,未來三年好萊塢總計會有超過20萬人的工作崗位會受到AI衝擊,其中尤其是視覺特效、音效師、畫圖師等後期工作崗位。
事實上,受到影響的並不只有影視行業從業者。面對來自Sora的「降維打擊」,AI影片領域的創業者中,有的如Runway CEO克里斯托瓦爾·巴倫蘇埃拉一樣,做好了「Game On」的準備,有的如Pika創始人郭文景一樣,開始籌備對標Sora的新產品,也有人如Stability AI CEO埃馬德·莫斯塔克一樣,不由感慨「阿爾特曼真是一個魔術師」,並將Sora視為AI影片界的GPT-3時刻。這一次,很多人真的感受到了危機感。
風物長宜放眼量
雖然Sora確實很勁爆,但如果因此而過分焦慮也大可不必。一方面由於Sora在其生成的影片中仍然存在很多經典的「靈魂錯誤」。例如在很多影片中,人物、動物會憑空消失、變形或者變出分身;還會出現一些違背物理常識的「鬧鬼」畫面,像人吹過的蠟燭沒有變化、穿過籃筐的籃球、懸浮移動的椅子等。
Sora生成的影片中,老人吹蠟燭前後火苗紋絲不動,略顯詭異
另一方面也在於,AI在創作邏輯等方面與人類截然不同,因而並不能真正辨別故事的好壞。有很多人認為,越是機器生成的東西,很多時候會愈發讓我們感受到人類之作的珍貴,例如帶著「鍋氣」的食物很多時候優於預製菜、凝聚了工人心血的器具雖然精確度不如機械但卻有更多的「溫度」……這樣的例子可謂俯仰皆是,更何況是在影視這一最能體現人類情感、囊括各種藝術門類的綜合藝術呢?
事實上,即使僅從影片呈現的而言,AI生成的內容在資訊量上並不能與真實拍攝相比,例如在很多電影場景中,人物的表達、語氣、表情的背後,不僅是各種細膩的人類情感,舉手投足之間積累的是半生的經歷、情緒與風土人情的總和。
這些內容雖然看似並不顯眼,但卻時時刻刻都在傳達很多資訊,正是這些內容才真正組合成了每一個與眾不同的人,也經由各種反應、互動形成了人物之間情緒的流動,也正是這些細節的變化,在無聲無息地影響著我們的情緒,為我們帶來感動,這是生成式AI很難做到的,而這或許才是很多AI生成影片「沒有靈魂」的根本原因。
此外,在影視行業中使用AI早已不是新鮮事,此前曾在好萊塢橫掃最佳影片、最佳導演等7大獎項的《媽的多重宇宙》就曾使用Runway的AI影片工具,去年21世紀福克斯已經與IBM沃森合作,用AI工具為關於AI主題的恐怖片《摩根》製作預告片,迪士尼旗下的漫威則完全使用AI製作了《秘密入侵》的開頭動畫。
不久前,NVIDIA創始人黃仁勛曾在一次參訪中表示,「在過去的10年、15年中,幾乎每個人都會告訴你,學電腦對孩子來說至關重要,每個人都該學習如何編程。但事實上,情況完全相反,我們的工作是創造計算技術,使得任何人都不再需要編程,使得編程語言變成人性的,現在世界上每一個人都是程式設計師,技術鴻溝已經完全彌合。」
而這似乎成為了AI時代的真實寫照,無論ChatGPT-4也好、Sora也罷,通過藉助日新月異的新技術,不懂編程語言的人也能夠製作軟體程序,沒有影視相關技術背景的人也能夠從容地製作自己的影片,這無疑將會進一步,激活新的產能,促進行業的發展,甚至是讓人和人之間產生新的鏈接,這或許才是生成式AI的更大意義。
我們有理由期待,未來必然會有更多的AI技術和電影或電視劇製作的結合與創新,也許會出現一些我們從未想像過的精彩作品,給我們帶來更多驚喜。