這兩天,影片生成模型領域因為 Meta Movie Gen 的發布,又炸開了鍋。
行業內外感嘆最多的地方,無外乎兩點,一是生成效果自然逼真,還能同步生成與畫面匹配的聲音,很像當時 Sora 發布後引起的討論和轟動;二是 Meta AI 的新模型自定義性很強,無論是影片畫面比例,還是影片元素與細節,都能根據用戶的需求進行調 整。
所以,可能會引領影片生成新變革的 Meta Movie Gen 到底有哪些細節?這些在官網和演示影片裡的驚艷效果是怎麼煉成的?Meta AI 的影片模型負責人 Andrew Brown 專門為 Meta Movie Gen 的理論技術做了解讀:
Movie Gen 在整體質量和一致性方面顯著優於 Sora。真實性和美觀性考驗照片寫實性,Movie Gen 全面獲勝。
Meta Movie Gen 是一組可以進行文本到影片生成、文本到圖像生成、個性化、編輯和影片到音頻生成的模型。
擴展數據、計算和模型參數非常重要,將其與流匹配相結合,並轉向簡單的常用 LLM 架構 (Llama),從而實現了 SOTA 影片生成質量。
我們(Meta AI)是第一個使用 Llama arch 進行媒體生成的人。
Movie Gen 是一個 30B 參數轉換器,可生成不同寬高比和同步音頻的 1080p 影片,最大持續時間為 16 秒(16fps)。
我們(Meta)為 T2V 模型提供了多階段訓練方案。T2I T2V 聯合訓練,導致收斂速度慢得多且質量更差。
文本到影片的評估很困難。自動化指標非常差,並且與人類評估沒有很好的相關性。
影片生成的「超級個體」
Meta Movie Gen 首發當天,,總體來說,Movie Gen 具有四種功能:影片生成、個性化影片生成、精準編輯和音頻生成。
先看最基礎的影片生成 Movie Gen Video,多模態的能力使得新模型可以勝任多種不同的輸入方式,用戶不僅可以通過簡單的文本、少許提示詞生成相應的影片,還能直接把需要處理的圖片放到模型里,根據文字要求,讓靜態的圖片變成動態的影片。
提示文本:一個女孩正在海灘上奔跑,手裡拿著一隻風箏;她穿著牛仔短褲和一件黃色 T 恤;陽光照耀著她。
你甚至還能讓 Movie Gen 幫忙重新生成或者優化一段影片。不管選擇哪種輸入方式,Movie Gen 目前在官網的演示影片,效果都非常好,人物表情自然,畫面細節到位,也能比較準確地按照提示詞或文本的要求來生成相應結果。
Andrew Brown 介紹到,在影片生成的過程中,擴展數據、計算和模型參數非常重要,將其與流匹配相結合,並轉向簡單的常用 LLM 架構 (Llama),從而實現了 SOTA 影片生成質量。
而且,新模型中的 T2V、個性化和編輯模型都來自相同的培訓方案。在預訓練期間,Meta 首先訓練 T2I,然後訓練 T2V。使用該模型作為初始化,然後進行 T2V 後期訓練,並訓練個性化 T2V 和 V2V 編輯的能力。

另外,模型的訓練也按照解析度的高低進行,先是低解析度(256px)訓練,然後是高解析度訓練(768px)。Meta AI 嘗試聯合訓練 T2I T2V,但這導致收斂速度慢得多且質量比之前的還要差勁。

Movie Gen Video 之所以能夠做到逼真的生成結果,本質上還是因為高達 30B 參數轉換器模型的卓越能力,這個模型能夠以每秒 16 幀的速度生成長達 16 秒的影片,而且最長能夠生成 45 秒的高質量和高保真音頻。
Meta 官方還在論文中透露:
這些模型可以推理物體運動、主體與物體之間的相互作用和相機運動,並且可以學習各種概念的合理運動。
這句話一共有三層意思,首先是模型本身可以幾乎還原出現實世界的物理運動,以及各種「合乎常理」的物理規律,而對於用戶而言,看上去「自然且逼真」就是模型技術最成功的地方。
Movie Gen Video 能夠準確理解物理世界的運動規律,Meta AI 是下了大功夫的。該團隊在數億個影片和數十億張圖像上,對全新的模型進行了大量的預訓練。通過不停的重複、學習、總結、推理和運用,Movie Gen Video 才有了在官網裡的優異表現。
接著,模型還能主動模仿學習專業電影的運鏡、畫面、蒙太奇等。也就是說,通過 Movie Gen Video 生成的影片,還有了類似電影拍攝的專業性和藝術性。
不過 Andrew Brown 提到,文本到影片的評估很困難。因為自動化指標非常差,並且與人類評估沒有很好的相關性。也就是說,在影片生成模型研製的早期,生成結果和人們印象中和觀察中的真實物理世界差別太大,最後 Meta 還是決定這種真實性的判斷,完全依賴人類的評估。
我們花費了大量精力將影片評估分解為多個正交質量和對齊軸。
結果 Movie Gen 在和 1000 個提示評估集上的模型進行比較時,在質量和一致性方面獲勝或全面處於同等水平。

最後,模型能在此基礎上,推理和創作出接下來的內容,它就像一個專業的導演,指揮著畫面里的一舉一動;也像一個經驗豐富的擬聲師,根據影片內容或者文本提示,實時生成和畫面一一對應的配樂。
煙花爆炸瞬間的音效
同步生成音頻的能力,依靠得是 Movie Gen Audio。這是一個 13B 參數轉換器模型,可以接受影片輸入以及可選的文本提示,以實現可控性生成與影片同步的高保真音頻。
和 Movie Gen Video 一樣, Movie Gen Audio 也進行了「海量」練習,Meta AI 將數百萬個小時的音頻參考投餵到模型的訓練里。經過大量的對比總結,目前模型已經掌握了聲音和畫面之間的對應關係,甚至還能了解不同的 bgm 會帶給觀眾哪些不同的感受。
因此在遇到有關情緒和環境的提示詞時,Movie Gen Audio 總能找到和畫面完美契合的音樂。
同時,它可以生成環境聲音、樂器背景音樂和擬音聲音,在音頻質量、影片到音頻對齊和文本到音頻對齊方面提供最先進的結果。
這使它們成為同類中最先進的模型。
雖然我們不敢就此和官方一樣,下一個如此自信的定論,但無論是從官方的影片長度、畫面質量,還是背景音樂的貼合程度,Movie Gen Video 相較於以往的影片生成模型,有了非常明顯的進步。
而且,和先前的偶像實力派 Sora 相比,Movie Gen 在整體質量和一致性方面都有著比較明顯的領先,Andrew Brown 毫不掩飾地說到在這場與 Sora 的比賽中:
Movie Gen 全面獲勝。
影片編輯的「全能專家」
在 Movie Gen Video 和 Movie Gen Audio 的協同配合下面,Meta AI 全新的影片生成模型有了全新的能力,不過上述的進步還只是技術基礎,同時具備音影片生成能力後,Meta 還繼續擴展了全新模型的適用範圍,使它能夠支持個性化影片的生成。
個性化顧名思義,就是結合用戶需求,根據要求生成指定的影片內容。
雖說先前的影片模型也能做到個性化生成結果,但這個結果總是不盡人意,要麼是不能更改細節,只能重新來過,要麼是在連續更改細節時,畫面里的其他元素無法保持一致性,總是會因為新影片的生成而多少受到點影響。
Movie Gen Video 在官網的演示中,很好地展現了他們在這方面的優勢。新模型不僅可以按照提示詞/參考圖像的要求,生成個性化的影片,還能在該影片的基礎上,繼續優化調整細節,並且保證其他的生成內容不受干擾,也就是「精細化修改」。
與需要專業技能或缺乏精確度的生成工具的傳統工具不同,Movie Gen 保留了原始內容,僅針對相關像素。
在創建保留人類身份和動作的個性化影片方面,我們的模型取得了最先進的成果。
這項功能,對於很多自媒體工作室,或有影片編輯需求的人,非常有用,它可以對更改對象進行全局修改,或者細節修改。大到根據文本重新生成整個畫面,小到只改變人物的發色、眼鏡的樣式等。比如可以通過模型來消除背景當中的無關雜物。
或者給原影片換上新的背景,不管是樣式還是顏色,都能隨時改變,而且還可以把白天秒變成黑夜。
另外 Movie Gen Video 還能針對很多細節做出細微的調整,在保證影片構圖、畫整體不變的同時,改變人物的衣服顏色、眼鏡佩戴樣式,主體穿著和寵物毛色等。
比如去除影片裡的無關雜物、更換畫面背景樣式,增加影片細節,改變主體衣著顏色等方面,都是他的強項。

不過這還只是一種暢想,因為 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 幀的高清長影片,或者最長 45 秒的高質量和高保真音頻。這樣的畫面解析度以及影片長度,對於一個有創作需求的個體或公司來說,好像都不太夠用。
但這種技術的突破,使得 AI 擁有了對影片文件無級調節的編輯能力,個性化定製、精準調節,加上 Movie Gen Audio 打開了影片配音的大門,Movie Gen Video 雖然要等到明年才會和公眾正式見面,但以目前官方的演示結果來看,它真有可能為影片、影視和 AI 行業注入新的動力,甚至帶來一場新的變革。
包括 Movie Gen Video 在內的最新、最前沿的工具,正在試圖打破這種 AI 在影片生成領域的刻板印象,雖然目前以他們的能力,這一天的到來還有很久。
對於影片生成模型來說,一開始很難直接影響,甚至觸及到普通人的日常生活,直到有了某部由 AI 創作的電影,可能才會在新鮮感上,引起大眾的注意。當下用 AI 做出的電影、番劇、動漫,多少都有些畫面不真實、動作很違和的缺點。

Meta AI 也在官網表示,隨著模型技術的改善與發展,他們將會與電影製作人和創作者密切合作,整合他們的反饋。當下,無論是 Runway、Sora,還是最新的 Meta AI,都在飛速發展,起碼和一年前的生成效果比較起來,可以看到肉眼可見的進步。
AI 技術對人們生活的影響,不一定會在第一時間顯現出來,當大家還都在探討 AI「有什麼用」的時候,那它對於大多數人的最大意義,就是多了一個好用的工具、一個好玩兒的玩具:
無論一個人是希望在好萊塢大展身手的電影製作人,還是喜歡為觀眾製作影片的創作者,我們都相信每個人都應該有機會使用有助於提高創造力的工具。