1 文生影片,多模態 AIGC 聖杯
文生影片當前處於起步階段,隨著文生圖、圖片對話技術的成熟,文生影片成為多模態 大模型下一步發展的重點。目前中國大陸亦有文生影片功能,但主要停留在圖片組合階段。 我們認為,多模態,尤其是文生影片的發展將為應用的爆發提供更立體的基礎設施,同 時對算力的需求也將指數級增長,對 AI 下階段的發展至關重要。本文所介紹的文生視 頻是指內容之間有關聯性與協同性,能生成有連續邏輯的影片模型。
1.1 相較於文字和圖片,影片能承載的信息量更大
相較於文字和圖片,影片在多維信息表達、畫面豐富性及動態性方面有更大優勢。影片 可以結合文本、圖像、聲音及視覺效果,在單一媒體中融合多種信息形式。 從影片生影片到文生影片、圖生影片,多模態的發展重視用更少的用戶輸入信息量實 現更豐富的 AI 生成結果。自 Runway推出Gen-1 影片生影片工具後,AI 處理影片、圖 片功能在社交平台爆火,其背後即是多模態大模型發展的表現之一。在多模態應用方面, 當前可應用的模態轉化主要集中在文字、圖片、影片的轉化。
1.2 當前公測的文生影片應用數量較少
文生圖領域,2021 年 1 月 5 日,Open AI 發布其首個基於 Clip 模型的文生圖模型 DALL·E,但並未開源,自此眾多公司爭先研發文生圖模型;2022 年 3 月 13 日, Midjourney 發布可公測的文生圖模型,其效果優越,引發了公眾關於 AI 藝術的討 論。目前已積累較多用戶、可穩定使用的文生圖模型主要有 Midjourney、Stable Diffusion、DALL·E 等。 文生影片領域,目前公眾可使用的主要有 Runway Gen-1、Runway Gen-2、 ZeroScope、Pika Labs。其中,除 Runway 收費外,ZeroScope、Pika Labs 均可免 費使用。 文生影片發展速度慢於文生影片,在影片質量、影片時長等方面突破較為困難,相比於 文生圖的快速優化疊代,文生影片的進展較慢。
即便是 Meta 和 Google 這樣的矽穀人工智慧巨頭,在文生影片方面也進展緩慢。她們分別推出的 Make-A-Video 和 Phenaki 均尚未公測,從官方公布的 Demo 看,Phenaki 雖然 可生成任意長度影片,但其質量較差且欠缺真實性;Make-A-Video 無需「文本-影片」 配對數據集,影片質量相對較好,但時長短。
1.3 文生影片,難在哪裡?
文生影片更困難。
技術實現本身更困難。從本質看,影片是連續的多幀圖像,然而文生圖到文 生影片並非簡單的圖片組合,而文生影片在文生圖的基礎上增加了時間維度。 文生影片需突破瓶頸多。可用的文生影片需具備一定的時長,優良的畫面質 量,一定的創意邏輯性及還原指令要求能力。
計算難度大
計算成本高。通過文本生成高質量圖片對算力的要求已經達到了一定程度, 由於生成影片模型複雜度提升及其時長、解析度提高等因素,文生影片對算 力的需求進一步加大。 計算複雜性提升。文生影片需要進行高維特徵融合,模型複雜度顯著提升。
數據要求高
缺乏高質量配對數據集。影片的合理性及連貫性體現模型的架構能力、創造 力、理解能力。例如,當用戶輸入「一隻大象在廚房做飯」這類文字指令時, 模型需理解文字指令內容,並根據訓練資料庫選取畫面及對象組合,過程中 可能出現缺乏相應素材、難以合理組合人物、難以合理架構場景等問題。文 生影片需要大量的文本-影片配對數據,但當前缺乏相應數據集,數據標註工 作量極高。 缺乏具備多樣性的數據集。由於用戶的文本指令要求各異,缺乏多樣數據集 使得模型無法生成預期效果。
技術融合難度大
多領域融合技術複雜性提升。文生影片涉及自然語言處理、視覺處理、畫面 合成等領域,跨學科多領域使其需攻克的技術難點增加。
2 技術路線沿革:文生影片,哪種技術更強?
同文生圖及大語言模型的發展類似,文生影片也在不斷探索中尋找更為高效且效果更佳 的基礎模型。目前主流的文生影片模型主要依託 Transformer 模型和擴散模型。 目前阿里 Model Scope 社區中提供了可用的、基於擴散模型的開源文生影片模型,促進 了如 ZeroScope 高質量文生影片模型的發展,有利於後續文生影片的技術疊代優化。
2.1 階段一:基於 GAN 和 VAE,以 Text2Filter 為代表
原理:文生影片發展早期主要基於 GAN(Generative Adversarial Nets,生成式對 抗網絡)和 VAE(Variational autoencoder,變分自編碼器)進行影片生成。 GAN 由生成器和判別器構成,生成器類似於小偷,生成器生成圖片;判別器 類似於警察,負責判斷是生成器生成圖片還是真實圖片。 VAE由編碼器及解碼器構成,其使得圖片能夠編碼成易於表示的形態,並且這 一形態能夠儘可能無損地解碼回原真實圖像。 生成過程分為兩步:首先,利用條件 VAE 模型從文本中提取出要點,即靜態 和通用的特徵,生成影片的基本背景;再藉助 GAN 框架中的神經網絡生成視 頻細節。 問題:應用範圍窄;僅適用靜態、單一畫面;解析度低。 代表:Text2Filter。
2.2 階段二:基於 Transformer,以 Phenaki 為代表
原理:Transformer 模型在文本及圖像生成中均得到了廣泛應用,因此也成為文生 影片使用較多的框架之一,但各模型在具體應用上仍有差別。主要思路即輸入文 本後利用 Transformer 模型編碼,將文本轉化為影片令牌,進行特徵融合後輸出視 頻。 問題:訓練成本高;對配對數據集需求大。 代表:Phenaki、Cog Video、VideoGPT。 Phenaki 是基於 Transformer 框架進行文生影片的代表之一,其突破了文生影片的時 長限制進行任意時長影片生成。Phenaki 模型基於 1.4s 左右的短影片進行訓練,通過連續的文字指令生成連續的較短時長的影片並串聯成 1 分鐘左右的長影片。例如,通過輸 入一段類似故事的文字指令,從而實現逐個短影片的銜接成為長影片。
2.3 階段三:基於擴散模型,以 Make-A-Video 和阿里通義為代表
原理:當前擴散模型是文生影片領域使用更廣的架構之一。通過預訓練模型進行 文本特徵提取後,再進行文本到圖片,圖片到影片的生成,過程中需基於擴散模 型進行。簡單來說,擴散模型即在圖片上逐漸添加高斯噪聲再進行反向操作。以 擴散模型為基礎的文生影片模型,一般是在文生圖基礎上增加時間維度實現影片 生成。擴散模型在語義理解、內容豐富性上更有優勢。 問題:耗時長。 代表:Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen1、RunwayGen2 以及 NUWA-XL。
2.3.1 Meta:Make-A-Video
Make-A-Video 是基於擴散模型的代表之一,其重點在於提升影片品質。其模型訓練 時間較短,無需「文本-影片」配對數據即可生成影片。Make-A-Video 生成影片主要思 路為首先接受文字指令,後利用 CLIP 文字解碼將其轉化為向量;接著先驗網絡將 CLIP 文本向量「翻譯」到對應的 CLIP 圖像向量;後利用 Base Diffusion Model(一種文生圖 的模型)生成影片的基本框架;此處得到額外的卷積層和注意力層到時間維度;後利用 Temporal Super-Resolution(TSR)進行幀插值以補充關鍵細節,最後利用兩個空間超 解析度模型升級各個幀的解析度。
2.3.2 阿里達摩院:通義文生影片大模型
通義-文本生成影片大模型-英文-通用領域-v1.0 是由阿里達摩院提供的、發布在阿里 Model Scope 平台上的開源文生影片大模型,目前仍在集成中,暫未開放公測。通義文本生成影片大模型僅支持英文輸入,基於多階段文本到影片生成擴散模型。根據 Model Scope 官網,該模型整體參數約 60 億,由五個子網格構成:文本特徵提取:利用圖文預訓練模型 CLIP ViT-L/14@336px 的 text encoder 來提取 文本特徵。 文本到圖像特徵擴散模型:Diffusion prior 部分,以 CLIP text embedding 為條件, 輸出 CLIP image embedding。 圖像特徵到 64x64 影片生成模型:同樣採用 diffusion model,以 GLIDE 模型中 UNet 結構為基礎改造 UNet3D 結構,採用 cross attention 實現 image embedding 嵌入,輸出 16x64x64 影片。 影片插幀擴散模型(16X64x64 到 64X64x64):diffusion 插幀模型,輸入包括 16x64x64 影片、image embedding,輸出 64X64x64 影片,其中 16x64x64 影片復 制 4 次到 64X64x64 以 concat 形式輸入、image embedding 同樣以 cross attention 形式嵌入。 影片超分擴散模型(64X64x64 到 64X256x256):diffusion超分模型,同樣為 UNet3D 結構,推理過程輸入 64X64x64 影片,輸出 64X256x256 影片。
2.3.3Zeroscope:由阿里達摩院 Model Scope 文生影片模型優化得出
在我們找到的三個文生影片模型(Runway Gen-2、Pika Labs 和 Zeroscope)中, Zeroscope 明確提出其由開源模型優化而來。我們認為,這在一定程度上代表了一種 新的技術路線——基於開源,開枝散葉。 ZeroScope 所依託的文本生成影片大模型是阿里達摩院 vilab「Model Scope-damo-textto-video-synthesis」,後者由文本特徵提取、文本特徵到影片隱空間擴散模型、影片隱 空間到影片視覺空間這 3 個子網絡組成,整體模型參數約 17 億。ZeroScope 由兩個組 件構成:Zerscope_v2 567w(用於以較低解析度快速創建內容)和 Zeroscope_v2 XL (用於將內容升級到高清解析度)。ZeroScope V3 目前在 Discord 服務器內測試,即將 推出。
3 實測:文生影片模型當前風格各異,總體質量較低
對於文生影片應用,用戶主要關注影片生成質量、是否可定製化生成特定內容(如風格、 可對生成內容調整細節等)、使用簡易程度等。儘管當前已有可公測的應用,但由於生 成結果粗糙等問題,文生影片並未在實際的媒體內容生成、創意製作領域得到廣泛應用。 具體來看,當前可測試的產品風格各異、總體質量較低: Runway Gen-1、Gen-2:是當前文生影片領域實際應用最「出圈」的模型,具 有較好的畫面質感,其功能眾多,可在文字、圖片、影片中自由轉化。 ZeroScope:是目前文生影片領域高質量的開源大模型之一。ZeroScope 在 Model Scope 的模型基礎上優化而來,能提供更高的解析度。ZeroScope 可供用戶 免費使用,儘管影片解析度、生成質量與 Runway Gen-2 有一定差距,但其後續潛 力大。 Pika Labs:為近期發布的文生影片平台,該模型一經發布便因其真實感、動作連 續性效果好引發關注。
從生成時間看,當前的文生影片結果時間短,目前 Runway Gen-2 最長可生成 18 秒視 頻內容,一般其他可公測使用文生影片模型生成結果均在 4s 左右,且無法融合音頻。 從生成平台看,與 Runway、ZeroScope 不同,Pika Labs 採取了與 Midjourney 相同的應 用平台,當前可通過申請在 Discord 端試用(Discord 是一款可進行社群交流的數字發行 平台,用戶可發布文字、圖片、影片、音頻等內容)。
3.1 複雜人物動作生成幀連續效果較差
複雜人物動作的影片生成考驗文生影片模型的幀連續效果及動作理解能力。從測試效 果看: RunwayGen2:基本完成文字指令要求,突出「一個女孩」人物主題,跳舞動作 有一定流暢性,但後續出現身體器官重疊問題; Pika Labs:未理解文字指令主題「一個女孩」,出現多個人物,但其舞蹈動作連 續流暢性相對較好; ZeroScope:人物模糊,但身體部位變化自然,且未出現變型、消失等問題。
3.2 非日常場景的影片架構能力連續能力一般
非日常場景的影片生成考驗文生影片模型的指令理解及架構能力。從「貓拿遙控器看 電視」這一虛構場景文字指令的要求生成效果看: Runway Gen-2:整體仍然最為出色,但後續動作變化不自然且幅度小,出現臉 部變形等情況; Pika Labs:對文字指令的理解有一定問題,並未體現「拿遙控器」的動作,但其 影片畫面細節如毛髮、飄動動作更為連貫順暢; ZeroScope:真實性較強,但動作僵硬且幅度較小。
3.3 多主體影片生成缺乏邏輯連續性
多主體的影片生成考驗文生影片模型的複雜場景處理能力及細微語言理解能力。當前 文生影片模型出現直接忽略文字指令中的如「手牽手」,「一個男孩和一個女孩」等細微 要求問題。 Runway Gen-2:對畫面及人物動作細節及雙人互動如「牽手」指令的處理較好, 生成人物符合邏輯但人物動作幅度不明顯; Pika Labs:未體現雙人「牽手「細節,但跑步動作自然連貫; ZeroScope:在多人物互動及跑步動作上處理較好,但畫面粗糙。
總體來看,三個文生影片模型的不同生成效果體現其背後模型及訓練數據特點。 Runway Gen-2:畫面精細度、清晰度及藝術美感均較強,影片動作幅度均較小, 影片動感主要體現在如頭髮的飄動上; Pika Labs:擅於生成連貫動作; ZeroScope:表現較為平均。
4 從圖片生成看文生影片的商業前景
4.1 為什麼選擇圖片生成作為對標對象?
4.1.1 圖片生成相對成熟
圖片生成類在多模態大模型中的商業程度較高,可為影片生成的商業化前景可提供一 定參考。以相對成熟的美國市場為例,據七麥數據 8 月 13 日 IOS 應用榜單,以「AI」 作為搜索關鍵詞,榜內共計 247 個應用,其中「攝影與錄像」、「圖形與設計」類的圖像 生成類應用占比 31.6%;而「音樂」類應用僅占比 2.8%;「效率」類語言生成或對話 式應用占比20.2%。可見圖片生成類的商業化程度最高,且從實際案例來看,目前已有 圖片生成類應用表現出較強的收費能力。
4.1.2 已經收費的影片生成應用,商業模式與圖片生成趨同
目前,從類別上看,圖片生成類為現階段多模態大模型相對成熟的商業化場景,影片 生成類的商業前景可參考圖片生成類的商業化發展歷程。整體來看,圖片生成類的商 業模式較為單一,收費模式和收費依據較為趨同,即按照人工智慧生成產品的生成量、 生成速度計算收費,現已出現的影片生成模型的收費依據也與其類似。另外,市場上已 出現個別破圈現象級圖片生成類應用,以及與其原有業務協同的 AI 增強功能產品,也 可為未來影片生成類應用的發展提供一定參考。
Runway Gen-2 是文生影片領域最先形成商業模式的多模態大模型案例,其收費標準 為文生影片領域大模型及應用端樹立了標杆,與廣泛的圖片生成類模型及應用的商業 模式類似,Runway Gen-2 也按照生成量、附加權益等區分不同套餐定價。自發布以 來,Runway Gen-2 引起關注度很高,由於是為數不多的開放公測的文生影片大模型, 很多玩家前往其官網進行文生影片的嘗試,2023 年 9 月其網站總訪問人次為 760 萬, 平均停留時長為 3 分 37 秒。
4.2 細分領域:看好人像生成,短期內變現較快
4.2.1 Lensa AI:人像生成功能推出後用戶付費意願高
Lensa AI 切入人像生成領域,新功能推出後收入可觀,但是否可若想形成持續性付費 收入仍需探索。Lensa AI App 於 2018 年上線,原本的主要用途是圖片編輯和美化。 2022 年 11 月 21 日,Lensa AI 上線的新功能「魔法頭像」(Magic Avatars)讓其在全球 人氣迅速飆升。用戶上傳人像圖,可通過「魔法頭像」自動生成各種不同風格的人臉照, 包括搖滾風格、時尚風、科幻風、動漫風等。11 月 30 日至 12 月 14 日,連續兩周位列 美國 AppStore 免費榜榜首,還拿下十多個國家的免費榜 Top 1。從商業模式上看,該 應用提供三種不同的購買方案,主要的區別是生成的照片的數量差異。用戶可以選 50、 100、200 張照片,分別對應 3.99、5.99、7.99 美元。
根據分析公司 Sensor Tower 的數據,該應用程序在 12 月的前 12 天在全球範圍內安裝 了約 1350 萬次,是 11月 200 萬次的六倍多。這 12天消費者在 App上花費了大約 2930 萬美元(日流水超百萬美元)。根據 Sensor Tower 的最新數據,Lensa AI 在今年 7 月的 全球下載量僅為 40 萬人次,同月全球收入僅為 100 萬美元。可見人像生成類應用若想 維持熱度、形成長期穩定的收費能力,市場玩家仍需繼續探索。
4.2.2 妙鴨相機:中國大陸首個「破圈」應用,寫真生成引起社交裂變
人像生成寫真應用妙鴨相機上架即火爆,迅速爬升社交類應用第一名。妙鴨相機是國 內第一個出圈的圖片生成類應用。用戶通過上傳一張正面照以及不少於 20 張的補充照 片,就能利用妙鴨相機生成各式寫真。妙鴨相機收費 9.9 元,可以解鎖現有模板,包括 證件照、古裝寫真、晚禮服寫真等。
妙鴨相機上線後非常火爆,生成圖片的等待時長一路走高,7 月 20 日晚間高峰期有 4000-5000 人排隊,需等待十幾個小時才能生成圖片。據七麥數據,妙鴨相機近自發布 以來,熱度高漲,截至 8 月 13 日,妙鴨相機在 iPhone 社交類應用中排名第一。
妙鴨相機現階段收入規模可觀,但市場對其復購及持續收費能力存疑,後續須不停上 線新模板、開創新玩法。據七麥數據,妙鴨相機近自上線以來,半個月時間收入預估總 計超過 29 萬美元,近七日日均收入超過 3 萬美元,在中國大陸圖像生成領域的應用中遙遙 領先,可以算作破圈的現象級產品。但目前還處於拉新階段,後期用戶的復購收入持續 增長的能力亟待驗證。
4.3 競爭優勢:看好有算力儲備的公司
目前,中國大陸外圖像生成類模型及模應用大多按照生成量、生成速度等來區分定價,但不 同點是國外產品的付費套餐中多有「無限量」套餐,而中國大陸產品未出現「無限量」套餐, 可看出中國大陸算力仍為瓶頸,因此,具有算力儲備的雲服務廠商在發展影片生成類應用 時具有天然優勢。
4.3.1 Midjourney:「無限量」套餐攏獲用戶,映射市場對算力的高需求
Midjourney 作為文生圖領域的代表性多模態大模型,相比於大多數有限生成量的圖片 生成類模型及應用,Midjourney 的「無限量」套餐具有天然優勢,其用戶規模和營收 已建立起一定壁壘。據 Similar Web 數據,Midjourney 官網在 2023 年 8 月網站訪問量 為 2850 萬人次,平均停留時長達到 6 分 30 秒。且從市場公開信息得知,Midjourney 的 日活用戶已達到 1500 萬,超過開源模型 Stable Diffusion 的 1000 萬日活,其年營收也 超過 1 億美元。
4.3.2 騰訊云:雲服務廠商加緊多模態生成布局
反過來看,由於本身具有算力能力優勢,雲服務大廠也開始注重多模態生成的能力建 設,上線圖像生成類產品。以騰訊為例,騰訊的 AI 繪畫產品作為功能模塊,集成在騰 訊雲解決方案平台上,客戶可選擇開通 AI 繪畫服務,便可使用此項功能。目前,用戶 可在騰訊雲上體驗「智能文生圖」及「智能圖生圖」功能,兩種功能每月共提供 20 次 體驗額度,正式服務需接入 API 使用。騰訊雲 AI 繪畫功能分為 PaaS 和 SaaS 兩種產品 形態,PaaS 需要二次開發,SaaS 版開箱即用。
4.3.3 無界 AI:「按時長付費」和「潮汐生成模式」彰顯算力底座特性
無界 AI 於 2022 年 5 月入局 AI 繪畫,為中國大陸較早起步的 AI 作畫工具平台之一。用戶可 通過直接開通會員享受基本權益,價格為100元/月、1000元/年,能實現文生圖,選擇 畫面大小、主題、風格等元素,還享有潮汐模式免費無限創作、解鎖全部專用模型、存 儲無限擴容、精繪折扣、選擇更多參數等會員權益。其中,潮汐模式下會員可以免費無 限創作。「潮汐模式」由夜間生成更便宜的「夜間生成模式」發展而來,旨在利用算力 資源空閒時段作畫,實現「以時間換價格」。 用戶還可開通權益卡或購買時長。其中,1)開通權益卡能獲得更多積分,適用於對普 通文生圖有更多需求(如更多超分辨次數、更多單張加速次數)的用戶。2)購買時長 適用於需要更多生成類型(如圖生圖、條件生圖)和功能(如局部重繪、多區域控制繪 圖等)的用戶,即專業版用戶。按時長付費也是阿里雲、騰訊雲等 AI 雲算力服務商常 用的收費方式,我們認為,這在一定程度上,反映出 AI 圖片生成應用與底層算力服務 的高度相關性。
4.4 業務協同:看好多模態生成與原有業務有協同的公司
4.4.1 Adobe :AI 生成工具有望帶來增量付費用戶
Adobe 上線 AI 創意生成工具 Firefly(螢火蟲),或為 Adobe 帶來增量付費用戶。 Photoshop 於 2023 年 3 月發布 AI 創意生成工具 Firefly,具有文生圖及圖像填充功能, 並且於 5 月底宣布全面開放,深度綁定 Adobe 旗下產品 Photoshop。
Adobe於2023年9月13日宣布Firefly正式商用,將採取按生成點數(Generativecredits) 收費的模式,每個點數對應一張圖片。其中,免費賬戶每月享有 25 生成點數,升級版 用戶每月支付 4.99 美元即可享有 100 積分。根據 Adobe 官網,Firefly 自 2023 年 11 月 1 日起將實行限額,生成積分的消耗取決於生成輸出的計算成本和所使用的生成人 工智能功能的價值。
4.4.2 Microsoft 365 Copilot:推出增強功能,高定價反應市場強需求
Microsoft 365 Copilot 定價策略大幅超預期,側面反應人工智慧生成產品的強勁需求。 Office Copilot 是基於 GPT-4 API 的應用,具有文檔編輯、表格處理等在 Office 軟體原有 基礎上利用 AI 開發的增強功能。7 月 18 日,微軟在合作夥伴會議上宣布 Microsoft 365 Copilot 定價策略,Microsoft 365Copilot 將面向 Microsoft 365 E3、E5、Business Standard 和 Business Premium 客戶的商業客戶提供,價格為每用戶 30 美元/月,大超 發布前的市場預期。此前 Microsoft 365 商業版定價最高為 22 美元/月,按照當前四種 商業版的訂閱價格計算,Copilot 加入後整體訂閱價格漲幅約在 53-240%。此次 Copilot 的定價反映了微軟對其新產品的信心以及市場對 AI 增強功能的強需求。
4.5 展望:看好文生影片與文生圖、圖生影片的聯動
由於當前文生圖、文生影片、文生音頻等都具有一定局限性,已經有創作者藉助不同 模型平台進行影片合成,從而實現最優效果。例如,近日出現的一則約一分鐘左右完 全由 AI 生成的科幻預告片《Trailer: Genesis》(創世紀),其中用到了 Midjourney 處理 圖像、Runway 處理影片、Pixabay 處理音樂、CapCut 剪輯影片。我們預計,後續 AI 在 文生圖、文生影片、文生音頻及剪輯等方面的應用仍有很大的發展空間,其對於生產力 的釋放值得期待。