香港中文大學與字節跳動聯手，讓AI影片生成「聽得懂聲音、看得見動作、認得出你手裡的產品」

這項由香港中文大學、字節跳動、莫納什大學和香港大學聯合完成的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.11804v1。感興趣的讀者可以通過這一編號在arXiv平台上查閱完整論文。

贊助商廣告

假設你正在為一款新上市的護膚品拍攝一條推廣影片。你需要一個真實可信的人物形象出鏡，手裡握著那瓶護膚品，用符合產品調性的語氣介紹它，身體的動作還要自然流暢，嘴唇的開合要精確地跟上旁白的每一個音節。這四件事——人物長什麼樣、產品長什麼樣、說什麼聲音、做什麼動作——缺一不可，而且必須天衣無縫地融合在同一段影片裡。

這正是當今影片生成領域最棘手的挑戰之一。現有的AI影片工具大多只擅長其中一兩件事：有些能讓人物「看起來像那個人」，有些能讓嘴唇跟上音頻節奏，有些能讓身體按照指定姿勢運動，但幾乎沒有任何一個工具能同時把這四件事都做好。

研究團隊把這類需求歸納為一個新的任務類型，稱之為「人物與物體交互影片生成」，英文縮寫是HOIVG。為了攻克這個難題，他們提出了一個名為OmniShow的系統，這是目前第一個能夠同時接受文字描述、人物與物品參考圖片、語音音頻、以及姿態動作序列這四類輸入，並將它們融合生成高質量影片的端到端框架。

研究團隊面對的不僅是技術難題，還有三重現實困境：如何在讓AI受到更多控制的同時不讓生成質量下降、如何在訓練數據極度匱乏的情況下讓模型學會處理四種模態的資訊、以及如何建立一套公平可靠的評測標準來衡量這類任務的表現。OmniShow針對這三個困境分別提出了創新性的解決方案，並通過大量實驗驗證了其有效性。

一、為什麼現有工具都「差那麼一口氣」

回到剛才那個護膚品影片的場景。假設你用某個現有工具生成了影片，你可能會遇到這樣的結果：人物臉是對的，但產品被貼在了身上一個奇怪的位置，大小也不對勁，像是被粗暴地PS上去的；或者嘴唇確實在動，但身體完全僵在那裡，像一個被施了定身術的蠟像；又或者動作很流暢，但產品換了個顏色或形狀，完全認不出來了。

贊助商廣告

研究團隊系統梳理了現有方法的局限性。專注於「參考圖像到影片」的工具，比如Phantom和SkyReels，能夠較好地保留人物外觀，但它們對音頻一無所知，生成的影片是徹底「沉默」的，嘴唇不會隨聲音變化。與此相對，那些專門做「音頻驅動影片」的系統，比如Hallo3和OmniAvatar，雖然能讓嘴唇跟上聲音，但它們通常只接受一張初始幀圖片作為參考，無法同時處理人物圖片和產品圖片兩個參考對象。

還有一些工作嘗試把音頻和參考圖像結合起來，比如HuMo和HunyuanCustom，但這類方法忽視了姿態控制，而姿態對於展示人物如何拿著產品、如何做出特定手勢至關重要——這些細節是純文字描述根本說不清楚的。另外，AnchorCrafter、DreamActor-H1和HunyuanVideo-HOMA等針對人物與物體交互場景的專用方法雖然更貼近實際需求，但它們要求額外提供物體遮罩、軌跡點或身體網格模板等苛刻的輸入條件，使用門檻很高，而且同樣不支持音頻驅動。

換句話說，整個領域就像一支樂隊，每個樂手只練好了自己的那一段，但沒有人能把整首曲子完整地演奏下來。OmniShow的目標，正是成為那個能協調所有樂手、把完整樂曲演奏出來的指揮。

二、統一通道：讓四路信號不打架地進入同一扇門

OmniShow構建在一個名為Waver 1.0的基礎模型之上，這是字節跳動開發的一個擁有120億參數的影片生成大模型，採用了一種叫做「多模態擴散變換器」的架構。可以把這個基礎模型理解為一台精密的影片生成機器，它已經經過大量訓練，具備了從文字或圖片出發生成流暢影片的能力。OmniShow要做的，是在不打壞這台機器原有精密結構的前提下，給它安裝上三套新的「感知器官」，讓它同時能聽音頻、識姿態、認參考圖像。

處理參考圖像和姿態信號的方案，研究團隊稱之為「統一通道式條件注入」。這個名字聽起來很拗口，但背後的思路其實相當優雅。

贊助商廣告

Waver 1.0原本就有一個設計：為了支持「圖像生成影片」任務，它會在影片的時間維度上預留一些槽位，用來放置輸入圖像的編碼資訊。研究團隊發現，與其引入全新的模組來處理參考圖像和姿態，不如沿用這套已有的槽位機制，只是把它擴展一下。具體來說，他們在原來的影片序列前面額外附加了若干個「偽幀」，也就是專門用來承載參考圖像資訊的虛擬幀。參考圖像經過VAE編碼器壓縮成特徵向量後，就填充到這些偽幀對應的槽位里。與此同時，姿態骨架圖被渲染成RGB格式的影片，同樣經過VAE編碼後，通過通道拼接的方式和原始影片特徵合併在一起。

這樣一來，兩路視覺資訊——參考圖像和姿態——都通過同一套通道拼接的機制進入了模型，模型不需要為此學習全新的交互方式，它只需要在熟悉的框架下稍加適應。這就像一個已經熟悉接受信件的郵筒，不需要拆掉重建，只需要稍微擴大一下投信口，就能同時接收兩種規格的信封。

更進一步，研究團隊還給這些偽幀加上了一個「重建損失」的訓練目標。簡單來說，模型在訓練時不僅要學會生成影片，還要學會從那些偽幀里重建出參考圖像本身。這相當於給模型施加了一個額外的壓力：你必須仔細記住參考圖像里的每一個細節，因為待會兒要考你。有了這個機制，模型在生成影片時對參考人物和物品外觀的保真度大幅提升。

實驗結果印證了這個設計的優越性。研究團隊與另一種叫做「令牌拼接」的主流方法做了對比，後者會把參考圖像的資訊轉化為獨立的特徵令牌插入模型的注意力序列中。結果顯示，在人臉相似度、物體一致性和影片美觀度等多個指標上，OmniShow的通道注入方法都取得了更好的成績。研究團隊認為，這背後的原因是通道注入保留了模型原有的輸入結構，避免了引入混合令牌所帶來的額外學習負擔。

三、門控局部注意力：讓聲音和畫面「對上口型」

贊助商廣告

視覺和聽覺的同步，是整個系統里最精妙也最難搞定的部分。一個人在說話時，嘴唇的形狀、下巴的幅度、頭部的微微抖動，都要精確地對應到音頻流里的每一個音素。稍有偏差，人眼立刻能察覺到那種「配音奇怪」的不適感。

OmniShow為此專門設計了「門控局部上下文注意力」機制，分三個層次來解決這個問題。

第一個層次是音頻特徵的豐富化。研究團隊使用了一個叫做Wav2Vec 2.0的預訓練模型來提取音頻特徵，這個模型能夠同時捕捉語音的語義內容和節奏韻律資訊。但僅僅提取當前幀對應時刻的音頻特徵是不夠的，因為人在發一個音的時候，嘴形往往受到前後音的影響——比如你要發「哦」這個音，嘴唇在發聲之前就已經開始撅起來了。為了捕捉這種前後文關係，研究團隊採用了一個大小為5的滑動窗口，把每個時刻前後各兩幀的音頻特徵堆疊在一起，形成一個更豐富的上下文音頻表示。之後再用步長為4的採樣來對齊影片的時間壓縮比例，最終得到一個密集的二維音頻特徵序列。

第二個層次是精確的幀級對齊。提取出音頻特徵之後，研究團隊用了一種叫「掩碼注意力」的機制來限制影片幀和音頻特徵之間的交互範圍。具體來說，每一幀影片的特徵，只被允許關注它所對應那個時間窗口內的5個音頻特徵，而不能去關注其他幀對應的音頻。這就像給每幀影片戴上了一副耳罩，讓它只能聽到屬於自己那一刻的聲音，而不會被其他時刻的聲音所干擾。這種精確的對應關係，是實現清晰口型同步的關鍵。同時，為了適配前面新增的偽幀，研究團隊還對音頻特徵做了補零處理，確保偽幀位置不會意外地和某段音頻產生錯誤的對應關係。

第三個層次是自適應門控。這是一個非常巧妙的訓練穩定性設計。當一個新的模組（音頻注意力層）被隨機初始化並插入一個已經訓練好的大模型時，初期這個新模組的輸出是噪聲，直接加入到模型的特徵流里會嚴重干擾原有的生成能力，導致訓練崩潰或者花很長時間才能恢復穩定。為了解決這個問題，研究團隊在音頻注意力的輸出上乘以了一個可學習的門控向量，這個向量的初始值被設置為接近零的極小數。這樣一來，在訓練初期，音頻模組的輸出幾乎被完全壓制，模型仍然按照原來的方式運作；隨著訓練進行，門控向量的數值會逐漸增大，音頻資訊的影響也逐漸滲透進來，整個過程平滑自然，不會造成衝擊。

贊助商廣告

研究團隊還通過觀察這個門控向量的數值變化，得到了一個意外收穫。他們發現，在模型的「雙流注意力塊」區域，門控向量的數值明顯高於「單流注意力塊」區域，而且前者會隨訓練步數持續增長，後者則相對低平。這說明音頻資訊主要在雙流注意力塊中發揮作用。於是他們做出了一個精簡的決策：只在雙流注意力塊中插入音頻注意力層，而跳過單流注意力塊。這個決策使得整個模型因為音頻模組而增加的參數量僅為約3億，整體模型規模從120億增加到約123億，增幅僅約2.5%。相比之下，HuMo等同類方法引入音頻能力後參數量增加了約21.4%，效率差距相當顯著。

四、先分後合的訓練策略：用「零花錢」拼出「大蛋糕」

數據稀缺是這個研究面臨的最棘手問題之一。要訓練一個能處理四種模態輸入的模型，理論上需要大量同時具備高質量文字描述、人物參考圖、物品參考圖、配套音頻和姿態序列的影片數據。然而這樣的「五合一」數據在現實中極難找到——任何一個條件沒達標，這條影片就要被丟棄。

面對這個困境，研究團隊沒有選擇強行搜集完整數據，而是設計了一套「分開訓練、再行合併」的策略，正式名稱叫做「解耦-再聯合訓練」。這套策略的思路可以用一個日常場景來理解：假設你想學會同時用左手彈鋼琴的旋律聲部、右手彈和聲聲部，還要用腳踩踏板。如果你一開始就試圖同時練這三件事，可能每件都學得一塌糊塗。更聰明的方法是先專心練好右手旋律，再專心練好左手和聲，然後再把兩手合在一起練，最後才加入踏板的練習。

OmniShow的訓練過程正是遵循這個邏輯。在「解耦訓練階段」，研究團隊分別訓練了一個專注於參考圖像到影片任務的R2V模型，以及一個專注於音頻驅動影片任務的A2V模型。前者利用專門的參考圖像影片數據集訓練，不包含任何音頻模組；後者利用音頻影片數據集訓練，按照常見範式將第一幀圖像作為附加條件。兩個模型在各自的專屬數據上進行了充分的專項訓練，每個模型都掌握了一套獨立的能力。

贊助商廣告

接下來是「聯合訓練階段」里最有趣的一步：模型融合。研究團隊將兩個專項模型的權重進行加權平均，具體做法是繼承A2V模型中的音頻模組（這是新增的結構，R2V模型里沒有），然後對兩個模型共有的其餘參數按照0.6（A2V）和0.4（R2V）的比例進行線性插值。權重比例的選擇依據一個重要觀察：音頻同步依賴於精細的時序對齊，對權重擾動極為敏感，因此更多地保留A2V模型的權重；而視覺外觀保真度依賴的是全局特徵，對權重擾動的容忍度更高，因此R2V模型的權重可以占據較小比例。

融合之後的模型展現出了一個令研究團隊驚喜的現象：即便還沒有經過任何專門的「音頻加參考圖像」聯合訓練，這個模型就已經能夠自發地生成既尊重參考圖像、又跟隨音頻節奏的影片。研究團隊把這個現象稱為「湧現能力」——就像兩個分別學會了游泳和騎自行車的人融合在一起，竟然無師自通地學會了同時游泳和騎車。這個發現本身就是一個頗具啟發意義的研究結論：通過權重融合，模型的可控能力可以自發湧現，而不必依賴專門的聯合訓練數據。

隨後，這個融合後的模型先在完整的參考圖像加音頻數據集上進行聯合微調，進一步提升自然度和美學質量；最後才在一個高質量的包含姿態資訊的子集上引入姿態條件，完成最終的全模態統一。姿態被放在最後引入，是為了防止模型過度依賴這個強監督信號——如果過早引入，模型可能會「偷懶」，完全靠著姿態信號來決定所有動作，而不去充分學習參考圖像和音頻所提供的資訊。

五、數據工廠：從零開始建造訓練原料

巧婦難為無米之炊。為了支撐上述訓練策略，研究團隊構建了一套大規模的異構數據收集流水線，最終積累了約百萬量級的影片片段，累計時長約3500小時。

整個流水線分三個大階段運轉。第一階段是鏡頭切割：從一個龐大的內部人物影片庫出發，使用場景切割算法把長影片拆解成連續的單一鏡頭片段，確保每個片段內容連貫、沒有跳切。第二階段是多維度過濾：對每個片段從影片解析度、畫面美觀度、運動強度、以及水印文字的密集程度等多個維度進行自動評分，去掉低質量樣本。

贊助商廣告

第三階段是針對不同子任務的專項處理。對於參考圖像影片數據，研究團隊一方面從現有影片中提取參考幀，做超解析度處理，並用算法評估參考圖和影片內容的一致性；另一方面還建立了一套合成數據流水線，利用內部的物品圖像資料庫，通過圖像編輯將人物和產品合成在一起，再用內部的圖像轉影片模型生成對應影片，並經過人工質檢篩掉有明顯AI痕跡（比如手指變形、細節丟失）的樣本。對於音頻影片數據，核心工作是做音影片同步評估，專門篩選出語音和視覺動作高度吻合的片段。對於同時包含參考圖像和音頻的高質量數據，則疊加上述所有標準，並加入人工專家篩選環節，對每條影片進行獨立審查。最後，在這部分高質量數據的基礎上，使用DWPose工具逐幀提取人體姿態骨架，形成帶姿態標註的最終微調數據集。

六、評測標準：填補領域空白

在提出解決方案的同時，研究團隊還意識到，這個領域缺乏一個專門的評測基準。現有的各類評測集要麼只關注文字和姿態、要麼只關注文字和圖像，沒有一個能夠同時評估文字、人物圖像、物品圖像、音頻、姿態這五類輸入協同效果的基準。

為此，研究團隊建立了HOIVG-Bench，一個包含135個精心構建樣本的評測基準。每個樣本都配備了詳細的文字描述、一張人物參考圖、一張物品參考圖、一段語義匹配的語音音頻，以及一段連貫的姿態序列。

數據構建過程嚴格遵循了幾個原則。影片素材從內部影片庫中精選，要求時長超過4秒、包含清晰的人物物品交互、並且在人物屬性（性別、年齡、族裔）和物品類別（日用品、工具等）上儘量多樣。為了模擬真實的生成場景，物品參考圖不是直接從影片中截取，而是用Google的Nano Banana模型對原始物品進行紋理和顏色的修改，並添加更多細節，形成與原物有所區別但同類別的參考圖。人物參考圖則是基於影片截圖通過Nano Banana生成的風格相似但外貌不同的形象，這樣既保護了原始人物的隱私，又保持了對模型泛化能力的考驗。音頻則通過兩階段合成：先用GPT-4o生成一段介紹目標物品的口播文字，再由GPT-4o分析人物參考圖中的性別和年齡，最後用ElevenLabs合成匹配音色的語音。所有樣本還經過了人工審核，過濾掉有明顯AI感的圖像，確保基準貼近真實數據分布。

贊助商廣告

評測維度涵蓋五個方面：文字語義對齊（用VideoReward預測文字對齊分數）、參考一致性（用人臉相似度FaceSim和綜合一致性評分NexusScore衡量）、音影片同步（用Sync-C和Sync-D兩個指標，前者越高越好，後者越低越好）、姿態精度（用平均關鍵點距離AKD和正確關鍵點比例PCK衡量）、影片質量（用VBench的美學和畫質評分，以及VideoReward的整體視覺質量和動作質量評分）。所有測試統一在5秒時長、720p解析度的豎屏影片上進行，以確保和只支持短片生成的基準方法做公平對比。

七、實驗結果：OmniShow的成績單

研究團隊將OmniShow與六個主流方法進行了對比，涵蓋了不同規模的模型變體。在僅使用文字和參考圖像生成影片的場景下，OmniShow在人臉相似度上與專門做這件事的Phantom-14B相當，而在物品一致性（NexusScore）和影片質量指標上則表現更優，在文字對齊和動作質量兩項上也達到了參賽方法中的最高分。

在同時處理參考圖像和音頻的場景下，OmniShow在物品一致性、音影片同步的Sync-C、影片美觀度、畫質、視覺質量和動作質量這六項指標上均領先對手，只在文字對齊一項上略低於HuMo-17B，但HuMo-17B的參數量是OmniShow的約1.38倍。

在使用參考圖像和姿態序列生成影片的場景下，OmniShow在物品一致性、正確關鍵點比例和畫質三項上領先，但在人臉相似度上低於VACE，這一點研究團隊解釋為：在嚴格的姿態約束下，視角和面部形態會發生較大變化，導致基於人臉檢測的相似度評分天然偏低，並不能準確反映實際生成質量。

在RAP2V這個最完整的四路輸入場景下，目前沒有其他方法支持這種設置，因此研究團隊構造了一個級聯基準方法（先用VACE生成帶姿態的影片，再用LatentSync做口型後處理）來做對比。結果顯示，OmniShow在所有11項指標上全面超越了這個級聯方法，特別是在影片質量（VQ為11.06對10.05）和動作質量（MQ為5.88對3.91）上有較大幅度的提升。研究團隊指出，級聯方法的口型處理模組在遭遇手部遮擋嘴巴的情況時特別容易產生模糊和偽影，而端到端的OmniShow因為在生成階段就已經整合了音頻資訊，能夠更自然地處理這類複雜遮擋情況。

贊助商廣告

在用戶偏好研究中，研究團隊分別組織了30名評測者對RA2V結果做選邊站評測，以及33名評測者對RP2V結果做選邊站評測，每次評測20個隨機樣本。在RA2V設置下，超過51%的評測者認為OmniShow的影片質量優於HuMo-17B，約42%認為參考一致性更好，約42%認為音影片同步更好。在RP2V設置下，超過52%的評測者認為OmniShow的影片質量更好，超過56%認為姿態精度更好。這表明OmniShow的優勢在人類感知層面比單純的數值指標更為明顯，研究團隊認為這主要來自於影片在時間維度上更流暢的動態表現。

八、深挖一步：消融實驗告訴我們什麼

研究團隊還做了一系列「拆零件」實驗，逐個去掉某個設計，觀察性能下降程度，從而反向驗證每個設計的必要性。

去掉參考重建損失之後，人臉相似度從0.707下降到0.678，物品一致性評分也有所下降，證明這個額外的重建約束對保真度有實質貢獻。把通道注入方式換成令牌拼接之後，人臉相似度進一步下降到0.601，物品一致性也更低，印證了通道注入對於任務統一模型的優越性。

在音頻注意力模組的消融實驗中，去掉音頻上下文打包（即滑動窗口機制）之後，Sync-D指標變差，說明上下文資訊對於捕捉時序連貫性至關重要。去掉注意力圖的幀級約束之後，Sync-C從9.023驟降到2.201，Sync-D從7.419惡化到13.01，這是整個消融表格里最戲劇性的下降，直觀地說明幀級精確對齊是音影片同步的核心機制，缺了它整個音頻注入幾乎失效。去掉自適應門控之後，影片美觀度指標下降，驗證了門控機制對訓練穩定性的保護作用。

在訓練策略的消融實驗中，直接在完整的參考加音頻數據上訓練（不做分階段）的模型，音影片同步表現最差（Sync-D高達13.11）。先用R2V數據訓練再切換到聯合數據的方案，音影片同步也沒有改善。先用A2V數據訓練再切換的方案則參考一致性最弱。只有研究團隊提出的先分別訓練、再融合、再聯合微調的完整策略，才在參考一致性和音影片同步之間取得最佳平衡。

贊助商廣告

研究團隊還專門測試了只經過音頻影片訓練階段的OmniShow-A2V模型，在一個叫做EMTD的專門音頻驅動影片基準上，這個模型的Sync-C得分達到6.49，超過了MultiTalk的6.34，成為當前最優結果之一，驗證了門控局部上下文注意力機制在單獨的音頻影片任務上也有競爭力。

此外，研究團隊還驗證了OmniShow在更寬泛應用場景下的靈活性。給定單張人物圖像和音頻，OmniShow可以作為音頻驅動數字人的工具，生成表情自然、口型同步的動態形象。通過在工作流中插入姿態提取步驟，可以從現有影片中提取人物的動作序列，再結合一個新的物品參考圖，生成一段人物手持新物品的影片，實現「物品替換」效果。通過分別從不同來源提取姿態、物品參考圖和人物參考圖，還可以合成出一段全新的、人物和物品都來自不同原始素材的融合影片，實現「影片重混」的創作效果。

說到底，OmniShow解決的是一個在技術層面長期懸而未決、在實際應用層面又有真實強烈需求的問題。它的核心貢獻在於，證明了可以用極小的架構改動（僅增加約2.5%的參數）就撬動對四種模態輸入的統一處理能力，同時證明了通過權重融合讓多模態可控性自發湧現的可能性。這兩個發現，對於整個影片生成領域的後續研究都有一定的方法論啟示價值。

當然，這項研究也坦承了一些局限性。當前的評測僅覆蓋5秒時長的片段，而模型實際上能生成長達10秒的影片，更長時間的全面評測尚待完成。評測基準中的人物參考圖均為AI生成，與完全真實的照片相比存在一定的域偏移，這可能使評測結果與真實部署場景之間存在些許差距。在極端的大幅度運動或多模態信號相互衝突的情況下，生成影片有時仍會出現模糊或偽影，這是未來需要進一步攻克的方向。研究團隊還展望了幾個值得探索的後續方向，包括引入基於人類偏好反饋的強化學習來進一步對齊真實場景、擴大訓練數據和模型規模、支持更豐富的輸入形式（如攝像機運動軌跡或參考影片片段），以及向分鐘級長影片合成和實時交互式生成邁進。

贊助商廣告

對這項研究感興趣的讀者，可以通過arXiv編號2604.11804v1找到完整論文，也可以訪問論文中提到的項目主頁查看影片演示。

Q&A

Q1：OmniShow和現有的AI影片生成工具有什麼本質區別？

A：現有工具通常只能處理一兩種輸入條件，比如只能接受文字描述，或者只能根據一張參考圖生成影片，無法同時處理人物參考圖、物品參考圖、語音音頻和姿態動作這四類輸入。OmniShow是目前第一個能夠同時接受這四類輸入並生成高質量影片的端到端框架，生成的影片中人物和物品的外觀高度保真，嘴唇動作與音頻同步，身體動作符合指定姿態。

Q2：門控局部上下文注意力機制是如何實現嘴唇和聲音同步的？

A：這個機制分三步工作。首先用滑動窗口把每幀對應時刻前後的音頻特徵聚合在一起，讓模型理解發音的前後文關係。然後通過掩碼約束，強制每幀影片只能關注自己時間段內的音頻，避免串擾。最後用初始值接近零的可學習門控向量控制音頻信號的影響力度，確保訓練初期模型不被隨機初始化的音頻模組干擾，隨著訓練推進才逐漸開放音頻的影響。

Q3：HOIVG-Bench評測基準里的人物和物品圖片為什麼要用AI生成而不直接用真實照片？

A：使用AI生成圖像主要出於兩方面考慮。一是隱私和合規保護，直接使用真實人物照片涉及肖像權和個人資訊保護問題，公開發布會面臨法律風險。二是物品參考圖需要模擬真實使用場景，即參考圖中的物品與影片中的物品有所不同，不能直接從影片幀中截取，需要通過AI修改紋理和細節來構造差異化的參考樣本。研究團隊還專門進行了人工審核，過濾掉有明顯AI感的圖像，確保基準貼近真實數據分布。