這項由韓國科學技術院(KAIST AI)與AIPARK聯合完成的研究,於2026年6月發表在arXiv預印本平台,論文編號為arXiv:2606.11180。有興趣深入鑽研技術細節的讀者可通過該編號查閱完整論文。
你有沒有看過那種外語電影的配音版本,演員的嘴型和聲音對不上,顯得十分違和?或者想過有朝一日,能讓任何一段影片中的人物"開口說"另一段話,嘴型還完美吻合?這就是"口型同步"技術要解決的事。簡單說,就是拿一段人說話的影片,再配上另一段音頻,讓影片裡的嘴巴動作和這段新音頻完全貼合,背景、髮型、表情卻一點兒沒變,仿佛原本就是這樣拍的。
這個需求早就不是科幻:直播翻譯、虛擬主播、互動AI助手、影視後期配音……每一個場景都在呼喚這樣的技術。而研究團隊給出的答案,叫做**Lip Forcing**。
**一、口型同步技術的"難題"在哪裡**
現有的口型同步技術里,最先進的一批都基於"擴散模型"——一種讓電腦從一堆隨機噪點裡一步步"沖洗"出清晰畫面的生成技術,就像攝影師在暗房裡把一張曝光不足的底片逐步顯影成清晰照片。這類方法生成的影片質量很高,嘴型和音頻也能對得很準,但有一個致命傷:**太慢了**。
慢的原因有兩個。一是這類模型在處理影片時,會讓影片裡每一幀都"看見"其他所有幀——無論是前面的還是後面的——就好比讓一個人寫每一句話的時候都先把全書從頭到尾讀一遍,再動筆。幀數越多,計算量就成倍增長。二是從噪點到清晰畫面的"顯影"過程需要走五十步,每一步都要調用一次龐大的神經網路,五十次疊加下來,耗時可想而知。
正是這兩道坎,讓擴散模型在直播這類對延遲極度敏感的場合幾乎無法落地。研究團隊統計了一下:一個同規模的雙向擴散模型,處理影片的速度還不到每秒兩幀,而流暢播放影片至少需要每秒二十五幀。兩者相差了十幾倍,這就是這項研究要跨越的鴻溝。
**二、從"看完全書再動筆"到"只看已寫部分"**
Lip Forcing的第一個核心思路,是把雙向模型改造成"自回歸"模型。所謂自回歸,就是每次只生成一小塊影片(研究中叫"chunk",大約是三幀),生成時只參考已經生成好的歷史畫面,不看未來的內容,就像一個人按順序講故事,只回頭翻已經講過的部分,不提前翻後面的章節。
這樣改造之後,模型可以邊生成邊輸出,像流水線一樣滾動推進,不需要等整段影片全部處理完才能看到第一幀。研究團隊給這個特性起了個名字叫"流式推理"(streaming inference),而能夠實現這一點的關鍵機制叫**KV緩存**——每生成完一小塊影片,就把這塊影片對應的"歷史記憶"存起來,下一塊影片生成時直接調用,不用重新計算。
為了防止緩存無限膨脹、越積越慢,模型只保留最近六幀的記憶,外加一幀固定的"錨點幀"(研究中叫attention sink,起到穩定身份和背景的作用)。這樣,無論影片有多長,計算量都不會隨時間增加——就像記憶力有限的人,只記得剛剛發生的幾件事,但這些事已經足夠他做出準確的下一步判斷。
**三、為什麼不能簡單地把五十步壓縮成兩步**
把顯影步數從五十步壓縮到兩步,這件事聽起來簡單,但直接壓縮往往會毀掉生成質量——就像把原本需要烤四十分鐘的蛋糕強行三分鐘出爐,外表可能還好看,但裡面全是生的。
研究團隊沒有盲目壓縮,而是先花時間研究老師模型(一個140億參數、走完五十步顯影的完整模型)在每一步"顯影"過程中究竟在做什麼。他們做了一個實驗:在老師模型走的五十步里,每走完一步就拍個"快照",測量這個快照和原始影片的相似度(LPIPS指標),以及嘴型和音頻的吻合程度(Sync-C指標)。
結果發現了一個很有意思的規律,研究團隊把它命名為**"CFG保真度-同步性權衡"**(CFG fidelity–sync tradeoff)。這裡的CFG是一種叫"無分類器引導"的技術,可以理解為一個"音頻增益旋鈕"——調高這個旋鈕,模型會更努力地貼合音頻,嘴型和聲音的吻合度更高;但代價是生成的臉越來越偏離原始參考影片,細節失真變多。關掉這個旋鈕,人臉還原度更高,但嘴型就不那麼准了。無論把旋鈕擰到哪個固定位置,都沒法同時讓兩個指標都好。
更關鍵的發現是:這個旋鈕在不同的顯影階段,效果是不一樣的。研究發現,大約在第二十步到第四十步這個區間內(五十步總數中的中段),調高音頻增益對嘴型同步的提升最明顯。而在這個區間之外,調高旋鈕對同步的幫助很小,卻會持續拉低人臉的還原度。
這個發現就好比發現了一個黃金"調味窗口":在特定的烹飪階段加鹽,效果最好;在其他階段加鹽,只會讓菜變咸卻不更美味。
**四、把這個發現轉化成三個具體工具**
明白了老師模型的"脾氣"之後,研究團隊設計了三個針對性的方法,合在一起構成了Lip Forcing的完整訓練配方。
第一個工具叫**Sync-Window DMD(同步窗口分布匹配蒸餾)**。傳統的"蒸餾"技術(讓小學生模型向大老師模型學習的過程)會在所有訓練時刻都統一開啟音頻增益旋鈕,強迫學生在每個階段都向"嘴型準確但臉部失真"的老師靠攏。Lip Forcing的改進是:只在第二十到第四十步這個黃金窗口內開啟旋鈕,其他時刻保持旋鈕關閉。這樣,學生模型在最關鍵的階段學會精準的嘴型控制,而在其他階段則專注於還原真實的人臉細節,兩者互不干擾。
第二個工具是**兩步推理計劃**(two-step inference schedule)。研究團隊通過額外的實驗確認,只要走完兩步,而且第二步恰好落在第三十步位置(一個經過分析確認的"著陸甜點"),生成質量就能接近四步的效果,而只需要一步的一半時間。這個選擇刻意偏向了人臉還原度,因為分析表明第三十步是在人臉還原和嘴型同步的聯合最優點上偏向還原的一側——而剩餘的嘴型準確度缺口可以由第三個工具來補。
第三個工具是**基於SyncNet的獎勵機制**。SyncNet是一個專門判斷嘴型和音頻吻合程度的"裁判員"模型,早已被學界廣泛使用。在訓練過程中,研究團隊讓這個裁判員對每個生成的影片片段評分,分數高的片段對應的訓練信號會被乘以一個更大的權重,讓模型從這些"做對了"的樣本中學到更多。這個獎勵機制不會改變模型如何生成影片(訓練時不讓梯度反傳回裁判員),只是靜靜地告訴模型:這個方向是對的,多往這個方向走。
三個工具協同配合:同步窗口讓訓練方向準確,兩步計劃讓推理速度夠快,獎勵機制彌補因偏向還原而留下的同步缺口。
**五、訓練過程:先打基礎,再精煉**
整個訓練分兩個階段進行,就像培養一名廚師的完整路徑——先教他基本烹飪技能,再專門訓練某道招牌菜的精髓。
第一階段叫"擴散強迫預訓練"。模型在真實的影片數據上學習,每次處理一小塊影片,隨機加上不同程度的噪點,再練習把它還原出來。這個階段讓模型建立起對人臉和口型的基本理解。訓練數據來自三個公開的音影片數據集:VoxCeleb2提供了來自YouTube訪談的超過一百萬段多樣化人聲片段;HDTF提供了約三百六十段高清正面說話影片;Hallo3則補充了動態豐富、場景多樣的影片素材。所有影片都經過嚴格的預處理:統一調整幀率到每秒二十五幀,音頻重採樣到16千赫茲,使用人臉識別工具把臉部對齊到固定位置並裁剪到512×512像素的正方形,最後還通過SyncNet的置信度分數和圖像質量評分過濾掉低質量片段,大約保留了三萬個高質量片段。
第二階段是"自強迫DMD蒸餾",也就是上面說的三個工具正式登場的地方。在這個階段,模型用自己生成的影片來建立歷史上下文(而不是用真實影片),這樣訓練時和實際運行時的條件一致,避免了"訓練時看真實影片、推理時只能看自己的輸出"這種落差。這個階段只運行六百步,但因為每步都在與一個140億參數的老師模型正面交鋒,訓練的資訊密度很高。
**六、模型的架構:站在巨人肩膀上**
Lip Forcing的骨架來自一個叫OmniAvatar的開源模型,而OmniAvatar的核心又是另一個叫Wan 2.1的影片擴散變換器(可以理解為影片生成領域的"大底座"),分別有十三億和一百四十億參數兩個規模。研究團隊在這個底座上做了兩件事:一是把原本的圖像生成輸入方式改造成影片修復輸入方式,把五類資訊同時送入模型——原始影片的噪聲潛變量、嘴唇區域的二值遮罩、隨機抽取的參考幀、被遮罩覆蓋後的影片、以及另一段來自同一影片的參考序列;二是通過一個叫"Audio Pack"的模組把音頻信號注入到影片潛變量中,音頻先由Wav2Vec 2.0編碼器提取語音特徵,再投影到和影片特徵相同的維度,直接疊加到影片信號上。
遮罩的形狀採用了一種U形設計,覆蓋嘴巴、下巴和沿下頜線的下半張臉,模型只修改遮罩區域內的內容,遮罩外的頭髮、背景、上半張臉等全部保持原樣不變。這一設計讓生成結果自然地融入原始影片,看不出拼接感。
對於十四億參數規模的學生,採用全參數微調;對於一百四十億參數規模的學生,則使用一種叫LoRA的輕量適配器(可以理解為在大模型上貼一層薄薄的、可訓練的"貼膜",只有貼膜會被更新,底層參數保持不動),秩設置為128,顯著降低了訓練的內存和計算成本。
**七、速度與質量:測試結果說話**
研究團隊在HDTF測試集的三十三個影片片段上評估了所有方法,測量了多個維度的表現。速度方面,十三億參數的Lip Forcing學生達到了每秒31.58幀,比同等規模的雙向模型快了17.6倍,比五十步的老師模型快39.8倍,也比另一個主流方法LatentSync快了4.7倍。"第一幀延遲"(從開始處理到看見第一幀畫面的時間)在兩個規模下都低於一毫秒,而所有其他多步擴散方法的這個數字都在幾十毫秒甚至幾百毫秒量級。
畫面質量方面,Lip Forcing在衡量影片時序一致性的FVD指標上取得了全部方法中最低的數值(14B版本為107.88),明顯優於Diff2Lip(285.69)和X-Dub(183.99),也略優於LatentSync(117.91)。在身份保留(CSIM,用人臉特徵的相似度衡量)和圖像質量(FID)方面,Lip Forcing同樣處於領先位置。
嘴型同步方面,Lip Forcing的Sync-C得分(數值越高表示同步越好)略低於Wav2Lip和VideoReTalking等老方法,但研究團隊指出這兩個老方法的Sync-C已經超過了真實影片的數值(真實影片是7.95,它們分別是8.56和8.22),這意味著它們對Sync-C這個指標存在過度優化的跡象——就像一個學生為了考試高分把答案死記硬背,實際理解能力反而下降了。
為了驗證這一判斷,研究團隊還組織了用戶主觀評分研究,邀請真實用戶對所有方法生成的影片在影片音頻同步感、畫面質量、身份保留和自然度四個維度上各打一到五分。結果顯示,Lip Forcing(14B)在畫面質量(4.33分)、身份保留(4.46分)和自然度(4.32分)上均排名第一,在同步感知上與最強基線X-Dub持平(分別是4.38和4.40分),印證了Sync-C數值略低並不等於用戶感知的同步感較差。
**八、消融實驗:拆開每個零件看效果**
研究團隊還做了大量的拆解測試,逐一驗證每個設計決策的貢獻,就像把一道菜的每種調料單獨試吃,確認缺了哪種味道會變差。
關於CFG調味窗口的形狀:只在黃金窗口(步驟二十到四十)內開啟音頻增益,比全程開啟(FVD從119.88升至138.32)或全程關閉(FVD為120.85但嘴型同步極差,Sync-C僅6.14)都更好。把窗口"反轉"(即在黃金窗口外開啟、窗口內關閉)則得到了兩者的中間值(FVD為126.62),這反過來驗證了原始窗口位置確實是分析確認的最優區域。
關於步數和第二步落點:一步(FVD為131.50)到兩步(FVD為119.88)有明顯提升,再加到四步(FVD為117.80)提升趨於平緩。第二步落在第三十步位置是分析推薦的選擇,比落在第二十五步或第三十七步都能在保真度和同步之間取得更好的平衡;提前到第十三步則兩個指標都更差,說明過早結束顯影不是一個好選擇。
關於SyncNet獎勵:在使用全程固定CFG的情況下加入獎勵,Sync-C從7.13提升到7.24,FVD從138.32降到135.94;在使用窗口CFG的情況下加入獎勵,Sync-C從6.81提升到6.88,FVD基本持平。獎勵機制在兩種配置下都能穩定改善嘴型同步,同時不明顯損害畫面質量,發揮了預期的"彌補缺口"作用。
**九、走得更遠:長影片和跨身份測試**
研究團隊還在兩個更具挑戰性的場景下測試了Lip Forcing的能力。長影片方面,HDTF中最長有近六分鐘的完整影片,而訓練時每次只處理約三秒的片段。在這種情況下,Lip Forcing的流式自回歸架構展現出了天然優勢:歷史記憶通過滾動緩存持續傳遞,身份資訊不隨時間漂移,FVD(118.97)和人臉相似度(CSIM 0.9450)與短影片測試接近,而X-Dub這類分段處理的方法在長影片中出現了過飽和色彩和身份漂移的明顯瑕疵。
跨身份測試則把一段影片配上另一個人說話的音頻,考驗模型能否在完全不同的音頻驅動下產生正確的嘴型動作。Lip Forcing在這個場景下的同步指標(Sync-C為6.27)不及LatentSync(9.05)等更激進優化同步的方法,但研究團隊認為這與Lip Forcing刻意偏向還原度的設計取向一致,且畫面自然度和身份穩定性依然保持良好。
歸根結底,Lip Forcing做成了一件之前從未有人同時做到的事:讓一個基於擴散生成的口型同步模型真正跑進實時門檻,同時在畫面質量上不落下風。十三億參數版本每秒三十一幀、延遲不到一毫秒,意味著直播翻譯和虛擬主播這類需要即時響應的場景,現在有了一個可用的擴散級畫質選項。一百四十億參數版本則是迄今為止在影片到影片口型同步任務上報道過的最大擴散模型,在畫面質量上設立了新的參考點。
這項研究更廣泛的意義在於方法論:通過對老師模型的軌跡分析,找到哪些階段對哪種信號最敏感,然後把這個洞察直接編碼進蒸餾的訓練策略里。這套分析框架不局限於口型同步,任何需要把大型擴散模型壓縮成快速流式學生模型的任務,都可以用類似的思路去做一遍軌跡檢查,再定製專屬的訓練配方。當然,這套配方目前只在一個家族的老師模型上驗證過,不同架構的老師是否會呈現相似的規律,還需要未來的研究繼續探索。此外,SyncNet作為獎勵信號有被過度優化的風險,如何設計更貼近人類感知的音影片對齊目標函數,也是值得深入研究的開放問題。
---
Q&A
Q1:Lip Forcing口型同步技術為什麼比其他擴散模型方法快這麼多?
A:Lip Forcing的速度優勢來自兩個設計:一是把原本需要看完整段影片的雙向注意力機制改造成只看歷史幀的自回歸架構,大幅減少了每步的計算量;二是把五十步的"顯影"過程壓縮到只需兩步,而這兩步的位置是通過對老師模型的軌跡分析精心選定的,而非隨意刪減。兩者疊加,讓13億參數版本在單張H100顯卡上達到了每秒超過31幀的實時速度。
Q2:Lip Forcing的口型同步準確度為何不如Wav2Lip這類老方法的Sync-C評分高?
A:Sync-C是由SyncNet裁判模型打出的自動分數,Wav2Lip等老方法正是專門針對這個裁判優化的,導致它們的Sync-C甚至超過了真實影片本身,存在過擬合現象。Lip Forcing刻意選擇了偏向人臉還原度的操作點,Sync-C略低,但在真實用戶評分研究中,用戶對Lip Forcing的同步感知評分與最高分基線持平,說明這個數值差距並不影響實際觀看體驗。
Q3:Lip Forcing口型同步技術目前能處理哪些應用場景,有什麼限制?
A:Lip Forcing目前驗證的場景包括自驅動口型同步(音頻和影片來自同一說話人)和跨身份驅動(用其他人的音頻驅動目標人物)兩類,支持長達數分鐘的流式生成。主要限制是當前只在固定512×512像素的正面人臉影片上訓練,對側臉、遮擋或非人臉內容的泛化能力尚未充分驗證;此外目前的配方是在特定的OmniAvatar系列老師模型上推導出來的,對其他架構是否直接適用還需要額外驗證。






