清華大學團隊如何讓AI「認人識臉」，還能完美復刻任何動作？

這項由清華大學與Z.ai聯合開展的研究發表於2026年6月，論文編號為arXiv:2606.10804，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

假設你是一位電影導演，手頭有一段功夫高手打鬥的精彩影片，你希望把這些動作"移植"到一個卡通熊貓角色身上，讓熊貓也能做出一模一樣的高難度動作，同時場景、背景、光影都天衣無縫。聽起來是不是很科幻？這恰恰就是"角色動畫"這個研究領域要解決的核心問題。而清華大學的這支團隊，通過一套名為SCAIL-2的全新框架，將這個聽起來遙不可及的目標變成了現實。

**以往的方法為何不夠用？**

在SCAIL-2誕生之前，研究者們已經嘗試過各種辦法來解決角色動畫問題。最主流的路線是提取"骨架圖"——把駕駛影片（也就是提供動作的那段影片）里的人物姿勢抽象成一張火柴人輪廓圖，再把這張輪廓圖輸入到AI模型里，指揮目標角色跟著動。

然而這條路很快暴露出明顯的短板。骨架圖本質上是一種高度簡化的資訊壓縮，就像把一幅細膩的油畫縮減成幾根線條的速寫——顏色、質感、細節全都丟失了。當兩個角色在畫面里互相擁抱、打鬥或者共同操控一件道具時，兩組骨架疊在一起，AI根本分不清哪條胳膊屬於誰，很容易產生混亂的輸出結果。更棘手的是，如果駕駛影片裡的主體不是人類，比如一隻正在翻跟頭的貓，或者一個做出誇張動作的卡通人物，傳統的人體骨架提取工具就徹底失效了，因為它們從來沒有學習過這些非人類形態的姿勢。

除了動作骨架的問題，背景處理也是一個老大難。在"角色替換"這類任務里——也就是把原影片裡的角色換成另一個角色、但保留原來的場景——研究者通常會把背景單獨摳出來作為參考，再指揮AI把新角色"貼回去"。但這種方式有一個先天缺陷：如果新角色和原角色的體型差距很大，或者新角色和場景里的物體有複雜互動（比如原來是一個人拿著小提琴演奏，現在要換成一個身材截然不同的機器人），單靠一張摳出來的背景圖，AI根本沒辦法合理推測新角色的手應該出現在哪裡、道具應該如何與新角色配合。

贊助商廣告

歸根結底，上述所有問題都指向同一個根本原因：過去的方法總是試圖把影片裡的資訊"濃縮提煉"成一個中間媒介（無論是骨架圖還是背景圖），再通過這個中間媒介傳遞給AI，而這個提煉過程必然造成資訊損耗。

**一、讓AI直接"看"影片，而不是看火柴人**

SCAIL-2的核心理念可以用一句話概括：與其讓AI看經過簡化的骨架圖，不如讓AI直接看完整的原始影片。

這聽起來簡單，背後的邏輯卻十分深刻。就好比教一個孩子學跳舞，一種方式是給他看一張標註了腳步位置的示意圖，另一種方式是直接讓他看舞者的完整表演影片。顯然，後者包含的資訊要豐富得多——不僅有腳的位置，還有手臂的擺動、身體的重心轉移、表情的配合、與舞伴之間的空間關係。SCAIL-2選擇的正是後一種方式。

具體來說，模型在工作時會同時接收三組輸入：一張參考圖（指定目標角色長什麼樣），一段駕駛影片（提供動作），以及待生成的影片序列本身。這三組內容被拼接在一起，直接送入AI的"大腦"進行處理。AI可以自由地從駕駛影片裡提取它需要的所有視覺資訊，包括兩個角色之間的相對位置、遮擋關係、道具的形狀，等等。這種端到端（end-to-end）的方式意味著整個流程從輸入到輸出都沒有經過人為的資訊壓縮，AI能掌握的資訊量最大。

研究團隊把這套整體框架叫做"In-Context Driving"（上下文驅動），寓意模型是在一個完整的視覺上下文裡理解動作，而不是依賴抽象符號。

**二、沒有數據就沒有AI：一套聰明的數據合成流水線**

端到端的思路雖好，卻面臨一個現實困境：訓練這樣的AI需要大量"配對數據"——也就是同一套動作被不同角色表演的成對影片。一段武打影片，要同時存在人類演員版和卡通熊貓版，而且動作必須完全一致。這類數據在現實中幾乎不存在，靠人工拍攝更是成本高得離譜。

為了解決這個問題，研究團隊設計了一套自動化的數據合成流水線，整個過程就像一個精密運轉的"配對照片工廠"。

贊助商廣告

工廠的第一道工序叫"候選篩選"：從大量影片資料庫里隨機抽取一段駕駛影片，同時從角色圖庫里挑選幾個候選角色圖片，然後交給一個視覺語言模型（可以理解為一個能看圖說話的AI助手）來判斷哪個角色和這段影片的第一幀姿態最搭配。

篩選出合適的角色後，進入第二道工序"提示編織"：同樣由AI助手根據影片第一幀和角色圖片，提前規劃生成目標的文字描述——包括這個角色應該擺什麼姿勢、背景應該是什麼樣子。這個步驟的意義在於，它繞過了AI內置創作模組的"胡思亂想"，直接用精準的文字描述鎖定需要的內容。

有了文字描述之後，一個強大的多參考圖像生成模型（論文中稱為"Nano Banana Pro"，來自Google DeepMind）會根據姿態參考幀、角色圖片和文字描述，生成一張參考幀圖片，作為後續影片生成的起點。

生成的圖片還要經過第三道工序"質量檢驗"：再次由AI助手評估生成圖片中的姿態是否準確、場景是否合理、角色是否有資訊泄露（比如不該出現的背景細節）。不合格的圖片會被退回重新生成，徹底失敗的角色候選會被直接淘汰換新的。

通過這條流水線，再結合已有的骨架驅動動畫模型（包括SCAIL、Wan-Animate等），團隊最終生成了一個叫做"MotionPair-60K"的數據集，包含接近六萬對端到端動作遷移影片對，涵蓋單角色動畫、多角色動畫、角色替換等多種任務類型。其中真實人類角色占約57%，2D動畫角色占約10%，3D動畫角色占約33%。

**三、"反向駕駛"：用合成影片當輸入，用真實影片當目標**

有了數據，訓練策略同樣至關重要。研究團隊採用了一個反直覺但極其巧妙的訓練方式，叫做"反向駕駛"（Reverse Driving）。

通常的邏輯是：用真實影片作為駕駛輸入，用合成的目標角色影片作為訓練目標。但這樣做有個問題——合成影片本身就有缺陷，用它作為訓練目標會把缺陷也一起學進去。

贊助商廣告

SCAIL-2反其道而行之：把合成影片作為輸入（駕駛影片），把真實影片作為訓練目標。道理其實很簡單——合成影片只需要提供動作資訊，允許它不夠完美；而AI最終要學會生成的是真實影片那樣高質量的結果，所以訓練目標必須是真實影片，不能妥協。

這就像教一個人畫肖像：你可以用一張略有失真的素描來告訴他"大概的姿勢和構圖是這樣的"，但你期望他最終畫出來的是一張逼真的照片級肖像，而不是一張同樣失真的素描。反向駕駛的精髓就在這裡。

**四、給AI一張"人物座位表"：上下文蒙版條件機制**

端到端的影片輸入雖然資訊豐富，卻也帶來了新的混亂源頭——當畫面里有多個角色同時運動時，AI怎麼知道哪個角色的動作應該對應參考圖裡的哪個角色？

研究團隊為此設計了一套"上下文蒙版條件機制"（In-Context Mask Conditioning），可以形象地理解成給AI一張"人物座位表"。

這套機制由兩部分構成。第一部分是"環境開關"：一個額外的信號通道，專門告訴AI，最終輸出的背景場景應該來自參考圖（角色圖片動畫模式），還是來自駕駛影片（角色替換模式）。有了這個開關，AI就不會在需要保留原場景時畫出參考圖的背景，也不會在需要使用參考背景時搞混來源。

第二部分是"角色綁定槽"（Binding Slots）：一組額外的信號通道（共K個），每個通道對應一個"綁定關係"。如果駕駛影片裡有甲、乙兩個角色，參考圖里也有甲、乙兩個目標角色，那麼甲的駕駛蒙版和甲的參考蒙版會被分配到同一個綁定通道里，乙的同理。這樣AI就清楚地知道：這個通道里的動作應該專屬於這個通道里的角色，不能亂。

這些蒙版信號都通過一個魯棒的分割模型（SAM3，來自Meta）自動提取，並經過規則匹配完成角色對應，最終被壓縮成與影片潛在表示等大的格式，附加在整個輸入序列上。關鍵在於，這些蒙版信號只從參考圖和駕駛影片中提取，絕對不會從最終目標影片中注入任何資訊，保證了訓練過程的公平性，也維護了端到端的本質。

贊助商廣告

消融實驗明確驗證了這一機制的價值：當場景里有路人穿越畫面時，去掉角色蒙版的版本無法穩定保持角色的外觀一致性；在角色相互旋轉換位的場景里，去掉綁定槽的版本會導致角色身份錯亂，把兩個人的外觀特徵混在一起。

**五、用"坐標系"區分兩種工作模式：模式專屬位置編碼**

除了上述蒙版機制，研究團隊還引入了一套叫做"模式專屬移位旋轉位置編碼"（Mode-Specific Shifted RoPE）的技術，可以理解為給AI的不同工作模式分配不同的"坐標系"。

所謂旋轉位置編碼（RoPE），是目前大型AI模型里廣泛使用的一種技術，用來幫助模型理解序列里各個位置之間的關係——類似於給每個詞或每個圖像塊打上時間和空間的坐標標籤。

研究團隊注意到，"角色圖片動畫模式"和"角色替換模式"在第一幀的處理上有本質區別：動畫模式需要根據參考圖重新生成一個全新的起始幀，而替換模式則要求第一幀的背景與駕駛影片完全一致，只替換角色本身。為了讓AI區分這兩種情況，他們給兩種模式分配了不同的坐標偏移量：動畫模式下，參考圖在時間維度上被標記為"第0幀"，生成序列從"第1幀"開始；替換模式下，參考圖在空間高度維度上被附加一個額外偏移，與生成序列在空間上區分開來。

這種差異化的坐標標記讓AI在接收輸入時就能感知到"我現在處於哪種工作模式"，從而做出正確的處理決策。消融實驗裡，去掉模式專屬RoPE的版本會出現參考圖裡的陰影區域被錯誤地渲染成白色紋理的奇怪現象，說明沒有清晰的坐標區分，AI會被參考圖中的某些視覺特徵帶偏，無法正確理解自己的任務。

**六、"偏見矯正訓練"：讓AI不再忽略手指細節**

端到端訓練還隱藏著一個容易被忽視的問題：合成數據里的骨架提取工具對手部關節的處理最不準確，手指細節在骨架圖里經常錯誤或缺失，導致動畫生成模型合成的影片裡手部動作頻繁出現錯誤。當這批帶有手部錯誤的合成影片被用作訓練數據時，AI也跟著學會了"忽略手指"。

贊助商廣告

為了解決這個細節層面的問題，研究團隊提出了"偏見感知直接偏好優化"（Bias-Aware DPO），這是一套專門糾正AI錯誤習慣的後訓練方案。

整個方案的核心思路是構建"偏好對"——每對數據里有一個"更好的版本"和一個"有明顯錯誤的版本"，然後通過優化讓AI學會區分兩者，主動避免錯誤。

具體構建過程頗為精妙。給定一段運動影片y，先用精確的姿態估計器SDPose提取骨架，生成參考圖片r作為正樣本；同時用同一組骨架和另一張參考圖片生成影片s，s作為駕駛輸入。負樣本則是通過"二次誤差疊加"得來的：先從r里再次提取骨架（此時換用精度較差的ViTPose），再重新生成影片r?。由於經歷了"提取→生成→再提取→再生成"兩輪誤差累積，r?的手部細節會比r明顯更差。這樣，(r, r?)就構成了一對正負偏好樣本，共享相同的整體姿勢但在手部細節上存在系統性差異。

訓練時，損失函數只在手部區域的蒙版範圍內計算，專門強調手部細節的偏好學習，避免被身體其他區域的資訊干擾。有趣的是，儘管優化目標鎖定在手部，模型的提升效果卻會"溢出"到嘴部、肩部等其他精細區域，說明偏好優化調整的是模型對細節的整體敏感度，而不只是手部的局部權重。

與直接在手部損失上做監督微調（SFT）的方案相比，偏見感知DPO的效果明顯更好，因為SFT缺乏負樣本的對比信號，而DPO正是通過"知道什麼是錯的"來幫助AI更清楚地理解"什麼是對的"。

**七、實驗結果：數字和畫面都說了什麼**

在人類評估實驗中，SCAIL-2與當前多個主流方法進行了全面比較。對於單角色動畫任務，研究團隊邀請人工評審對多組影片兩兩比較，分別評估動作一致性、物理合理性和角色一致性。結果顯示，SCAIL-2在動作一致性上以68.3%的勝率超過前一代的SCAIL，以65%的勝率超過Wan-Animate；在物理合理性上，對Wan-Animate的勝率更是高達78.3%；與商業產品Kling 3.0相比，SCAIL-2也保持了相當接近甚至略勝的表現，在物理合理性上以46.7%勝率略超，僅在動作一致性上以36.7%對40%略遜。

贊助商廣告

多角色動畫任務的結果更為亮眼。與MultiAnimate相比，SCAIL-2在動作一致性上取得了93.3%的壓倒性勝率，在角色隔離（即兩個角色的外觀不互相污染）和角色一致性上同樣達到了93.3%的勝率。值得一提的是，這些多角色動畫結果完全是零樣本的——SCAIL-2在訓練時從未專門針對多角色動畫場景做過優化，能取得如此成績完全依賴於端到端框架和統一訓練策略的泛化能力。

在角色替換任務上，SCAIL-2以57.1%的動作一致性勝率超過專門為角色替換任務訓練的MoCha，在場景融合和角色一致性上也以約67%的勝率占優，充分證明了統一框架的綜合競爭力。

在定量指標層面，使用骨架作為駕駛信號時，SCAIL-2的SSIM指標表現中等，但當改用更精確的三維人體網格（SAM3D-Body提供）作為駕駛信號時，指標顯著提升——尤其值得關注的是，SAM3D-Body的三維網格是SCAIL-2從未在訓練中見過的新型駕駛格式，它依然能正確處理，這有力地展示了端到端方式"自動從駕駛輸入中提取更多資訊"的能力。X-Dance基準測試上，SCAIL-2在影片質量的成像清晰度指標（4.43分）和外觀一致性指標（4.38分）上均高於所有對比方法。

**八、消融實驗：拆掉哪塊磚，房子就會倒**

為了驗證每個設計選擇的必要性，研究團隊做了系統的消融實驗，逐一拆除或替換各個組件，觀察性能變化。

去掉端到端駕駛方式，改回骨架驅動時，涉及兩個角色複雜互動的場景（如打鬥、雙人舞蹈）中模型明顯產生錯誤的肢體關係，這直接證明了性能提升確實來自端到端範式本身，而非其他因素。

去掉環境開關後，模型無法依靠文字指令區分動畫模式和替換模式，經常生成混亂的背景，有時把參考圖的背景錯誤地融入到應該保留駕駛影片場景的輸出中。

去掉模式專屬RoPE後，參考圖中的陰影區域會被錯誤地渲染成白色紋理，說明沒有明確的空間坐標區分，模型會混淆參考圖和駕駛影片的角色。

贊助商廣告

去掉角色綁定槽後，當路人或其他角色進入畫面時，模型無法穩定鎖定目標角色的外觀，會被干擾角色影響；在訓練數據里去掉綁定槽則會導致模型錯誤地改變路人的服裝，將主角的特徵"污染"到旁觀者身上。

去掉替換模式訓練數據後，模型在處理多角色重疊遮擋時明顯出錯，無法正確區分被遮擋的動作；去掉動畫模式訓練數據後，模型在應對大幅體型差異的跨角色遷移時效果急劇下降。這兩個發現揭示了一個關鍵的協同效應：替換模式數據教會模型處理複雜的角色重疊，動畫模式數據則教會模型跨越體型差異完成遷移，兩者相互補充，缺一不可。

**當前的邊界與未來的空間**

SCAIL-2並非沒有局限。端到端範式的最大軟肋是對高質量配對訓練數據的強依賴。目前的合成數據流水線雖然在很大程度上解決了數據稀缺問題，但合成數據的質量上限始終受制於所用生成模型的能力。手部細節問題已經通過偏見感知DPO得到一定改善，但嘴部動作、面部微表情等更精細的區域仍然是難題，正面樣本的質量在這些區域依然難以保證。

此外，整個訓練過程對計算資源的需求相當可觀：14B參數量的模型在64塊NVIDIA H100 GPU上訓練了大約一周。對於沒有充足算力的研究者或機構，這仍然是一道門檻。

研究團隊也坦承，未來可以考慮將框架擴展到唇形同步、細粒度面部表情動畫等更精細的任務領域，前提是能夠構建足夠高質量的對應訓練數據。從更長遠的視角看，SCAIL-2所代表的方向是：讓AI直接從視覺上下文中理解和提取所需資訊，而非依賴人工設計的中間表示，這條路線具備隨著生成模型能力提升而持續進化的潛力。

說到底，SCAIL-2做的事情，是在教AI"用眼睛思考"而不是"看符號理解"。傳統角色動畫方法先把豐富的視覺資訊壓縮成骨架符號，再讓AI從符號里還原資訊，這個壓縮-還原的過程天然存在損耗，就像把一張彩色照片先轉換成黑白，再試圖還原成彩色一樣，總有些東西找不回來。SCAIL-2選擇的是另一條路：直接給AI看彩色照片，讓它自己去理解顏色、光影、層次和關係，資訊最充分，理解最直接。

贊助商廣告

這對普通人意味著什麼？不遠的將來，電影製作、遊戲開發、虛擬主播、個性化動畫內容等領域的創作門檻將大幅降低。或許有一天，你只需要拍一段自己跳舞的影片，配上一張你喜歡的卡通形象圖片，就能自動生成一段那個卡通形象在做同樣舞蹈動作的高質量動畫——而且細節精準到連手指的彎曲方式都會忠實還原。

對這項研究感興趣的讀者，可以通過arXiv編號2606.10804查閱完整論文，項目主頁也提供了演示影片和部分開放的合成數據集及模型權重。

Q&A

Q1：SCAIL-2和傳統角色動畫方法有什麼根本區別？

A：傳統方法先把影片裡的人物動作提煉成骨架示意圖，再讓AI根據骨架驅動目標角色，這個過程會丟失大量細節資訊，遇到多人互動或非人類角色時容易出錯。SCAIL-2則完全跳過骨架這一中間步驟，直接把完整的駕駛影片輸入給AI，讓AI自行從中提取所需的所有視覺資訊，因此能處理骨架方案無法應對的複雜場景。

Q2：MotionPair-60K數據集是怎麼做出來的？

A：研究團隊設計了一套自動化合成流水線：先從影片庫隨機抽取駕駛影片，再由AI助手從角色圖庫里選出姿態最匹配的角色圖片，通過文字描述規劃生成目標，由圖像生成模型合成參考幀，最後經過質量檢驗篩選，不合格的退回重做。這樣反覆循環，最終生成了接近六萬對配對影片數據。

Q3：偏見感知DPO是如何改善手部動作質量的？

A：訓練數據里的手部細節本來就因骨架提取誤差而不準確，AI跟著學會了忽略手指。偏見感知DPO構建了成對的"好版本"和"有系統性手部錯誤的版本"，通過讓AI學會區分兩者來糾正這種偏差。優化時只在手部區域計算損失，但效果會擴散到嘴部等其他精細區域，整體細節表現都有提升。