華為與新加坡中央研究院聯手打造：讓任意角色「活起來」的動作捕捉新技術

這項研究由華為技術有限公司（新加坡）與新加坡中央研究院的聯合團隊完成，論文於2026年4月30日發布，arXiv編號為2604.28130，感興趣的讀者可通過該編號檢索完整論文。

贊助商廣告

你有沒有注意到，遊戲裡那些栩栩如生的角色動作、電影裡以假亂真的數字生物，背後都藏著一項叫做"動作捕捉"的技術？簡單說，這項技術就是把真人或動物的動作"搬運"到虛擬角色身上。拍電影時，演員穿著滿是熒光小球的緊身衣，攝像機記錄下每一個關節的運動軌跡，然後電腦把這些數據"貼"到虛擬角色的骨架上，角色就動起來了。

然而，傳統做法既昂貴又麻煩，而且有個讓人頭疼的限制：每套動作數據通常只適配特定的角色骨架。給人類角色採集的動作，往往沒法直接用在一隻四腳行走的恐龍或者長著翅膀的神鳥身上——骨骼結構完全不同嘛。更別說，專業的動捕設備動輒要花掉幾十萬甚至上百萬，根本不是普通創作者能承擔的。

正因如此，近年來有研究者開始嘗試一個更大膽的方向：能不能只用一段普通手機拍的影片，就自動推算出任意角色骨架的動作數據？華為與新加坡中央研究院的團隊就在這條路上走出了迄今為止最紮實的一步，他們把這套系統命名為 MoCapAnything V2，意思是"捕捉任何東西的動作，第二代"。

---

一、從"流水線作業"到"一氣呵成"——為什麼這次升級意義重大

要理解這次進步有多關鍵，得先從他們的上一代系統說起。MoCapAnything V1 的工作流程，好比一條分工明確的流水線：第一道工序，由一個神經網路（可以理解為一種能自己"學習"的程序）看著影片，猜出每個關節在三維空間中的位置；第二道工序，再由一套叫做"逆運動學"（Inverse Kinematics，簡稱IK）的數學工具，把這些關節位置換算成每個關節該轉多少度的角度數據。

這條流水線有個根本性的缺陷，就像工廠里兩個車間各自為政、互不溝通。第一道工序的神經網路只需要把關節位置猜准，根本不管第二道工序好不好用；第二道工序的IK工具是純數學推算，既不能"學習"，也不能把自己的錯誤反饋給第一道工序去糾正。更糟糕的是，光靠關節位置根本不能唯一確定關節的旋轉角度——這就像你知道一根手指尖在空間中的位置，但手指究竟是正轉了30度還是側傾了45度，單憑位置資訊是說不清楚的。

贊助商廣告

V1還有另一個笨重的地方：它在推算關節位置之前，要先重建出角色的完整三維網格（就是那種由無數三角形拼成的虛擬皮膚）。這一步極其耗時，處理一段120幀的影片需要將近15分鐘來重建網格，整個流程加起來超過20分鐘。而且預測出來的網格本身也會有誤差，這些誤差會像滾雪球一樣越滾越大，最終影響動作質量。

MoCapAnything V2 徹底打破了這條流水線的邏輯，把兩道工序改造成了一個從頭到尾一起訓練、一起優化的統一系統。這就好比把兩個各自為政的車間合併成一個大工坊，工人們相互配合、及時反饋，生產出來的產品質量自然更有保障。不僅如此，V2還把那個耗時巨長的三維網格重建步驟徹底省掉了，讓整個流程的速度提升了約20倍——同樣的120幀影片，V2隻需要不到1分鐘。

---

二、解開"旋轉之謎"的關鍵鑰匙——參考姿態配對

前面提到，單靠關節位置無法唯一確定旋轉角度，這是整個問題的核心難點。V2團隊用了一個頗為巧妙的方案來解決這個謎題。

打個比方：假設你看到一張照片，上面有一扇門，門的把手位置你能精確測量出來。但你並不知道這扇門是向左開還是向右開，因為僅憑把手的位置坐標，這兩種情況都說得通。現在，如果有人額外告訴你："當門把手在這個位置時，門是向左開著的，轉動角度是30度"——有了這條額外資訊，謎題就迎刃而解了。

V2引入的"參考姿態-旋轉配對"（reference pose-rotation pair）就是起這個作用的。具體來說，當你想把一段影片的動作遷移到某個特定的虛擬角色（比如一隻老鼠骨架或者一個機器人骨架）時，系統只需要這個角色的一幀動畫數據作為"參考"——這幀數據同時包含關節位置和對應的旋轉角度。有了這把鑰匙，系統就知道了這個特定骨架是如何定義自己的坐標方向的，後續的旋轉預測就從一個模糊的多解問題，變成了一個有明確答案的條件推斷問題。

贊助商廣告

骨架的"休息姿態"（rest pose，也就是角色在不做任何動作時的默認站姿）承擔的是另一半工作：它告訴系統每個關節的相對位置原點在哪裡。用上面那個比喻來說，休息姿態告訴你"門框在哪"，而參考配對告訴你"門是怎麼轉的"。兩者合在一起，才能完整描述這扇門的運動方式。

研究團隊在實驗中驗證了這個設計的必要性：當他們移除參考配對、只保留休息姿態時，系統在遇到從未見過的新骨架時，旋轉誤差從約6.54度急劇跳升到約24度——幾乎翻了四倍。而只有參考配對沒有休息姿態時，誤差是約7.37度，說明兩者各有貢獻，合用效果最佳。

---

三、系統的"大腦"如何運轉——兩個協同工作的模組

V2的整個系統由兩個主要模組構成，它們共享同一套"思考方式"，並在訓練時相互學習、共同進步。

第一個模組負責"看影片、猜位置"，研究團隊叫它影片轉姿態模組（Video-to-Pose）。它的工作方式類似於一位經驗豐富的舞蹈老師：先看一眼參考幀（也就是目標角色靜止時的樣子），把每個關節的位置和骨架布局記在腦子裡，然後再逐幀觀看輸入影片，推算出影片裡的角色在每個時刻各關節應該在哪個位置。

為了讓這個過程更聰明，系統用了一個叫 DINOv2 的圖像分析工具（這是Meta公司開發的一種強大的視覺理解模型，在訓練時保持固定，不再更新）來提取影片中的視覺特徵。與此同時，每個關節的名稱（比如"左前膝"、"脊柱中段"）會被轉換成語義描述信號，讓系統能夠理解不同骨架上功能相似的關節，哪怕它們的編號或名稱完全不同。

第二個模組負責"從位置推旋轉"，叫做姿態轉旋轉模組（Pose-to-Rotation）。它拿到第一個模組輸出的關節位置序列，再結合前面提到的參考配對和休息姿態，推算出每個關節在每一幀的精確旋轉角度。這個模組的內部結構有點像一個分層的翻譯器：先把關節位置"翻譯"成特徵向量，再通過多輪"詢問參考配對"的交叉注意力機制（可以理解為一種反覆對照參考資訊的比較過程），把特徵向量"翻譯"成最終的旋轉角度。

贊助商廣告

兩個模組共用的核心組件是一種叫做"全局-局部圖引導多頭注意力"（GL-GMHA）的機制。這個名字聽起來複雜，背後的邏輯卻很直觀：骨架上的關節既有局部的依賴關係（比如小腿的運動強烈受制於大腿），也有全局的協調需求（比如整個身體的重心平衡）。GL-GMHA通過交替切換"只看鄰近關節"和"看遍所有關節"兩種注意力模式，讓系統同時兼顧這兩種需求。實驗表明，這種交替設計比單純全局關注或單純局部關注效果都更好。

---

四、一起訓練，才能真正協同——端到端優化的奧妙

把兩個模組合併成一個系統還不夠，關鍵在於讓它們在訓練時真正"對話"。V2採用的策略是讓第二個模組（旋轉預測）的誤差信號能夠流回第一個模組（位置預測），告訴它"你猜的位置雖然在空間上差不多，但對旋轉預測來說不夠好，請調整"。

這種雙向反饋在單獨訓練兩個模組時完全不可能實現，因為V1的IK數學工具是不可微分的（可以理解為：它不支持"把錯誤反向傳遞"這種操作）。V2用可學習的神經網路替代了IK，從根本上打通了這條反饋通道。

不過，訓練過程中有一個實際的挑戰：在真實使用時，第二個模組拿到的是第一個模組預測出的有噪聲的關節位置；但在訓練時，如果一開始就用有噪聲的位置，模型很難收斂學習。為了解決這個矛盾，團隊設計了一套"混合訓練策略"：訓練初期，主要用乾淨準確的真實關節位置來餵給第二個模組，讓它先學會基本的旋轉推理；隨著訓練進行，逐步增大用預測位置（有噪聲）訓練的比例，直到最終完全切換到預測位置。這個切換過程經過30個訓練周期完成，就像學游泳時先用浮板、再慢慢放手一樣循序漸進。

實驗數據非常直觀地驗證了這個策略的價值。如果完全切斷第二個模組的誤差向第一個模組反饋（梯度分離），Zoo-Unseen（未見過的骨架）上的旋轉誤差是7.82度；打通反饋後，誤差降到6.54度。如果只用真實位置訓練，遇到新骨架時誤差會跳到13.28度，因為訓練和實際使用之間存在巨大的分布差異。而混合訓練策略兼顧了穩定性和適應性，取得了最佳結果。

贊助商廣告

---

五、實驗怎麼說——數字背後的真實意義

研究團隊在兩個主要測試集上評估了V2的性能。第一個是Truebones Zoo，包含1038段動物動作序列，覆蓋了從常見到罕見再到完全沒見過的各種動物骨架，測試集按"見過的物種"、"少見的物種"和"從未見過的物種"分成三組。第二個是Objaverse，包含1000個來自三維資產庫的樣本，涵蓋各種奇特的人形和非人形結構，專門用來測試系統對離譜新奇目標的適應能力。

衡量標準主要有兩類：一類是位置誤差（關節位置猜得有多准，單位是厘米），另一類是旋轉誤差（關節角度猜得有多准，單位是度）。

在旋轉誤差這個最核心的指標上，V2相比V1實現了大幅躍升。V1用預測網格（實際使用時的真實情況）時，三種動物分組的平均旋轉誤差大約在20度左右；V2則把這個數字壓到了約10度。更值得關注的是在"從未見過的骨架"這組：V2達到了6.54度，反而比"見過的骨架"組（10.73度）和"少見的骨架"組（14.38度）更低。原因在於，從未見過的骨架測試集裡，運動類型以走跑跳這類常見動作為主，一旦坐標系通過參考配對錨定好了，這類動作的旋轉推理反而比較容易。

與其他基線方法（HRNet、ViTPose、VIBE、GLoT）的對比同樣一目了然。這些方法的旋轉誤差普遍在20度到26度之間，而V2全部低於15度，在未見骨架上更是達到6.54度，差距相當顯著。

在效率上，V2把整體推理時間從V1的20多分鐘壓縮到不足1分鐘，這20倍的加速完全來自兩個設計決策：去掉網格重建，以及用神經網路替代疊代式IK求解。

---

六、系統的局限——研究團隊自己說了什麼

任何技術都有邊界，研究團隊對此相當誠實。

第一個局限是運動分布的問題。系統的旋轉預測能力建立在訓練數據所覆蓋的運動類型上。如果你硬要讓一個四足動物骨架做出"雙手舉起過頭頂"這種完全反自然的動作，系統可能會給出不合理的旋轉結果，因為它從來沒在訓練數據里見過這種組合。解決這個問題的直接方法是擴大訓練數據的多樣性，覆蓋更多骨架-動作的組合。

贊助商廣告

第二個局限是場景假設。現在的系統假設畫面里只有一個主體，鏡頭運動不太劇烈，也沒有嚴重的遮擋。現實中那種人群擁擠、畫面混亂、主體時隱時現的影片，系統處理起來效果會打折扣，因為這類情況在訓練數據里很少出現。

第三個局限是數據覆蓋的不均勻。Truebones Zoo里大約只有幾十種動物的數據，每種動物的序列數量差異懸殊。對於數據稀少的物種，旋轉質量的上限被數據量卡住了，而不是被模型能力卡住的。

---

說到底，MoCapAnything V2 做的事情，是把一個"兩步走"的問題變成了一個"一口氣完成"的問題，並且找到了解開旋轉歧義這把鎖的正確鑰匙。這把鑰匙的形式出乎意料地簡單：只需要目標骨架的一幀參考動畫，就能讓系統知道這副骨架"說話的語言"是什麼。

對普通人來說，這意味著未來的遊戲開發者、動畫創作者、甚至教育軟體製作者，可能只需要一段手機影片，就能讓各種形態的虛擬角色重現那段動作——無論是人形機器人、幻想生物還是寫實動物，都不需要昂貴的專業設備，也不需要等待漫長的處理時間。

這項技術目前還處於研究階段，但它描繪的那個方向——讓動作捕捉變得像拍照一樣簡單、適用於任意角色——已經不再是遙不可及的設想。有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.28130找到完整論文，或訪問項目主頁 animotionlab.github.io/MoCapAnythingV2 查看演示影片。

---

Q&A

Q1：MoCapAnything V2 需要什麼輸入才能給虛擬角色生成動作？

A：MoCapAnything V2 需要兩樣東西：一段包含運動主體的普通影片（比如手機拍的人走路或動物奔跑的影片），以及目標虛擬角色的骨架資訊，包括骨架結構、休息姿態，還有至少一幀已知關節旋轉的參考動畫數據。這幀參考數據通常在角色的綁定文件里自帶，不需要額外製作。

Q2：MoCapAnything V2 和 V1 相比具體快了多少，精度有沒有下降？

贊助商廣告

A：MoCapAnything V2 的推理速度比 V1 快了約20倍，處理120幀影片從超過20分鐘壓縮到不足1分鐘。精度方面非但沒有下降，旋轉誤差反而從 V1 的約20度降低到約10度，在從未見過的骨架上更達到6.54度。速度和精度實現了同步提升，主要原因是去掉了耗時的三維網格重建步驟，並用可學習的神經網路替代了傳統的數學IK求解器。

Q3：MoCapAnything V2 能處理哪些類型的角色骨架？

A：MoCapAnything V2 在設計上支持任意骨架拓撲結構，涵蓋了人形、四足動物、鳥類等各種結構的角色，系統支持最多150個關節的骨架。實驗中在Truebones Zoo數據集上測試了上百種動物，以及Objaverse里各種結構奇特的人形和非人形三維資產，對從未見過的新骨架同樣能給出合理的動作結果。