首爾大學研究團隊用「看影片學動作」讓虛擬人類學會了靈巧的手部操控

這項由首爾大學視覺計算實驗室與RLWRLD聯合完成的研究以預印本形式發布於2026年4月，論文編號為arXiv:2604.20841。感興趣的讀者可以通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

一個機器人要學會"開瓶蓋"，你會怎麼教它？最直接的方法，是手把手地帶著它做一遍，精確記錄每一個關節的角度、每一幀的力道變化，生成一套完美的3D動作數據，然後讓它照著練。這個方法很有效，但貴得離譜——專業的動作捕捉設備、大量的人工標註、有限的物體種類，讓這套方案很難規模化推廣。

那有沒有更省力的辦法？首爾大學的研究團隊給出了一個腦洞大開的答案：給它看一段影片就夠了。不是真人示範的影片，而是用人工智慧"憑空生成"的影片。

這項研究提出了一個名為DeVI（Dexterous Video Imitation，靈巧影片模仿）的框架。它的核心思路是：先用文字描述告訴一個影片生成模型"我想要一個人拿起可樂罐並喝一口"，讓模型生成一段看起來真實的2D動畫影片，然後從這段影片裡提取出人體動作資訊和物體運動軌跡，最後用強化學習的方式，訓練一個在物理仿真環境裡運行的虛擬人類角色，讓它真正在物理規律約束下完整地重現這個動作。

這項研究的價值不僅在於它的新穎性，更在於它打破了一個長期存在的瓶頸——以前的方法要麼需要昂貴的3D動作捕捉數據，要麼只能處理簡單的全身動作，完全繞開了"手部與物體如何精確交互"這個最關鍵也最難的問題。DeVI則專門針對這種靈巧的手部操控場景設計，並且只需要一段生成的2D影片就能工作，理論上可以泛化到任何你能用文字描述的物體和動作。

一、為什麼"讓虛擬人學動作"是一件難事

要理解這項研究的突破點，得先聊聊研究團隊面對的是怎樣一座大山。

在物理仿真世界裡訓練虛擬人類做動作，本質上是一個"控制問題"。這個虛擬人擁有身體（用一個叫SMPL-X的人體模型來表示，涵蓋21個身體關節和30個手部關節，左右手各15個），每一幀它都需要決定每個關節轉多少度，這些角度指令會驅動物理引擎計算出實際的力矩，最終讓虛擬人做出動作。要讓它做出"抓起蘋果咬一口"這個動作，研究團隊需要給它一個"參考目標"——一套告訴它"在第1秒你的手應該在哪、第2秒手指應該彎曲多少"的指導數據，然後通過反覆試錯（強化學習）讓虛擬人學會如何實際達到這些目標。

贊助商廣告

問題就出在這個"參考目標"上。以往最好的方案是用動作捕捉系統錄下真人動作，得到精確的3D坐標數據。這套數據質量高，虛擬人跟著學效果好。但動作捕捉系統非常昂貴，而且對於"手部抓握"這類精細動作，現有的捕捉設備經常力不從心，手指關節的數據往往噪聲很大。更重要的是，捕捉數據只覆蓋了少數幾種物體和場景，遇到新物體就得重新捕捉一遍。

另一條路是用大型語言模型或動作生成模型直接生成3D動作序列。這條路規避了捕捉成本，但生成的動作往往在物理上站不住腳，尤其是手部和物體的接觸關係幾乎總是錯的——手可能懸在物體外面，或者穿透物體而過，完全無法作為物理仿真的參考。

研究團隊在這裡發現了一個新的可能性：影片生成模型雖然生成的是2D畫面，在物理精度上遠不如3D動作捕捉數據，但它對"人應該怎樣與物體互動"有著相當準確的視覺直覺。當你告訴它"一個人拿起咖啡杯喝一口"，它生成的影片裡，手的形狀、抓握位置、物體的運動方式，看起來都非常自然合理。這種"視覺合理性"能不能被提取出來，轉化為物理仿真的有效信號？DeVI的整個框架都是圍繞這個問題展開的。

二、從"一張圖"到"一段影片"：影片生成這一步

DeVI的工作流程從一個具體的3D場景開始。研究團隊首先搭建一個桌面場景：虛擬人站在桌子旁邊，桌上放著目標物體。這個虛擬人用SMPL-X模型表示，物體的3D網格模型則來自網際網路上下載的資產。

不過，直接把這個灰色的3D模型渲染成圖片送進影片生成模型，效果並不理想。原因在於影片生成模型是在大量真實的人類影片上訓練的，它對真實人體外觀有更好的理解。為此，研究團隊給這個虛擬人"穿上了衣服"——從一個叫THuman2.0的數據集裡取來帶有真實外觀紋理的人體3D模型，通過一個自動綁定（rigging）過程，讓這個紋理模型的骨架和動作與原本的SMPL-X模型對齊，實現"同一個姿勢，真實人體外觀"。

贊助商廣告

場景布置好之後，研究團隊還要選擇一個合適的攝像機角度。他們在場景周圍預設了16個候選攝像機位置，分布在不同的水平方向和仰角上，然後從中挑選那些能同時清晰看到人的雙手和目標物體的攝像機。這個選擇至關重要，因為後續的手部姿態估計算法需要清晰的手部視圖才能工作良好。

選好攝像機後，把場景渲染成一張圖片，連同文字提示詞一起送進影片生成模型Wan（一個開源的大規模影片生成模型，同時使用了LightX2V這個加速推理工具）。文字提示詞按照"一個人用[哪只手][如何操作][什麼物體]"的格式構建，比如"一個人用左手拿起可樂瓶並喝一口，雙手都在畫面中，攝像機固定不動"。這個圖片加文字的組合告訴影片生成模型：畫面里應該有這些東西，它們應該按照這個方式運動。

影片生成大約需要10分鐘（在NVIDIA A6000 GPU上），最終得到一段逐幀的2D影片。在這段影片裡，虛擬人做出了文字描述的動作，物體也隨之運動。這段影片就是整個DeVI流程的"原始素材"。

三、"混合模仿目標"：分別處理人體和物體的聰明設計

有了2D影片之後，下一步是從中提取"參考目標"——告訴物理仿真里的虛擬人應該往哪個方向學。這是DeVI最核心的技術貢獻之一，研究團隊稱之為"混合模仿目標"（hybrid imitation target）。

為什麼要"混合"？因為從2D影片裡提取人體的3D姿態，和提取物體的3D位置姿態，難度完全不在一個量級上。

對於人體來說，已經有了相當成熟的算法。研究團隊使用了兩個工具：GVHMR負責估計全身的3D姿態（包括身體在世界坐標中的位置和朝向），HaMeR專門負責估計手部的精細姿態。把兩個工具的輸出拼合在一起，就得到了一個完整的3D人體動作序列。

對於物體來說，情況則完全不同。估計物體在3D空間中的完整6自由度位姿（位置+朝向，即6D pose）是一個公認的難題，在影片中尤其困難——物體可能被遮擋、光照變化會影響外觀、而且影片生成模型本身對物理透視關係的處理並不總是完美的，經常出現物體大小和位置與實際3D物理不符的情況。

贊助商廣告

面對這個困境，研究團隊做了一個簡單但非常有效的選擇：放棄提取物體的3D位姿，改為直接追蹤物體在2D畫面中的運動軌跡。他們首先通過光線投射（ray casting）技術，找出物體3D網格上哪些頂點在第一幀里是可見的，然後把這些頂點投影到2D圖像上，得到一系列2D點。接著用影片追蹤工具CoTracker3把這些點在後續每一幀中的位置追蹤出來，過濾掉被嚴重遮擋的點，最終得到一組2D軌跡。這些軌跡告訴我們：這個物體在畫面里向哪個方向移動了、移動了多大距離。雖然丟失了深度資訊，但這個2D信號已經足以提供關鍵的運動約束。

至此，"混合模仿目標"就形成了：人體用3D信號（關節位置、旋轉、速度），物體用2D信號（畫面中的軌跡）。這種組合看似粗糙，但後面的實驗結果表明，它的效果甚至超越了使用精確6D位姿的傳統方法——原因在於精確的6D位姿約束太強，對於有噪聲的仿真環境反而難以優化；而2D軌跡是一種更"寬容"的約束，隱含地引導物體的位置和朝向，但不過度限制求解空間。

四、"視覺HOI對齊"：讓重建的手正好接觸到物體

然而，把GVHMR和HaMeR的輸出簡單拼合在一起，還遠遠不夠。研究團隊發現，這兩個工具是分別獨立工作的，它們對"人的手在哪裡"的估計並不總是一致，而且更關鍵的問題是，重建出來的3D人體動作，手的位置可能根本沒有碰到物體——在2D影片裡看起來在接觸，但映射回3D之後兩者之間有明顯的空間距離。這樣的參考動作顯然無法引導虛擬人學會真正地抓住物體。

為了解決這個問題，研究團隊設計了一個叫做"視覺HOI對齊"（Visual HOI Alignment）的優化步驟。它的本質是一個精細調整過程：固定GVHMR給出的身體根節點位置和朝向，對身體上半部分（特別是手、手腕、肘關節、肩關節和脊柱）的姿態參數進行疊代優化，使得重建出來的3D人體滿足四個條件。

贊助商廣告

第一個條件是"2D投影吻合"——把優化後的3D人體投影回2D圖像，應該和GVHMR、HaMeR各自給出的2D關鍵點位置儘量吻合，保證優化後的人體姿態和影片中看到的樣子一致。這對應了兩個損失函數：身體2D投影損失和手部2D投影損失。

第二個條件是"時序平滑"——相鄰幀之間的姿態變化不應該過於劇烈，用測地距離（geodesic distance）來衡量旋轉的變化量，確保動作連貫自然。

第三個條件是"至少有一幀真正接觸物體"——這是最關鍵的HOI損失（HOI loss）。它要求在整個動作序列中，至少存在某一幀，使得指定的手部關節到物體頂點的Chamfer距離最小化。換句話說，它要求手在某個時刻真正"碰到"了物體，而不是永遠懸在空中。這個資訊來自文字提示詞——"用左手拿起"就意味著左手會接觸物體，研究團隊直接從文字提示詞裡解析出哪只手應該接觸物體。

通過這個優化過程，最終得到的3D人體參考動作既和影片畫面在視覺上對齊，又在3D空間裡真正觸碰到了物體的表面，為後續的強化學習訓練提供了高質量的參考。

五、"混合追蹤獎勵"：教會虛擬人同時模仿人和物體

現在萬事俱備，可以開始訓練物理仿真里的虛擬人了。訓練採用強化學習（RL）方法，具體使用PPO（近端策略優化，一種經典的強化學習算法）。虛擬人每一步做出一個動作，然後收到一個"獎勵分數"，告訴它這個動作做得好不好。獎勵越高，這個動作越可能在未來被重複，最終虛擬人就學會了高獎勵的行為模式。

DeVI的獎勵函數由三部分相乘組成，稱為"混合追蹤獎勵"（hybrid tracking reward）。

第一部分是人體追蹤獎勵，衡量虛擬人的動作和3D人體參考之間的差距，包括全身關節的3D位置誤差、速度誤差、旋轉誤差，以及專門針對手部關節的局部位置和旋轉誤差（以手腕為中心坐標系來計算，避免全局位置誤差的影響），還有一個"功率懲罰"防止虛擬人施加過大的力矩。

贊助商廣告

第二部分是物體追蹤獎勵，衡量物體在畫面中的2D投影位置與參考2D軌跡之間的差距。每一幀，研究團隊把仿真里的物體頂點投影到和影片相同的攝像機視角下，計算投影坐標和參考2D坐標之間的歐氏距離，用指數函數轉換成獎勵分數。

第三部分是接觸獎勵，引導虛擬人在正確的時機讓手和物體產生接觸。這裡有一個聰明的設計：研究團隊從影片中自動估計"接觸時機"——當2D追蹤顯示物體開始運動時，意味著接觸已經發生；當物體靜止而手也靜止時，則根據前後幀的狀態推斷。這個自動估計的二值接觸標籤（接觸/不接觸）用來調節接觸獎勵：在沒有接觸的幀，獎勵直接設為滿分，不做約束；在應該有接觸的幀，獎勵由"手上的力傳感器有多少比例超過閾值"來衡量，鼓勵虛擬人真正用力握住物體。同時還有一個接觸距離獎勵，鼓勵手部關節在接觸幀儘量靠近物體表面。

在訓練的具體設置上，研究團隊使用了4096個並行仿真環境（通過Isaac Gym實現），每次收集32步的軌跡數據後更新網路參數，批量大小為1024。控制策略網路採用演員-評論家（actor-critic）架構，演員網路是一個基於Transformer編碼器的序列模型，評論家網路是一個多層感知機（MLP）。演員網路的輸入包括當前人體狀態、物體狀態，以及未來k幀的3D人體參考姿態作為目標。訓練在單塊NVIDIA A6000 GPU上進行，針對一段250幀的影片大約需要20小時完成訓練。

訓練時還有兩個工程細節值得一提。一是初始化策略：因為沒有物體的6D位姿參考，無法像以往方法那樣隨機從序列中某一幀開始仿真。研究團隊改為以50%的概率從"接觸前幀"（物體還沒有開始運動的最後一幀）開始仿真，這樣增加了在接觸關鍵時刻的訓練樣本比例，顯著加速了學習效率。二是早停機制：當仿真狀態和參考目標偏差過大時（比如身體關節誤差超過200mm、手指尖誤差超過40mm、物體2D軌跡像素誤差超過94像素）提前終止當前回合，避免在沒有希望的狀態下浪費訓練時間。

贊助商廣告

六、實驗結果：和"有3D數據"的方法比，DeVI贏了

研究團隊用兩種方式評估了DeVI的效果：和已有方法的對比實驗，以及各設計組件的消融研究。

對比實驗使用了GRAB數據集，這是一個包含精確3D動作捕捉數據的手部抓握數據集。研究團隊選取了16段時長不超過7秒的單手抓握序列，把這些3D動作數據的2D投影作為DeVI的輸入信號，然後比較DeVI和三個依賴完整3D數據的基準方法——PhysHOI、SkillMimic、InterMimic——在同樣的物理仿真環境裡把這些動作重現得有多準確。

評估指標包括兩類：人體方面，分別計算身體關節、手部關節、所有關節的MPJPE（平均每關節位置誤差，單位毫米），以及根節點的位移誤差；物體方面，計算物體中心的位移誤差和朝向誤差。成功的標準定義為MPJPE（全部關節）小於200毫米且物體位移誤差小於200毫米。

結果非常清晰地顯示了DeVI的優勢。在與PhysHOI的對比中，DeVI的全關節MPJPE從142.6毫米降到了25.35毫米，物體位移誤差從94.28毫米降到了21.36毫米，朝向誤差從1.396降到了0.6163。在與SkillMimic的對比中，全關節MPJPE從136.1毫米降到了25.42毫米，物體位移誤差從103.4毫米降到了24.32毫米。在與InterMimic（三個基準方法中性能最好的）的對比中，DeVI的全關節MPJPE從91.14毫米降到了41.56毫米，物體位移誤差從91.47毫米降到了32.36毫米。

從成功率來看，在最嚴格的標準下（全關節MPJPE小於100毫米、物體位移小於100毫米、物體朝向誤差小於0.9），DeVI的成功率達到了50%，而InterMimic是18.8%，PhysHOI和SkillMimic則更低。

更關鍵的是，DeVI使用的是比基準方法"資訊量更少"的參考信號——只有2D軌跡而非6D位姿——卻取得了更好的結果。研究團隊認為，2D軌跡作為獎勵信號的好處在於它是一種"軟約束"：它通過物體在畫面中的投影形狀隱含地約束了物體的位置和朝向，但不像精確的6D位姿那樣過度約束求解空間，反而讓策略優化更容易找到好的解。

贊助商廣告

消融研究從另一個角度驗證了各設計組件的必要性。當去掉2D物體追蹤獎勵時，全關節MPJPE從25.92毫米上升到116.2毫米，物體位移誤差從20.96毫米上升到103.0毫米，成功率從50%下降到18.8%——說明2D物體追蹤獎勵是實現物體操控的關鍵。

視覺HOI對齊的消融研究則從不同角度衡量。研究團隊比較了直接使用GVHMR輸出、去掉視覺HOI對齊但合併手部估計、以及完整DeVI三種情況下的參考動作質量。在手部關節的2D投影誤差上，去掉視覺HOI對齊的版本為25.6像素，而DeVI優化後降到了3.74像素。在接觸精度上（測量手部關節距離物體表面最近時有多近），DeVI將手到物體的平均距離從101毫米降到了18.7毫米，接觸精度（以2.5厘米為閾值）從0.100提升到0.864。這說明視覺HOI對齊對於重建出能夠真正接觸物體的手部動作至關重要。

七、多物體場景和文字驅動的動作多樣性

除了基準對比實驗，研究團隊還展示了DeVI在更廣泛場景下的能力。

在多物體場景中，他們設置了同時包含兩個相關物體的場景，比如"一口煎鍋和一個電磁爐"、"一個西紅柿和一個棕色籃子"。DeVI只需要一段文字描述，比如"用右手把煎鍋放到電磁爐上"，影片生成模型會自動理解兩個物體的空間關係和交互邏輯，生成合理的交互影片，DeVI隨後讓虛擬人在物理仿真里復現這個交互。這展示了影片生成模型作為"場景理解器"的價值——它不需要用戶手動指定物體之間的關係，自然語言描述就足夠了。

在文字驅動的動作多樣性上，研究團隊對同一個場景（一個虛擬人站在桌旁，桌上放著某個物體）輸入不同的文字提示，得到了截然不同的動作結果。同樣的場景，"用左手撿起蘋果放進棕色籃子"和"用右手撿起西紅柿放進棕色籃子"會生成完全不同的動作路徑，虛擬人選擇不同的手、採取不同的姿態、把物體放到不同的地方。這種靈活性是依賴固定動作捕捉數據的傳統方法無法提供的。

贊助商廣告

在針對20種不同物體（包括獎盃、相機、草帽、可樂罐、垃圾袋、鍋、炒鍋等各種形狀和重量差異很大的物體）的定性展示中，DeVI生成了與物體特性相符的交互動作：拿起垃圾袋時用的是較為輕鬆的單手抓握，舉起沉重的鍋時則是雙手從兩側把持，拿起相機時手指自然地包裹住機身並擺出拍照姿勢，用草帽時的動作則是把帽子戴到頭上。這些都說明影片生成模型確實把對物體的"常識理解"編碼進了生成的影片裡，DeVI成功地把這些知識轉化為了物理上可執行的動作。

八、這項研究還有什麼局限

研究團隊也坦率地指出了DeVI當前版本存在的兩個主要局限。

第一個局限是影片生成模型對透視關係的處理不夠完美。研究團隊在場景里渲染了一個棋盤格地板來提供透視線索，但影片生成模型有時仍然會產生透視畸變——比如當人把手向攝像機方向伸出時，手在畫面里可能顯得比實際應有的更大或更小。這種"深度方向的誤差"會導致視覺HOI對齊計算出的手部位置在深度維度上不準確，進而影響最終動作的自然度。對於需要精確放置到小空間內的動作（比如把棒球放進小杯子），這個問題尤為明顯。未來可以通過引入多視角影片生成來緩解這個問題。

第二個局限是自動接觸估計的精度有限。DeVI使用的接觸標籤估計方法（根據物體和手的像素速度判斷是否接觸）只考慮了畫面內的2D運動，忽略了深度方向的運動。這意味著當手在深度方向接近物體但2D投影變化不明顯時，算法可能錯誤地判斷為沒有接觸。這類估計錯誤不會讓整個學習失敗，但會導致虛擬人在某些情況下表現出"突然猛地抓住物體"這類不夠自然的動作。未來可以引入專門的接觸可供性估計方法來改善這一點。

說到底，DeVI做的事情可以用一個直覺來概括：不要強求電腦擁有完美的3D理解能力，而是巧妙地把"3D好做的事情"和"2D好做的事情"各自放在最合適的地方。人體姿態的3D重建技術已經很成熟，用就是了；物體的3D位姿估計太難，乾脆放棄，改用更容易獲取的2D軌跡。這種"揚長避短"的設計哲學，讓整個系統在沒有高質量3D數據的情況下，反而比依賴3D數據的方法表現得更好。

贊助商廣告

更有趣的地方在於，這項研究實際上為機器人學習開闢了一條新路。以往，機器人要學習"如何用手操作物體"，要麼需要大量的人工示範，要麼需要昂貴的傳感器和數據採集設備。而DeVI說明，網際網路上浩如煙海的文字描述，通過影片生成模型，就可以轉化為機器人可以學習的動作示範——只要我們能把影片裡的"看起來合理"轉化為物理仿真里的"實際可執行"。這個方向如果繼續發展，未來機器人學習新技能的成本可能會大幅下降。

當然，目前DeVI還只能處理相對簡單的桌面操控場景，而且每個動作的訓練需要20小時，距離實際應用還有相當的距離。但作為一個概念驗證，它展示的可能性是令人期待的：也許有一天，你只需要對家用機器人說"幫我把蘋果放進果籃"，它就能自己去"看一段影片"，然後真的把這件事做好。

感興趣的讀者可以通過arXiv:2604.20841查閱完整論文，研究團隊也承諾會公開代碼和演示結果，可以訪問項目主頁snuvclab.github.io/devi/查看可視化結果。

Q&A

Q1：DeVI框架需要準備哪些輸入才能運行？

A：DeVI需要三樣東西：一個包含3D人體（用SMPL-X格式表示）和目標物體（3D網格模型）的初始場景，一個描述動作的文字提示詞（比如"用左手拿起可樂罐喝一口"），以及一個預訓練好的影片生成模型。不需要任何動作捕捉數據或手工標註的3D演示數據。整個流程從渲染初始圖像開始，影片生成約需10分鐘，隨後策略訓練約需20小時。

Q2：DeVI的"混合模仿目標"為什麼要把人體用3D信號、物體用2D信號這樣分開處理？

A：因為兩者的重建難度差距懸殊。人體3D姿態估計技術已經相當成熟，從單目影片中提取準確的3D人體動作完全可行。但物體的6D位姿估計在影片中非常困難，影片生成模型本身也會產生透視畸變，強行估計3D物體位姿會引入大量噪聲。研究發現2D物體軌跡作為獎勵信號比精確的6D位姿更"寬容"，反而更容易讓強化學習收斂到好的策略，最終效果超過了使用6D位姿的傳統方法。

贊助商廣告

Q3：DeVI和讓機器人直接模仿人手影片的方法有什麼本質區別？

A：核心區別在於DeVI是在"物理仿真"里訓練虛擬人，受到真實物理規律的約束，學到的是實際可執行的動作策略，而不是簡單的軌跡回放。直接模仿影片的方法（如開環軌跡復現）無法應對物理擾動，物體稍微偏移就會失敗。DeVI通過強化學習訓練出來的策略在仿真器里是"閉環"的，虛擬人能根據當前物理狀態實時調整動作。此外，DeVI專門針對靈巧的多指手部操控設計，而非依賴簡單的平行夾爪。