宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

首爾大學研究團隊用「看影片學動作」讓虛擬人類學會了靈巧的手部操控

2026年04月30日 首頁 » 熱門科技

這項由首爾大學視覺計算實驗室與RLWRLD聯合完成的研究以預印本形式發布於2026年4月,論文編號為arXiv:2604.20841。感興趣的讀者可以通過該編號在arXiv平台上查閱完整論文。

一個機器人要學會"開瓶蓋",你會怎麼教它?最直接的方法,是手把手地帶著它做一遍,精確記錄每一個關節的角度、每一幀的力道變化,生成一套完美的3D動作數據,然後讓它照著練。這個方法很有效,但貴得離譜——專業的動作捕捉設備、大量的人工標註、有限的物體種類,讓這套方案很難規模化推廣。

那有沒有更省力的辦法?首爾大學的研究團隊給出了一個腦洞大開的答案:給它看一段影片就夠了。不是真人示範的影片,而是用人工智慧"憑空生成"的影片。

這項研究提出了一個名為DeVI(Dexterous Video Imitation,靈巧影片模仿)的框架。它的核心思路是:先用文字描述告訴一個影片生成模型"我想要一個人拿起可樂罐並喝一口",讓模型生成一段看起來真實的2D動畫影片,然後從這段影片裡提取出人體動作資訊和物體運動軌跡,最後用強化學習的方式,訓練一個在物理仿真環境裡運行的虛擬人類角色,讓它真正在物理規律約束下完整地重現這個動作。

這項研究的價值不僅在於它的新穎性,更在於它打破了一個長期存在的瓶頸——以前的方法要麼需要昂貴的3D動作捕捉數據,要麼只能處理簡單的全身動作,完全繞開了"手部與物體如何精確交互"這個最關鍵也最難的問題。DeVI則專門針對這種靈巧的手部操控場景設計,並且只需要一段生成的2D影片就能工作,理論上可以泛化到任何你能用文字描述的物體和動作。

一、為什麼"讓虛擬人學動作"是一件難事

要理解這項研究的突破點,得先聊聊研究團隊面對的是怎樣一座大山。

在物理仿真世界裡訓練虛擬人類做動作,本質上是一個"控制問題"。這個虛擬人擁有身體(用一個叫SMPL-X的人體模型來表示,涵蓋21個身體關節和30個手部關節,左右手各15個),每一幀它都需要決定每個關節轉多少度,這些角度指令會驅動物理引擎計算出實際的力矩,最終讓虛擬人做出動作。要讓它做出"抓起蘋果咬一口"這個動作,研究團隊需要給它一個"參考目標"——一套告訴它"在第1秒你的手應該在哪、第2秒手指應該彎曲多少"的指導數據,然後通過反覆試錯(強化學習)讓虛擬人學會如何實際達到這些目標。

問題就出在這個"參考目標"上。以往最好的方案是用動作捕捉系統錄下真人動作,得到精確的3D坐標數據。這套數據質量高,虛擬人跟著學效果好。但動作捕捉系統非常昂貴,而且對於"手部抓握"這類精細動作,現有的捕捉設備經常力不從心,手指關節的數據往往噪聲很大。更重要的是,捕捉數據只覆蓋了少數幾種物體和場景,遇到新物體就得重新捕捉一遍。

另一條路是用大型語言模型或動作生成模型直接生成3D動作序列。這條路規避了捕捉成本,但生成的動作往往在物理上站不住腳,尤其是手部和物體的接觸關係幾乎總是錯的——手可能懸在物體外面,或者穿透物體而過,完全無法作為物理仿真的參考。

研究團隊在這裡發現了一個新的可能性:影片生成模型雖然生成的是2D畫面,在物理精度上遠不如3D動作捕捉數據,但它對"人應該怎樣與物體互動"有著相當準確的視覺直覺。當你告訴它"一個人拿起咖啡杯喝一口",它生成的影片裡,手的形狀、抓握位置、物體的運動方式,看起來都非常自然合理。這種"視覺合理性"能不能被提取出來,轉化為物理仿真的有效信號?DeVI的整個框架都是圍繞這個問題展開的。

二、從"一張圖"到"一段影片":影片生成這一步

DeVI的工作流程從一個具體的3D場景開始。研究團隊首先搭建一個桌面場景:虛擬人站在桌子旁邊,桌上放著目標物體。這個虛擬人用SMPL-X模型表示,物體的3D網格模型則來自網際網路上下載的資產。

不過,直接把這個灰色的3D模型渲染成圖片送進影片生成模型,效果並不理想。原因在於影片生成模型是在大量真實的人類影片上訓練的,它對真實人體外觀有更好的理解。為此,研究團隊給這個虛擬人"穿上了衣服"——從一個叫THuman2.0的數據集裡取來帶有真實外觀紋理的人體3D模型,通過一個自動綁定(rigging)過程,讓這個紋理模型的骨架和動作與原本的SMPL-X模型對齊,實現"同一個姿勢,真實人體外觀"。

場景布置好之後,研究團隊還要選擇一個合適的攝像機角度。他們在場景周圍預設了16個候選攝像機位置,分布在不同的水平方向和仰角上,然後從中挑選那些能同時清晰看到人的雙手和目標物體的攝像機。這個選擇至關重要,因為後續的手部姿態估計算法需要清晰的手部視圖才能工作良好。

選好攝像機後,把場景渲染成一張圖片,連同文字提示詞一起送進影片生成模型Wan(一個開源的大規模影片生成模型,同時使用了LightX2V這個加速推理工具)。文字提示詞按照"一個人用[哪只手][如何操作][什麼物體]"的格式構建,比如"一個人用左手拿起可樂瓶並喝一口,雙手都在畫面中,攝像機固定不動"。這個圖片加文字的組合告訴影片生成模型:畫面里應該有這些東西,它們應該按照這個方式運動。

影片生成大約需要10分鐘(在NVIDIA A6000 GPU上),最終得到一段逐幀的2D影片。在這段影片裡,虛擬人做出了文字描述的動作,物體也隨之運動。這段影片就是整個DeVI流程的"原始素材"。

三、"混合模仿目標":分別處理人體和物體的聰明設計

有了2D影片之後,下一步是從中提取"參考目標"——告訴物理仿真里的虛擬人應該往哪個方向學。這是DeVI最核心的技術貢獻之一,研究團隊稱之為"混合模仿目標"(hybrid imitation target)。

為什麼要"混合"?因為從2D影片裡提取人體的3D姿態,和提取物體的3D位置姿態,難度完全不在一個量級上。

對於人體來說,已經有了相當成熟的算法。研究團隊使用了兩個工具:GVHMR負責估計全身的3D姿態(包括身體在世界坐標中的位置和朝向),HaMeR專門負責估計手部的精細姿態。把兩個工具的輸出拼合在一起,就得到了一個完整的3D人體動作序列。

對於物體來說,情況則完全不同。估計物體在3D空間中的完整6自由度位姿(位置+朝向,即6D pose)是一個公認的難題,在影片中尤其困難——物體可能被遮擋、光照變化會影響外觀、而且影片生成模型本身對物理透視關係的處理並不總是完美的,經常出現物體大小和位置與實際3D物理不符的情況。

面對這個困境,研究團隊做了一個簡單但非常有效的選擇:放棄提取物體的3D位姿,改為直接追蹤物體在2D畫面中的運動軌跡。他們首先通過光線投射(ray casting)技術,找出物體3D網格上哪些頂點在第一幀里是可見的,然後把這些頂點投影到2D圖像上,得到一系列2D點。接著用影片追蹤工具CoTracker3把這些點在後續每一幀中的位置追蹤出來,過濾掉被嚴重遮擋的點,最終得到一組2D軌跡。這些軌跡告訴我們:這個物體在畫面里向哪個方向移動了、移動了多大距離。雖然丟失了深度資訊,但這個2D信號已經足以提供關鍵的運動約束。

至此,"混合模仿目標"就形成了:人體用3D信號(關節位置、旋轉、速度),物體用2D信號(畫面中的軌跡)。這種組合看似粗糙,但後面的實驗結果表明,它的效果甚至超越了使用精確6D位姿的傳統方法——原因在於精確的6D位姿約束太強,對於有噪聲的仿真環境反而難以優化;而2D軌跡是一種更"寬容"的約束,隱含地引導物體的位置和朝向,但不過度限制求解空間。

四、"視覺HOI對齊":讓重建的手正好接觸到物體

然而,把GVHMR和HaMeR的輸出簡單拼合在一起,還遠遠不夠。研究團隊發現,這兩個工具是分別獨立工作的,它們對"人的手在哪裡"的估計並不總是一致,而且更關鍵的問題是,重建出來的3D人體動作,手的位置可能根本沒有碰到物體——在2D影片裡看起來在接觸,但映射回3D之後兩者之間有明顯的空間距離。這樣的參考動作顯然無法引導虛擬人學會真正地抓住物體。

為了解決這個問題,研究團隊設計了一個叫做"視覺HOI對齊"(Visual HOI Alignment)的優化步驟。它的本質是一個精細調整過程:固定GVHMR給出的身體根節點位置和朝向,對身體上半部分(特別是手、手腕、肘關節、肩關節和脊柱)的姿態參數進行疊代優化,使得重建出來的3D人體滿足四個條件。

第一個條件是"2D投影吻合"——把優化後的3D人體投影回2D圖像,應該和GVHMR、HaMeR各自給出的2D關鍵點位置儘量吻合,保證優化後的人體姿態和影片中看到的樣子一致。這對應了兩個損失函數:身體2D投影損失和手部2D投影損失。

第二個條件是"時序平滑"——相鄰幀之間的姿態變化不應該過於劇烈,用測地距離(geodesic distance)來衡量旋轉的變化量,確保動作連貫自然。

第三個條件是"至少有一幀真正接觸物體"——這是最關鍵的HOI損失(HOI loss)。它要求在整個動作序列中,至少存在某一幀,使得指定的手部關節到物體頂點的Chamfer距離最小化。換句話說,它要求手在某個時刻真正"碰到"了物體,而不是永遠懸在空中。這個資訊來自文字提示詞——"用左手拿起"就意味著左手會接觸物體,研究團隊直接從文字提示詞裡解析出哪只手應該接觸物體。

通過這個優化過程,最終得到的3D人體參考動作既和影片畫面在視覺上對齊,又在3D空間裡真正觸碰到了物體的表面,為後續的強化學習訓練提供了高質量的參考。

五、"混合追蹤獎勵":教會虛擬人同時模仿人和物體

現在萬事俱備,可以開始訓練物理仿真里的虛擬人了。訓練採用強化學習(RL)方法,具體使用PPO(近端策略優化,一種經典的強化學習算法)。虛擬人每一步做出一個動作,然後收到一個"獎勵分數",告訴它這個動作做得好不好。獎勵越高,這個動作越可能在未來被重複,最終虛擬人就學會了高獎勵的行為模式。

DeVI的獎勵函數由三部分相乘組成,稱為"混合追蹤獎勵"(hybrid tracking reward)。

第一部分是人體追蹤獎勵,衡量虛擬人的動作和3D人體參考之間的差距,包括全身關節的3D位置誤差、速度誤差、旋轉誤差,以及專門針對手部關節的局部位置和旋轉誤差(以手腕為中心坐標系來計算,避免全局位置誤差的影響),還有一個"功率懲罰"防止虛擬人施加過大的力矩。

第二部分是物體追蹤獎勵,衡量物體在畫面中的2D投影位置與參考2D軌跡之間的差距。每一幀,研究團隊把仿真里的物體頂點投影到和影片相同的攝像機視角下,計算投影坐標和參考2D坐標之間的歐氏距離,用指數函數轉換成獎勵分數。

第三部分是接觸獎勵,引導虛擬人在正確的時機讓手和物體產生接觸。這裡有一個聰明的設計:研究團隊從影片中自動估計"接觸時機"——當2D追蹤顯示物體開始運動時,意味著接觸已經發生;當物體靜止而手也靜止時,則根據前後幀的狀態推斷。這個自動估計的二值接觸標籤(接觸/不接觸)用來調節接觸獎勵:在沒有接觸的幀,獎勵直接設為滿分,不做約束;在應該有接觸的幀,獎勵由"手上的力傳感器有多少比例超過閾值"來衡量,鼓勵虛擬人真正用力握住物體。同時還有一個接觸距離獎勵,鼓勵手部關節在接觸幀儘量靠近物體表面。

在訓練的具體設置上,研究團隊使用了4096個並行仿真環境(通過Isaac Gym實現),每次收集32步的軌跡數據後更新網路參數,批量大小為1024。控制策略網路採用演員-評論家(actor-critic)架構,演員網路是一個基於Transformer編碼器的序列模型,評論家網路是一個多層感知機(MLP)。演員網路的輸入包括當前人體狀態、物體狀態,以及未來k幀的3D人體參考姿態作為目標。訓練在單塊NVIDIA A6000 GPU上進行,針對一段250幀的影片大約需要20小時完成訓練。

訓練時還有兩個工程細節值得一提。一是初始化策略:因為沒有物體的6D位姿參考,無法像以往方法那樣隨機從序列中某一幀開始仿真。研究團隊改為以50%的概率從"接觸前幀"(物體還沒有開始運動的最後一幀)開始仿真,這樣增加了在接觸關鍵時刻的訓練樣本比例,顯著加速了學習效率。二是早停機制:當仿真狀態和參考目標偏差過大時(比如身體關節誤差超過200mm、手指尖誤差超過40mm、物體2D軌跡像素誤差超過94像素)提前終止當前回合,避免在沒有希望的狀態下浪費訓練時間。

六、實驗結果:和"有3D數據"的方法比,DeVI贏了

研究團隊用兩種方式評估了DeVI的效果:和已有方法的對比實驗,以及各設計組件的消融研究。

對比實驗使用了GRAB數據集,這是一個包含精確3D動作捕捉數據的手部抓握數據集。研究團隊選取了16段時長不超過7秒的單手抓握序列,把這些3D動作數據的2D投影作為DeVI的輸入信號,然後比較DeVI和三個依賴完整3D數據的基準方法——PhysHOI、SkillMimic、InterMimic——在同樣的物理仿真環境裡把這些動作重現得有多準確。

評估指標包括兩類:人體方面,分別計算身體關節、手部關節、所有關節的MPJPE(平均每關節位置誤差,單位毫米),以及根節點的位移誤差;物體方面,計算物體中心的位移誤差和朝向誤差。成功的標準定義為MPJPE(全部關節)小於200毫米且物體位移誤差小於200毫米。

結果非常清晰地顯示了DeVI的優勢。在與PhysHOI的對比中,DeVI的全關節MPJPE從142.6毫米降到了25.35毫米,物體位移誤差從94.28毫米降到了21.36毫米,朝向誤差從1.396降到了0.6163。在與SkillMimic的對比中,全關節MPJPE從136.1毫米降到了25.42毫米,物體位移誤差從103.4毫米降到了24.32毫米。在與InterMimic(三個基準方法中性能最好的)的對比中,DeVI的全關節MPJPE從91.14毫米降到了41.56毫米,物體位移誤差從91.47毫米降到了32.36毫米。

從成功率來看,在最嚴格的標準下(全關節MPJPE小於100毫米、物體位移小於100毫米、物體朝向誤差小於0.9),DeVI的成功率達到了50%,而InterMimic是18.8%,PhysHOI和SkillMimic則更低。

更關鍵的是,DeVI使用的是比基準方法"資訊量更少"的參考信號——只有2D軌跡而非6D位姿——卻取得了更好的結果。研究團隊認為,2D軌跡作為獎勵信號的好處在於它是一種"軟約束":它通過物體在畫面中的投影形狀隱含地約束了物體的位置和朝向,但不像精確的6D位姿那樣過度約束求解空間,反而讓策略優化更容易找到好的解。

消融研究從另一個角度驗證了各設計組件的必要性。當去掉2D物體追蹤獎勵時,全關節MPJPE從25.92毫米上升到116.2毫米,物體位移誤差從20.96毫米上升到103.0毫米,成功率從50%下降到18.8%——說明2D物體追蹤獎勵是實現物體操控的關鍵。

視覺HOI對齊的消融研究則從不同角度衡量。研究團隊比較了直接使用GVHMR輸出、去掉視覺HOI對齊但合併手部估計、以及完整DeVI三種情況下的參考動作質量。在手部關節的2D投影誤差上,去掉視覺HOI對齊的版本為25.6像素,而DeVI優化後降到了3.74像素。在接觸精度上(測量手部關節距離物體表面最近時有多近),DeVI將手到物體的平均距離從101毫米降到了18.7毫米,接觸精度(以2.5厘米為閾值)從0.100提升到0.864。這說明視覺HOI對齊對於重建出能夠真正接觸物體的手部動作至關重要。

七、多物體場景和文字驅動的動作多樣性

除了基準對比實驗,研究團隊還展示了DeVI在更廣泛場景下的能力。

在多物體場景中,他們設置了同時包含兩個相關物體的場景,比如"一口煎鍋和一個電磁爐"、"一個西紅柿和一個棕色籃子"。DeVI只需要一段文字描述,比如"用右手把煎鍋放到電磁爐上",影片生成模型會自動理解兩個物體的空間關係和交互邏輯,生成合理的交互影片,DeVI隨後讓虛擬人在物理仿真里復現這個交互。這展示了影片生成模型作為"場景理解器"的價值——它不需要用戶手動指定物體之間的關係,自然語言描述就足夠了。

在文字驅動的動作多樣性上,研究團隊對同一個場景(一個虛擬人站在桌旁,桌上放著某個物體)輸入不同的文字提示,得到了截然不同的動作結果。同樣的場景,"用左手撿起蘋果放進棕色籃子"和"用右手撿起西紅柿放進棕色籃子"會生成完全不同的動作路徑,虛擬人選擇不同的手、採取不同的姿態、把物體放到不同的地方。這種靈活性是依賴固定動作捕捉數據的傳統方法無法提供的。

在針對20種不同物體(包括獎盃、相機、草帽、可樂罐、垃圾袋、鍋、炒鍋等各種形狀和重量差異很大的物體)的定性展示中,DeVI生成了與物體特性相符的交互動作:拿起垃圾袋時用的是較為輕鬆的單手抓握,舉起沉重的鍋時則是雙手從兩側把持,拿起相機時手指自然地包裹住機身並擺出拍照姿勢,用草帽時的動作則是把帽子戴到頭上。這些都說明影片生成模型確實把對物體的"常識理解"編碼進了生成的影片裡,DeVI成功地把這些知識轉化為了物理上可執行的動作。

八、這項研究還有什麼局限

研究團隊也坦率地指出了DeVI當前版本存在的兩個主要局限。

第一個局限是影片生成模型對透視關係的處理不夠完美。研究團隊在場景里渲染了一個棋盤格地板來提供透視線索,但影片生成模型有時仍然會產生透視畸變——比如當人把手向攝像機方向伸出時,手在畫面里可能顯得比實際應有的更大或更小。這種"深度方向的誤差"會導致視覺HOI對齊計算出的手部位置在深度維度上不準確,進而影響最終動作的自然度。對於需要精確放置到小空間內的動作(比如把棒球放進小杯子),這個問題尤為明顯。未來可以通過引入多視角影片生成來緩解這個問題。

第二個局限是自動接觸估計的精度有限。DeVI使用的接觸標籤估計方法(根據物體和手的像素速度判斷是否接觸)只考慮了畫面內的2D運動,忽略了深度方向的運動。這意味著當手在深度方向接近物體但2D投影變化不明顯時,算法可能錯誤地判斷為沒有接觸。這類估計錯誤不會讓整個學習失敗,但會導致虛擬人在某些情況下表現出"突然猛地抓住物體"這類不夠自然的動作。未來可以引入專門的接觸可供性估計方法來改善這一點。

說到底,DeVI做的事情可以用一個直覺來概括:不要強求電腦擁有完美的3D理解能力,而是巧妙地把"3D好做的事情"和"2D好做的事情"各自放在最合適的地方。人體姿態的3D重建技術已經很成熟,用就是了;物體的3D位姿估計太難,乾脆放棄,改用更容易獲取的2D軌跡。這種"揚長避短"的設計哲學,讓整個系統在沒有高質量3D數據的情況下,反而比依賴3D數據的方法表現得更好。

更有趣的地方在於,這項研究實際上為機器人學習開闢了一條新路。以往,機器人要學習"如何用手操作物體",要麼需要大量的人工示範,要麼需要昂貴的傳感器和數據採集設備。而DeVI說明,網際網路上浩如煙海的文字描述,通過影片生成模型,就可以轉化為機器人可以學習的動作示範——只要我們能把影片裡的"看起來合理"轉化為物理仿真里的"實際可執行"。這個方向如果繼續發展,未來機器人學習新技能的成本可能會大幅下降。

當然,目前DeVI還只能處理相對簡單的桌面操控場景,而且每個動作的訓練需要20小時,距離實際應用還有相當的距離。但作為一個概念驗證,它展示的可能性是令人期待的:也許有一天,你只需要對家用機器人說"幫我把蘋果放進果籃",它就能自己去"看一段影片",然後真的把這件事做好。

感興趣的讀者可以通過arXiv:2604.20841查閱完整論文,研究團隊也承諾會公開代碼和演示結果,可以訪問項目主頁snuvclab.github.io/devi/查看可視化結果。

Q&A

Q1:DeVI框架需要準備哪些輸入才能運行?

A:DeVI需要三樣東西:一個包含3D人體(用SMPL-X格式表示)和目標物體(3D網格模型)的初始場景,一個描述動作的文字提示詞(比如"用左手拿起可樂罐喝一口"),以及一個預訓練好的影片生成模型。不需要任何動作捕捉數據或手工標註的3D演示數據。整個流程從渲染初始圖像開始,影片生成約需10分鐘,隨後策略訓練約需20小時。

Q2:DeVI的"混合模仿目標"為什麼要把人體用3D信號、物體用2D信號這樣分開處理?

A:因為兩者的重建難度差距懸殊。人體3D姿態估計技術已經相當成熟,從單目影片中提取準確的3D人體動作完全可行。但物體的6D位姿估計在影片中非常困難,影片生成模型本身也會產生透視畸變,強行估計3D物體位姿會引入大量噪聲。研究發現2D物體軌跡作為獎勵信號比精確的6D位姿更"寬容",反而更容易讓強化學習收斂到好的策略,最終效果超過了使用6D位姿的傳統方法。

Q3:DeVI和讓機器人直接模仿人手影片的方法有什麼本質區別?

A:核心區別在於DeVI是在"物理仿真"里訓練虛擬人,受到真實物理規律的約束,學到的是實際可執行的動作策略,而不是簡單的軌跡回放。直接模仿影片的方法(如開環軌跡復現)無法應對物理擾動,物體稍微偏移就會失敗。DeVI通過強化學習訓練出來的策略在仿真器里是"閉環"的,虛擬人能根據當前物理狀態實時調整動作。此外,DeVI專門針對靈巧的多指手部操控設計,而非依賴簡單的平行夾爪。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新