這項研究由ACE Robotics、香港中文大學多媒體實驗室(CUHK MMLab)、深圳香港中文大學、上海交通大學以及清華大學聯合完成,論文於2026年6月發表,arXiv編號為2606.17200,感興趣的讀者可以通過這個編號查閱完整論文。
機器人是個很挑剔的學生。它要學會"抓杯子"這個動作,你就得手把手地帶著它練習幾百次,每一次都要精確記錄它的手臂去了哪裡、轉了多少度、手指捏緊到什麼程度。這個過程不僅費時費力,還極其昂貴。相比之下,世界上每天有數以億計的人在做各種各樣的家務、烹飪、整理——這些動作都被攝影機記錄下來,形成了龐大的影片資源庫。
問題是,人的手和機器人的手臂完全不一樣:人有五根手指、手腕能靈活扭轉,而機器人通常是金屬夾爪;人的影片是從第一人稱視角拍攝的,動作坐標系和機器人實驗室里的完全不同;人體運動從影片裡"估計"出來的軌跡數據本身就帶有噪聲和誤差,把這種"不太準"的數據直接餵給機器人,很可能教出壞習慣。
研究團隊把這個挑戰拆解成兩個核心問題:一是如何讓人類影片和機器人數據"說同一種語言",二是如何在混合訓練時不讓那些嘈雜的人類動作數據把機器人的好習慣帶壞。他們給出的答案叫做ACE-Ego-0,一套把人類雙手動作影片和機器人操作數據統一整合進同一套訓練體系的框架,最終在多個權威基準測試上刷新了最好成績,並在真實雙臂機器人平台上展示了令人印象深刻的實際操作能力。
一、為什麼機器人學動作這麼難,人類影片又為什麼是"寶藏"
要理解這項研究解決的問題,可以先考慮這樣一個場景:你要教一個從來沒見過廚房的人學做飯。最直接的方法是站在他旁邊,每一個步驟都親自示範——這對應的就是現在機器人學習最常用的"遙控演示"方式,工程師用操縱杆手動控制機器人完成任務,同時記錄每一幀的精確動作數據。這種方法效果不錯,但成本很高:你得預定一台機器人、一個實驗室、一名熟練的操作員,然後一遍一遍地重複同一個動作。
現在換一種方式:把世界上所有做飯的影片都收集起來,讓這個人先通過大量觀看影片來建立對"做飯是什麼感覺"的基本直覺,再用少量親身練習來打磨細節。這正是這篇論文所探索的方向。網際網路上有海量的第一人稱(也就是從拍攝者自己眼睛視角錄製的)人類操作影片——無論是Ego4D、EPIC-KITCHENS還是EgoDex這些公開的大規模數據集,記錄了數千小時人們在廚房、家庭、工作間裡用雙手操作物體的真實場景。這些數據的覆蓋範圍遠比任何機器人實驗室能收集到的都要廣泛,而且收集成本幾乎可以忽略不計。
然而,直接使用這些影片訓練機器人有三道門檻。第一道是坐標系不同:機器人記錄的是自己相對於底座或者世界坐標原點的位置,而人類影片裡的手部運動是相對於攝影機或者人體自身的。第二道是"身體結構"不同:人有肩膀、肘部、腕部、五指,機器人可能只有一個簡單的夾爪,或者完全不同的關節配置。第三道是數據質量不同:從影片裡通過視覺算法"猜"出來的手部三維位置,天然地比真實傳感器記錄的機器人關節數據噪聲更大、誤差更多。
在ACE-Ego-0之前,已經有一些研究嘗試把人類影片用於機器人訓練,但它們要麼繞開了直接的動作級別學習(只學"看"而不學"做"),要麼簡單粗暴地把有噪聲的人類動作估計值和精準的機器人傳感器數據混在一起同等對待,這就像讓一個偶爾會說錯話的老師和一個精準無誤的課本共同用同樣的權重教學,難免造成混淆。
二、統一"語言":三個維度上的對齊
ACE-Ego-0解決坐標系和身體結構差異的核心思路,可以用一個翻譯的比喻來理解。不同國家的人說不同的語言,但如果大家都把各自的意思翻譯成英語,就能在同一張桌子上溝通了。這裡的"英語"就是頭部攝影機坐標系:不管原始數據來自什麼機器人平台或者什麼人體影片,所有的動作軌跡都被統一轉換到"從頭部攝影機看出去的視角"下來描述。
對於機器人數據,這個轉換相對簡單:研究團隊利用攝影機標定參數(一種描述攝影機位置和朝向的數學關係),把每一幀機器人手臂末端的位置和朝向,從機器人底座坐標系轉到攝影機坐標系。就像你把一張用北京地圖標註的位置,轉換成用上海地圖標註的同一個地方——坐標值變了,但描述的是同一個現實。這樣做的好處是,當同一套訓練好的模型被部署到一個新機器人上時,只需要提供新機器人攝影機的安裝參數,就能直接使用,而不需要重新訓練整個模型。
對於人類影片,挑戰更大,因為人的手不是機器人的末端執行器(工具手)。研究團隊用了一個聰明的替代方案:把手腕關節定義為"虛擬末端執行器"的原點,然後用手掌平面和腕部到手指的方向向量,構建一個穩定的手部坐標系,並把它轉換成和機器人動作一樣的表示格式。手指的開合程度則用拇指尖到手心的距離來近似模擬機器人夾爪的開合度,再縮放到機器人夾爪實際的物理行程範圍內。這樣,人類手部的運動就被"翻譯"成了和機器人數據格式完全相同的動作向量。
最終,無論來自機器人還是人類影片,每一條數據都被表示為一個22維的雙臂動作向量:左手和右手各11維,包含3維位置、6維朝向(使用一種在神經網路訓練中更穩定的連續旋轉表示方式)、1維夾爪開合度,以及1維"該手臂是否激活"的標誌位。這個標誌位的存在讓模型能夠同時處理只用一隻手的任務和需要雙手協作的任務,而不會產生混淆。
處理完空間維度的統一,還有一個容易被忽視的時間維度問題:不同機器人的控制頻率差別很大,有的10赫茲(每秒控制10次),有的20赫茲,有的30赫茲。如果都預測"未來固定N幀"的動作,那麼對10赫茲的數據來說N幀只覆蓋1秒,對30赫茲的數據N幀卻覆蓋了3秒——同樣的模型預測的物理時間長度完全不同,這就像讓一個運動員按照"跑50步"的指令訓練,但有人穿著大步鞋、有人穿著小步鞋,結果跑出的距離千差萬別。
ACE-Ego-0的解決方案是"按物理時間切塊":設定一個固定的目標時間窗口(比如2秒),然後根據每個數據集的控制頻率,計算出這2秒內該有多少幀,以此確定每個數據集的動作預測長度。這樣所有數據集預測的都是"未來2秒內的動作",時間意義上完全可比。
結構差異則通過一個叫"形態條件化"的機制來處理。每個機器人都有自己的URDF文件(一種描述機器人關節結構、運動範圍和物理尺寸的標準格式文件,類似機器人的"身份證"),研究團隊構建了一個圖神經網路編碼器,把這個URDF文件解析成一個緊湊的"形態令牌"——你可以把它理解成一張簡歷,概括了這個機器人的手臂有多長、關節能轉多大、哪些關節和操作最相關。對於人類影片,則用一個可訓練的替代嵌入向量來扮演這個角色,這個向量在訓練過程中自動學習如何描述"人類這種特殊的操作者"。這些形態令牌只注入到動作預測模組,而不影響視覺語言理解的骨幹網路,保證了視覺理解能力的通用性。
三、有噪聲的老師:可靠性加權的輔助損失函數
解決了表示對齊的問題,還剩下最棘手的一關:如何在訓練時不讓人類影片數據的噪聲污染機器人數據建立起來的精確控制能力。
研究團隊把這個問題處理得頗為精細。他們設計了一套叫做"可靠性感知訓練目標"的機制,核心思想是:不同來源的數據、不同的動作維度、甚至同一段影片裡不同時刻的幀,可靠性是不一樣的,訓練時的權重也應該不一樣。
具體來說,每一個動作維度都有一個靜態的"通道級可靠性先驗":位置資訊(手在哪裡)在三維視覺重建中相對可靠,被賦予滿權重1.0;而手腕的旋轉方向和手指的開合程度受遮擋影響很大,估計誤差更多,被賦予極低的權重0.001。這意味著人類影片數據主要在"手往哪個方向移動"這一層面提供監督信號,而不去干擾機器人精確調校的旋轉和抓握控制。
除了靜態通道權重,還有一個動態的"逐步平滑度權重":如果某一幀的手部位置相比前後幀突然跳變(超出該數據集統計分布的3倍標準差範圍),就說明這一幀很可能是追蹤失敗或者估計異常,這一幀的權重會被自動壓低。更進一步,每個人類影片數據集作為整體,都有一個"數據集級質量先驗",根據該數據集歷史上通過質量過濾的幀比例以及軌跡的平滑程度來確定,質量更高的數據集整體權重更高。
這三層加權(通道級、步驟級、數據集級)相乘,得到最終的可靠性權重矩陣。人類影片數據通過這個加權後的Huber損失函數(一種對極端誤差更魯棒的損失函數,比均方誤差更能抵抗偶發的大誤差)提供輔助監督,而機器人數據走標準的流匹配損失函數作為主要監督信號。兩者的權重比例通過一個超參數λ來平衡,實驗中設定為0.1,即人類輔助損失的權重是機器人主損失的十分之一。
這種設計的效果在後面的消融實驗中得到了清晰驗證:如果把可靠性加權去掉,直接讓人類影片數據和機器人數據平等地參與訓練,平均成功率從72.8%下降到69.2%,跌幅是所有消融項中最大的,這直接證明了質量感知加權的必要性。
四、把5929小時原始影片變成1478小時"可用訓練數據"的流水線
除了方法設計,論文還詳細描述了把大規模人類第一人稱影片轉換成可用訓練數據的完整工程流程,這條流水線共分五個階段,每個階段都有明確的過濾邏輯。
第一階段是數據集篩選和標準化。研究團隊從六個公開數據集中選取數據:Ego4D(覆蓋全球各類日常活動場景,216.6小時)、EgoExo4D(同步第一人稱和第三人稱視角的活動數據,10.3小時)、EPIC-KITCHENS-100(廚房場景精細標註,32.3小時)、HOI4D(人物與物體交互的4D數據集,7.2小時)、EgoDex(專注於精細手部動作的大規模數據集,776.8小時)以及Xperience-10M(帶有結構化三維四維標註的大規模第一人稱數據集,435.7小時)。這六個數據集合計約5929小時。所有數據被統一整理成包含影片片段ID、幀索引、攝影機內參、動作描述文字等標準欄位的格式,時長過短(不足4秒)或過長(超過30秒)的片段被直接丟棄。
第二階段是影片篩選,目的是在做計算密集的三維重建之前,先用輕量級的方法去掉那些不含有效操作內容的影片。研究團隊用人臉檢測置信度作為一個關鍵過濾指標:如果一段影片裡頻繁出現清晰的人臉,說明這很可能不是第一人稱視角,而是對他人的觀察視角,這類影片被剔除。剩下的影片再通過圖像字幕模型進行語義過濾,只保留那些描述文字中同時包含"操作動詞"(比如抓取、放置、切割)和"可操作物體名詞"(比如杯子、刀、盒子)的片段,確保留下來的都是真實的操作行為片段。
第三階段是三維手部重建,是技術含量最高的一環。首先用SAM3這個追蹤模型在整段影片中穩定地追蹤左右手的位置,濾掉關鍵點置信度過低或追蹤時長過短的結果。然後把追蹤到的手部區域送入HaMeR這個三維手部重建模型,逐幀估計手部的三維形狀和姿態參數。由於逐幀重建會受到深度模糊、遮擋和時間抖動的影響,還需要第三步的全局軌跡優化:用一個兩階段的數值優化算法,在最小化二維關鍵點重投影誤差的同時加入時間平滑正則化項,讓整段軌跡在時間上更加連續和合理,同時藉助VIPE這個影片三維感知引擎估計出的每幀攝影機位姿,將所有局部重建結果整合到一個一致的世界坐標系下,最後再轉回到頭部攝影機坐標系儲存。
第四階段是動作參數化,把重建出的手部三維軌跡轉換成前面提到的22維統一動作格式,包括位置、朝向的轉換和夾爪開合度的歸一化。有一個細節:如果一段軌跡的拇指到手心距離在整段影片中變化幅度非常小(低於1.5厘米的閾值),說明手基本上一直是握緊或者張開狀態,沒有抓握動作發生,這類片段的夾爪狀態被設為固定的中性值,避免噪聲被誤當作抓握信號學進去。
第五階段是質量控制,應用四道後處理過濾器。完整性過濾器檢查數據是否有缺失值、幀索引是否連續、四元數旋轉表示是否歸一化。靜態過濾器去掉那些雙手幾乎沒有移動的片段,因為這些片段沒有有價值的運動資訊。尖峰過濾器去掉幀間位移突然超出正常範圍3倍標準差的片段,這類異常通常是追蹤失敗的信號。雙手過濾器檢查雙臂之間的協調性,去掉那些雙手運動沒有統計上合理的時序關聯或雙手距離異常的片段。經過這五個階段的處理,最終保留了1478小時的有效訓練數據,約占原始數據的四分之一。
五、6000小時數據、真實機器人測試:成績單上寫著什麼
ACE-Ego-0的完整預訓練數據池超過6000小時,包含1478.9小時偽動作標註的人類影片、以及4534.8小時以上真實傳感器記錄的機器人和仿真數據。機器人數據部分來自AgiBot Alpha/Beta演示數據(1937.8小時)、Galaxea R1Lite數據(488.1小時)、AgiBot數字世界仿真數據(225.3小時)、RoboCasa桌面操作仿真數據(83.6小時)以及研究團隊自行採集的Galbot雙臂機器人演示數據(超過1800小時)。
模型架構上,ACE-Ego-0使用Qwen3-VL-4B-Instruct作為視覺語言主幹(負責理解"看到了什麼、要做什麼"),搭配一個約6億參數的流匹配擴散Transformer作為動作專家(負責輸出"怎麼動")。預訓練在128張A800 GPU上運行20萬步,微調則用16張A800 GPU完成。
研究團隊在三個層面上評測了這套系統的表現。
在RoboCasa GR1桌面操作基準上,這是一個覆蓋24種任務(18種拿放類任務和6種操作鉸鏈物體的任務)的仿真評測平台,使用與人形機器人GR1相同的設置。ACE-Ego-0在24個任務上的平均成功率達到72.8%,超過了此前在該榜單上表現最好的DIAL方法(70.2%),以及JoyAI-RA(63.2%)、ABot-M0(58.3%)和FLARE(55.0%)。在一些具體任務上,差距尤為明顯:比如把砧板放進紙板箱這個任務,ACE-Ego-0成功率84%,而FLARE是54%、GR00T-N1.6是46.5%;把盤子放到另一個盤子裡,ACE-Ego-0達到了98%的成功率。
在RoboTwin 2.0基準上,這是一個覆蓋50種雙臂桌面操作任務的評測平台,特點是有很強的場景隨機化(Easy是乾淨場景,Hard是有隨機干擾的場景)。ACE-Ego-0在Easy設置下平均成功率91.12%,Hard設置下90.62%,比此前最好的JoyAI-RA分別高出0.64和1.34個百分點,在抓取、放置、工具使用、雙臂協調等各類操作上都有分布均勻的提升。
真實機器人測試用了一套ARX雙臂平台,頭部安裝了一個RGB-D攝影機,通過攝影機坐標系下的增量末端執行器命令來控制。測試了六個從簡單到複雜的任務:抓取購物籃並把茶葉盒放進去(單臂,Pick Tea)、用一隻手固定咖啡罐同時用另一隻手舀咖啡粉倒入杯中(雙臂緊耦合,Scoop Coffee)、把多種物品按品類分揀到對應收納箱(語義理解,Category Sorting)、一手持簸箕一手用掃帚把積木掃進去(雙臂工具協作,Sweep Cubes)、依次疊放三個碗(順序規劃,Stack Bowls)、把兩雙鞋放進鞋盒併合上蓋子(長流程,Pack Shoes)。每個任務各做30次試驗,成功標準是機器人在零人工干預的情況下完成完整流程。
ACE-Ego-0在六個任務上的平均成功率達到78.3%,比同等條件微調的π0.5(71.7%)高出6.6個百分點。與GR00T-N1.7的差距則更為顯著:GR00T-N1.7平均成功率只有35.6%,在需要大範圍橫向運動的掃地積木任務上更是幾乎完全失敗(6.7%)。在雙手協作精度要求最高的舀咖啡任務上,ACE-Ego-0成功率86.7%,而GR00T-N1.7隻有36.7%,差距達到50個百分點。所有方法在最長流程的裝鞋任務上成功率都有所下滑,這提示如何在長流程操作中避免誤差積累仍然是整個領域共同面對的挑戰。
消融實驗清晰地說明了每個組件的貢獻:去掉形態條件化令牌,成功率從72.8%降到70.9%;去掉時間對齊動作切塊,降到71.7%;去掉可靠性感知人類輔助損失,降到69.2%。在數據層面,從只有QWen初始化權重出發(無任何具身預訓練)成功率是65.4%,加入機器人數據預訓練後提升到68.3%,再加入人類影片數據後進一步提升到72.8%——而且人類影片帶來的提升(+4.5個百分點)大於機器人數據本身帶來的提升(+2.9個百分點),直接證明了大規模人類影片數據的價值。
論文還有一個關於數據稀缺微調的有趣實驗:在掃地積木任務上,如果微調時只用34條機器人演示,成功率只有10%(10次試驗里只成功1次)。可視化分析揭示了原因:34條機器人演示只覆蓋了0.062平方米的末端執行器工作空間,而419段相關的人類影片覆蓋了0.296平方米——是前者的4.8倍。把這419段人類影片加進微調數據後,成功率提升到40%(成功4次),提升了4倍。這說明即使在微調階段,人類影片也能有效彌補機器人演示數據覆蓋不足的問題。
說到底,ACE-Ego-0在方法上回答了一個長期懸而未決的工程問題:讓人類影片和機器人數據在同一個訓練框架里和平共處,既能充分利用人類影片的海量和多樣性,又不讓它的噪聲拖累機器人數據辛苦建立的精確控制能力。三重對齊(坐標系、身體結構、時間節奏)加上三層可靠性加權,這套組合拳在仿真和真實機器人上都給出了可信的答案。
當然,這項研究還有幾個方向尚未觸及。當前的測試場景集中在桌面操作,移動機器人、全身人形控制或者軟性物體操作是否同樣適用還需要進一步驗證。數據池中還沒有包含靈巧手或者力矩傳感器的數據,而這些對於需要精細觸覺反饋的任務可能很重要。此外,人類影片中的旋轉資訊和手指精細運動在目前的框架里只被賦予了極低的權重,如果未來能提升影片重建的精度,這部分被"浪費"的資訊有可能帶來更大的增益。對於機器人學習這個領域,ACE-Ego-0給出的啟示是:廉價的人類行為數據並非只能用來打輔助,只要處理好對齊和質量控制,它完全可以成為主力數據來源的有力補充。有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.17200查閱完整論文及附錄中的詳細推導。
Q&A
Q1:ACE-Ego-0是什麼類型的機器人學習框架,它和以前的方法有什麼主要區別?
A:ACE-Ego-0是一套把人類第一人稱影片和多平台機器人操作數據統一整合進同一套訓練體系的視覺-語言-動作模型預訓練框架。和以前方法的主要區別在於,它同時解決了三個維度的數據異構問題(坐標系、身體結構、控制頻率),而不是只處理其中一兩個;同時還針對人類影片數據質量較低的現實,設計了分通道、分步驟、分數據集的三層可靠性加權機制,而不是簡單地把有噪聲的人類數據和高精度機器人數據等權重混訓。
Q2:從人類影片裡提取的手部動作軌跡可靠性有多高,為什麼還要把它和機器人數據混合訓練?
A:從影片裡用視覺算法估計出的手部三維軌跡確實存在深度模糊、遮擋抖動和估計偏差等問題,可靠性低於傳感器直接記錄的機器人數據。但人類影片的核心價值不在於精度,而在於覆蓋範圍——幾千小時的人類操作影片涵蓋了機器人演示數據遠無法觸及的長尾場景和動作多樣性。ACE-Ego-0通過把位置資訊(相對可靠)和旋轉/抓握資訊(容易有誤差)區別對待,並動態下調異常幀的權重,讓人類影片只在可信的維度上提供監督,從而在不污染機器人精確控制能力的前提下獲得覆蓋範圍上的增益。實驗表明,加入人類影片後在RoboCasa基準上成功率提升了4.5個百分點,是所有數據擴充措施中提升最大的。
Q3:時間對齊動作切塊解決的具體是什麼問題,如果不做這個對齊會怎樣?
A:不同機器人數據集的控制頻率差別很大(10到30赫茲不等),如果模型統一預測"未來固定N幀"的動作,那麼N幀在低頻數據集裡只對應0.3秒,在高頻數據集裡卻對應3秒,同一個模型預測的物理時間窗口完全不一致。時間對齊動作切塊把預測目標改為"未來固定T秒(默認2秒)的動作",根據各數據集的幀率計算出對應的幀數,確保所有數據監督的是相同長度的物理運動。消融實驗顯示去掉這一機製成功率下降1.1個百分點,說明時間不對齊會引入系統性的訓練偏差。






