這項由香港大學HKU-MMLab與字節跳動Seed團隊聯合開展的研究,以預印本形式於2026年6月26日發布在arXiv平台,論文編號為arXiv:2606.28133。有興趣深入了解的讀者可以通過該編號在arXiv上查詢完整論文。
研究的核心問題其實很貼近我們的生活直覺:既然人類做家務、整理廚房的影片隨處可見,能不能讓機器人直接"看"這些影片來學習幹活?這個想法聽起來很誘人,但實現起來卻藏著一個巨大的陷阱——研究團隊花了大量精力來找到這個陷阱,並想出了一個巧妙的辦法繞開它。
一、機器人學徒的煩惱:為什麼直接"抄"人類動作行不通
先設身處地感受一下這個挑戰。假設你是一個剛入職的廚房學徒,師傅讓你通過觀看前輩切菜的影片來學習刀工。影片裡的前輩用的是專業大刀,而你手邊只有一把普通水果刀。即便你把前輩每一個手腕扭轉的角度都記錄下來,照著做的時候也可能切得一團糟——因為刀具形狀不同,適合大刀的握法和角度對水果刀來說完全是另一回事。
雙臂機器人和人類之間的關係正是如此。機器人的末端執行器是兩個夾爪,就像兩把平行的夾子;人類的手則有五根手指,可以靈巧地捏、握、鉤、繞。當我們用電腦視覺技術從人類操作影片中提取手腕的"姿態"——包括位置和朝向——再讓機器人照著做時,問題就出現了:人類手腕扭轉一定角度是為了讓五根手指配合著抓住物品,但機器人的夾爪根本不需要那個角度,強行模仿只會讓夾爪對著錯誤的方向夾空氣。
更糟糕的是,從影片裡提取人類手腕的旋轉角度本身就不準確。電腦視覺算法估算手腕朝向時會產生誤差,就像用尺子量一個不停顫抖的物體,每次讀數都略有不同。把這些帶噪聲的旋轉數據餵給機器人,結果就是機器人做出奇怪的扭曲動作,完全沒有抓住人類操作的本質。
研究團隊在實驗中直接驗證了這一點:把從人類影片提取的完整六自由度腕部動作(位置加旋轉)輸入機器人時,機器人會做出變形、偏離目標的奇怪姿勢,根本無法完成任務。
二、關鍵洞察:扔掉旋轉,保留平移
研究團隊在反覆思考中抓住了一個關鍵事實:不論是人類還是機器人,在操作物體時,手腕(或夾爪)需要移動到哪個位置,這件事是高度一致的。打開微波爐門,手要先向前伸出去、靠近門把手;擦微波爐台面,手要從左往右橫向移動。這種"手在空間中如何移動"的軌跡,對於人類和機器人來說本質上是一樣的——都需要從A點移動到B點。
至於手到了那個位置之後,手腕應該朝哪個方向、指頭應該怎麼彎曲,那才是人類和機器人真正不一樣的地方。
由此,研究團隊提出了他們稱之為"橋接動作"的表示方法:只記錄手腕(或夾爪)在三維空間中的平移軌跡,徹底丟掉旋轉資訊。具體來說,他們把手腕在世界坐標系中的位置,投影到機器人頭部攝影機所觀察到的畫面坐標系裡,然後記錄手腕在接下來若干時間步內,相對於當前位置的位移變化。
用更生活化的方式理解:這就像用GPS導航只記錄"從當前位置向北走50米,再向東走30米",而不去管你走路時兩隻腳的姿勢或身體的朝向。導航關心的只是你的軌跡,不關心你的步態。同樣,這個"橋接動作"只關心手腕在空間中走了什麼路徑,而不關心手腕自身如何旋轉。
這個設計有三個直接好處。其一,平移資訊比旋轉資訊容易從影片中準確提取,噪聲小得多。其二,平移軌跡對人類和機器人來說具有相同的物理含義——都是在描述末端執行器在空間中的運動路徑。其三,不同夾持機構在相同任務中確實走相似的平移軌跡,這是動作本質的共性所在。
三、搭建"翻譯橋樑":讓人類數據和機器人數據在同一個模型里共存
光有這個橋接動作的概念還不夠。人類的數據通常只有平移資訊(因為旋轉資訊不可靠),而機器人要實際運動則需要完整的六自由度指令(三個位置分量加三個旋轉分量),還需要控制夾爪開合的離散信號。怎麼讓一個統一的模型同時處理這些來源不同、格式不同的數據,就成了第二個需要解決的工程問題。
研究團隊構建了一個基於大型視覺-語言-動作模型的系統,其架構思路借鑑自業內知名的π?模型。這個系統的工作方式可以用餐廳後廚的協作來理解:有一個"大廚"負責理解食材(視覺資訊和語言指令),把理解結果傳遞給"炒鍋師傅"(動作生成模組),由後者實際輸出具體的操作動作。
為了處理不同數據來源的動作格式差異,研究團隊設計了一種"交錯動作序列"的表示方式。每個時間步的動作被分成三段依次排列:第一段是三維平移的橋接資訊,第二段是完整的六自由度末端執行器動作,第三段是夾爪開合信號。對於人類數據,第二段和第三段可能缺失;對於機器人數據,三段都存在。通過在注意力機制中設置掩碼(可以理解為給某些內容貼上"請忽略"的標籤),模型在處理不同來源數據時能夠自動跳過缺失的部分,不會因為數據不完整而出錯。
這種設計的妙處在於,模型在學習人類數據時專注於理解三維平移軌跡所蘊含的操作意圖,而在學習機器人數據時則把這個意圖與實際的機器人控制指令關聯起來。三維平移資訊排在序列的最前面,是經過深思熟慮的:當模型生成六自由度機器人動作時,它可以"回頭看"已經生成的平移資訊,利用從人類數據中學到的運動知識來指導機器人動作的生成。
在訓練機器人數據時,研究團隊還採用了一個關鍵的數據增強策略:隨機地在訓練目標中加入平移資訊,或者直接用平移資訊替換六自由度資訊作為訓練目標。這個操作強迫模型建立橋接動作和可執行機器人動作之間的明確聯繫,就像反覆練習將中文翻譯成英文,才能在需要時自如地進行翻譯。
四、三階段訓練:從海量人類數據到精準機器人技能
整個訓練過程分三個階段推進,邏輯清晰,像是一個從寬泛到精準的學習路徑。
第一階段是在大規模人類動作數據上進行預訓練。研究團隊匯集了約600小時的人類手部操作數據:其中約70小時來自公開的EgoDex數據集(一個專門收錄第一人稱視角手部操作影片的數據集),約500小時是外包採集的自由形式家務操作影片,還有約45小時是在實驗室內用專業VR設備採集的數據。這一階段只訓練模型預測三維平移的橋接動作,不涉及任何機器人控制指令。目的是讓模型積累豐富的操作知識:手在空間中如何運動才算是在"打開微波爐",手在空間中如何運動才算是在"擦桌子"。
第二階段是人類數據與機器人數據的聯合訓練。研究團隊加入了約72小時的通用機器人抓取-放置操作數據(覆蓋100多種物品)以及每個任務約3小時的任務專屬實驗室人類操作數據。這一階段三種損失函數(平移、六自由度、夾爪)全部激活,模型開始學習如何把操作意圖轉化為實際的機器人控制信號。
第三階段是少量機器人數據的精調。研究團隊為每個任務採集了100條機器人遙操作軌跡,但在精調時每個任務只使用其中10條,專門研究預訓練對數據效率的提升效果。
五、實驗:15個任務,真實機器人,令人信服的結果
研究團隊在實際機器人平台上進行了系統評測。使用的是ByteMini雙臂移動操作機器人,配備兩條7自由度機械臂、兩個平行夾爪,以及安裝在頭部和兩個腕部的RGB-D攝影機。評測任務涵蓋15項不同難度的操作任務,按操作對象分為四組。
微波爐相關任務共6項,包括打開和關閉微波爐門、從微波爐中取出碗和放入碗、以及從左到右和從右到左擦拭微波爐頂面。抽屜相關任務共2項:打開和關閉抽屜。馬克杯與杯子相關任務共4項:將左側/右側馬克杯掛到杯架上,以及將左側/右側杯子疊放到另一個杯子上。其他任務共3項:將吸管插入杯中、從烤麵包機取出吐司放到盤子裡、以及拔出充電器。
每個任務在兩種不同的場景布置下各測試4次,合計8次試驗。評分標準分兩種:成功率(任務是否完成)和進度分(即便沒有完全成功,做到哪一步了)。進度分的設計讓評測更加細緻——哪怕機器人沒有完全打開微波爐門,只要它成功夠到了門把手,也能得到相應的分數。
結果首先驗證了橋接動作的必要性。僅用通用抓取-放置機器人數據訓練的模型在15項任務上表現極差,整體進度分約為0.21,成功率更低。引入人類數據並使用橋接動作聯合訓練後,整體進度分躍升至0.45,成功率達到0.22。在此基礎上加入大規模人類預訓練(第一階段),進度分進一步提升至0.60,成功率達到0.38。再加入每任務10條機器人精調數據後,整體進度分達到0.72,成功率達到0.60。
與此同時,研究團隊也直接對比了使用完整六自由度人類腕部動作(包含旋轉)與只使用三維平移的橋接動作。在聯合訓練中,六自由度人類動作對應的整體進度分僅有34.67%,成功率12.50%;而三維平移的橋接動作對應的整體進度分達到44.58%,成功率22.50%。定性觀察同樣清晰:使用六自由度人類動作時,機器人經常產生扭曲偏離的奇怪姿勢;使用橋接動作時,機器人的行為自然流暢,末端執行器能準確指向操作目標。
六、深入探究:預訓練、數據效率與上界分析
研究團隊還做了幾組補充實驗,回答了幾個有價值的追問。
關於人類預訓練如何提升少量機器人數據的利用效率:不經過人類預訓練直接用10條機器人數據精調,整體進度分為53.79%,成功率35.83%;經過人類預訓練再精調,整體進度分提升至71.21%,成功率達到55.00%。也就是說,即便機器人自己從來沒有"看過"可以實際執行的動作指令(預訓練階段只有平移資訊),光是學習了大量人類操作的平移軌跡,就已經為後續快速掌握完整機器人技能打下了堅實基礎。
關於訓練損失的分析:研究團隊比較了有無人類預訓練時,聯合訓練階段三種損失函數(平移、六自由度、夾爪)的收斂曲線。有趣的是,儘管人類預訓練只優化了平移損失,但從人類預訓練初始化的模型在聯合訓練時,六自由度和夾爪損失都比從零開始訓練收斂得更快、更低。這說明平移動作和六自由度動作在優化目標上具有天然的相似性——學好了平移,在學完整動作時事半功倍。
關於橋接動作自身的性能上界:研究團隊做了一個思想實驗,把任務專屬的機器人遙操作數據(每任務100條)也轉換成只包含平移資訊的格式,用與人類數據完全相同的訓練方式處理。這相當於消除了視覺差異(機器人有腕部攝影機,數據更完整)和動作噪聲(機器人數據比手勢估計精準得多)。結果顯示,這種"理想情況"下整體進度分可達73.54%,成功率55.83%,顯著高於使用真實人類數據的結果。這說明橋接動作本身作為知識遷移的媒介是有效的,當前性能的瓶頸主要來自視覺差異和人類動作數據的固有噪聲,隨著採集技術和視覺對齊方法的改進,還有相當大的提升空間。
七、局限性與失敗案例:誠實面對翻譯的代價
研究團隊沒有迴避這套方法的局限。最典型的失敗案例出現在"將吸管插入杯中"和"打開抽屜"這兩個任務上。前者需要精準地抓住一根細小的吸管,後者需要在握住把手後進行特定方向的腕部扭轉才能建立有效的拉力。這兩個任務的失敗恰好都指向同一個根源:旋轉資訊的缺失。
就像前面餐廳學徒的比喻——記錄路徑可以學會走到哪裡,但如果接下來需要做一個精確的旋轉動作(比如擰開瓶蓋),光靠路徑資訊就不夠了。研究團隊在結論中也明確指出,在未來工作中引入少量可靠的旋轉資訊是一個有價值的方向,目標是在保持大規模人類數據可用性的同時,補充那些確實需要旋轉資訊的操作技能。
此外,機器人在聯合訓練後對拾取薄片狀物體的能力有所下降,研究團隊將此歸因於視覺差異(人類和機器人看到的畫面角度不同)以及人類動作數據中不可避免的噪聲積累。
說到底,這項研究做的事情可以用一句話概括:找到了人類操作知識和機器人控制指令之間真正共通的那一部分——手在空間中如何移動——並以此為橋樑,讓海量廉價的人類操作影片真正能夠轉化為機器人的實用技能。這套方法不依賴昂貴的機器人演示數據,也不要求解決手部旋轉估計不準確的難題,而是乾脆把那部分不可靠的資訊丟掉,專注於可靠的、有意義的資訊。
對於普通人來說,這項研究意味著未來的家用機器人可能會通過觀看大量普通家務影片來習得技能,而不需要為每一個新任務單獨進行昂貴的機器人程序開發。當然,從實驗室演示到真正的家用場景還有相當長的路要走,但這個方向上的每一步進展都讓那個目標變得更加清晰可見。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.28133查閱完整論文。
Q&A
Q1:橋接動作(Bridging Action)到底是什麼意思,和普通機器人動作有什麼區別?
A:橋接動作是研究團隊提出的一種簡化的動作表示方式,它只記錄手腕在三維空間中的位置移動軌跡,去掉了手腕旋轉方向的資訊。普通機器人動作包含六個維度(三個位置加三個旋轉),而橋接動作只保留三個位置維度。這樣做的好處是人類和機器人在"手往哪裡移動"這件事上是一致的,而在"手朝哪個方向轉"這件事上由於夾持機構不同而存在根本差異,去掉旋轉資訊可以避免把錯誤的旋轉習慣從人類數據遷移給機器人。
Q2:為什麼從影片裡直接學習人類動作之前沒人這樣做過?
A:實際上已經有很多研究在嘗試從人類影片學習機器人技能,但主流做法是把人類手腕的完整姿態(包括旋轉)都提取出來直接讓機器人模仿。這項研究的新穎之處在於指出了旋轉資訊的兩個根本問題:一是影片中提取旋轉資訊本身就不準確,噪聲大;二是人類旋轉手腕的原因(配合手指抓物)和機器人夾爪的工作方式完全不同,直接模仿旋轉反而有害。去掉旋轉專注於平移,這個看似"退步"的決定反而帶來了更好的效果。
Q3:這套方法訓練出來的機器人能完成哪些任務,成功率大概是多少?
A:研究團隊在15個雙臂操作任務上進行了評測,包括開關微波爐門、從微波爐存取碗、擦拭台面、開關抽屜、掛杯子、疊杯子、插吸管、取吐司和拔充電器。在三階段完整訓練(大規模人類預訓練加聯合訓練再加每任務10條機器人精調數據)後,整體平均成功率約為60%,任務進度分約為72%。不同任務差異較大,微波爐開門等任務成功率可達100%,而插吸管等需要精確旋轉的任務成功率較低,約為20%。






