機器人「老手」+模擬世界「新兵」：KAIST與微軟亞洲研究院如何讓機械手臂從失誤中自我修正

這項由韓國科學技術院（KAIST）與微軟亞洲研究院（東京）聯合開展的研究，於2026年6月17日以預印本形式發布，編號為arXiv:2606.18953，感興趣的讀者可通過該編號檢索完整論文。

贊助商廣告

你有沒有見過一個廚師在廚房裡表演到一半突然卡殼的樣子？他平時什麼菜都能做，但今天就是差那麼一點點火候，湯勺舉在半空，就是放不到正確的位置。這種"明明會但偏偏做不好"的尷尬，正是當前機器人領域最棘手的難題之一。

現代的機械臂系統有一種叫做"視覺-語言-動作模型"（VLA，可以理解為機器人的"大腦"）的東西。這個大腦是靠學人類的操作影片來學會幹活的，就像徒弟看師父示範。問題在於，人類操作從來都不是百分之百精準的，而機器人在執行任務時，一點小偏差就會像滾雪球一樣越滾越大，最終讓整個任務徹底失敗。

KAIST和微軟亞洲研究院的研究團隊注意到了這個問題，並提出了一種聰明的解決方案：與其讓機器人大腦從頭開始重新訓練（既費錢又危險），不如給它配一個專門"糾錯"的小助手——而且這個助手只需要在電腦里的虛擬世界中練習，就能直接搬到真實機械臂上使用，完全不需要適應期。研究團隊在一台真實的Franka Research 3機械臂上驗證了這套方案，讓任務成功率從42%躍升至76%，這一結果令人印象深刻。

一、從"會做"到"做好"——機器人為什麼會卡殼

要理解這套方案究竟解決了什麼問題，先要搞清楚機器人的大腦是怎麼出錯的。

機器人大腦的學習方式，和人類看菜譜學做菜非常相似。研究人員讓人類操作員拿著機械臂做示範，機器人把這些示範記下來，之後就照著模仿。這種方法叫"模仿學習"，好處是不需要手把手編程，壞處是機器人只會模仿，不會隨機應變。

一旦現實環境和示範時的環境有哪怕一點點不同——桌子上的碗放歪了一厘米，光線角度不對，物體表面反光方式變了——機器人就會越來越迷糊，然後一步錯步步錯，最終整個任務都失敗了。就像一個學生把答題步驟背得滾瓜爛熟，但題目稍微換了個說法，他就完全不會了。

贊助商廣告

面對這個問題，研究人員自然會想到用強化學習（RL）來解決——這是一種讓機器人通過不斷嘗試、犯錯、調整來提升技能的訓練方式，類似於人類通過反覆練習來掌握騎自行車。但是，直接對現代VLA大腦做強化學習訓練有一個大麻煩：這些大腦通常用一種叫"擴散模型"或"流匹配"的方式來生成動作，這類方式在數學上不適合直接用強化學習來改造，就像你想給一台精密儀器換零件，但發現螺絲口根本對不上。

在真實機器人上做強化學習還有另一層風險——機器人在"摸索"階段會做出各種奇怪的動作，可能損壞設備，也可能傷人，成本和安全隱患都很高。

二、三條老路都走不通，那就另闢蹊徑

在這項研究之前，行業里已經有三條解決思路，但每一條都有致命缺陷，就像三條通向目的地的路，每條都有一段繞不過去的坑。

第一條路叫"蒸餾法"：在虛擬世界裡用擁有所有秘密資訊（比如精確的物體位置、接觸力等）的"老師"來訓練一個精確的糾錯策略，然後把這個策略"壓縮"傳授給只能看攝影機圖像的"學生"策略，再搬到真實機器人上。問題是，這種"知識壓縮"過程會有損耗，就像把高清影片壓縮成低畫質版本，細節不可避免地丟失了。

第二條路是直接用攝影機圖像訓練糾錯策略。但虛擬世界裡的圖像和真實世界的圖像差得太遠——虛擬世界裡的光影、材質、背景都是程序生成的，而真實世界裡有灰塵、反光、複雜背景。這種差距叫"視覺域間差異"，讓在虛擬世界練出來的策略根本認不出真實世界裡的東西。

第三條路是直接在真實機器人上做強化學習訓練。這樣自然不存在虛擬和現實的差距，但成本極高，而且每次機器人"探索"失敗都有損壞設備或發生事故的風險，就像為了學會開車而直接在高速公路上闖蕩。

三條路都走不通，研究團隊換了一個角度想問題：與其想辦法彌合虛擬和現實之間的差距，不如從一開始就選擇一種在兩個世界裡都能保持一致的"語言"來描述世界。

贊助商廣告

三、物體的"位置和姿態"——兩個世界通用的密碼

研究團隊發現，問題的根源在於糾錯策略"看世界"的方式不對。如果用攝影機圖像來看，虛擬和現實就是兩個完全不同的世界；但如果用物體的空間位置和朝向（研究者稱之為"6自由度物體姿態"，可以理解為物體在空間中的精確坐標加上它面朝哪個方向）來描述世界，那虛擬和現實之間的差距就幾乎消失了。

無論是虛擬世界還是真實世界，一個紅色方塊放在桌子上，它的位置和朝向就是那麼一個數字，描述方式是一致的。就像無論你是在地圖APP上還是現實中，北京天安門廣場的經緯度坐標永遠不變。

更妙的是，現實中確實存在成熟的工具可以從攝影機圖像中準確估計物體的位置和朝向。研究團隊使用了一個叫FoundationPose的工具來追蹤物體姿態，再加上SAM2來識別圖像中的具體物體，就能從真實攝影機畫面中實時提取出和虛擬世界完全對應的數字描述。

基於這個關鍵洞察，研究團隊設計了一套三階段的完整方案，他們將其稱為"以物體為中心的殘差強化學習框架"。

四、三個階段，把兩個世界的機器人連接起來

整個方案分為三個環環相扣的階段，就像一個接力賽，每個階段的成果都會傳遞給下一個階段。

第一階段的任務是打造一對"孿生大腦"。通常的做法是，讓人類操控員操作真實機械臂示範任務，然後用這些數據訓練真實機器人的大腦。研究團隊在這個基礎上多做了一步：把同樣的操作數據在MuJoCo虛擬物理引擎中的模擬環境裡重新"回放"一遍，再用回放數據訓練一個虛擬世界裡的大腦。這樣就得到了兩個用同樣數據、只是分別生活在真實和虛擬世界裡的"孿生大腦"。因為它們學的是同樣的操作動作，所以它們的行為習慣——包括犯錯的方式——也是高度相似的。

這個設計的精妙之處在於：虛擬世界不需要做得多真實、多好看。研究團隊只需要把物體的幾何尺寸量一量，在模擬器里用簡單的幾何形狀搭出來就夠了。虛擬世界裡的機器人看起來和真實世界裡的不一樣，但它們的動作習慣幾乎一致，這才是關鍵。

贊助商廣告

第二階段是在虛擬世界裡訓練糾錯助手。這個糾錯助手叫做"殘差策略"，它觀察三類資訊來做決策：第一類是物體的6自由度姿態，也就是任務中相關物體的空間位置和朝向；第二類是機械臂當前的狀態，比如末端執行器（機械手）的位置和夾爪是否張開；第三類是主大腦當前正在執行的動作指令。糾錯助手看著這三樣東西，計算出一個"修正量"，疊加到主大腦的動作上，讓最終的合成動作更準確。

糾錯助手使用TD3算法（一種成熟穩健的強化學習算法）進行訓練，通過在虛擬世界裡反覆嘗試和錯誤來學習。每個任務都設計了分階段的獎勵信號：比如"搬起物體"任務會依次給"接近物體""抓住物體""舉起物體"這幾個步驟分別提供獎勵，引導策略一步步學會完整流程。

為了讓這個在虛擬世界練出來的糾錯助手能直接用在真實機器人上，研究團隊還做了兩項專門的"抗干擾訓練"。一項是在訓練時給物體姿態數據加入隨機噪聲——每個時間步都對位置坐標加一個小隨機偏移，對朝向角度也加一個小隨機擾動，讓策略習慣於在不完全精確的姿態數據下也能做出正確判斷。這個噪聲幅度的設計參考了Intel RealSense D435深度攝影機的真實測量誤差範圍（約2.5至5毫米）。另一項是以10%的概率直接把全部物體姿態數據清零，強迫糾錯助手在看不到任何物體資訊的情況下，也能靠機械臂狀態和主大腦動作指令來做出合理的兜底行為。

第三階段是零樣本遷移部署。"零樣本"的意思是，糾錯助手在虛擬世界練好之後，直接搬到真實機器人上使用，中間沒有任何針對真實世界的額外訓練或調整。部署時，真實世界的主大腦接管了虛擬世界主大腦的位置，糾錯助手則保持不變。每一幀攝影機畫面都送入FoundationPose進行姿態追蹤，當姿態估計的置信度分數低於閾值時，系統自動把姿態數據清零，觸發糾錯助手訓練時學到的兜底策略。整個系統幾乎沒有額外的計算負擔：糾錯助手的前向推理只需不到1毫秒，姿態估計約18毫秒且是異步運行的，遠比主大腦約140毫秒的推理時間快得多。

贊助商廣告

五、五個任務，全面驗證方案有效性

研究團隊在五個桌面操作任務上系統驗證了這套方案，這五個任務覆蓋了從簡單到複雜的不同難度梯度。

第一個是"舉起方塊"：機械臂需要抓住桌上的一個方塊並舉高3厘米。這個任務難在精確對準和閉合夾爪的時機。第二個是"取放任務"：拿起一個方塊放進旁邊的碗裡，需要精確的軌跡控制。第三個是"疊放方塊"：把一個白色方塊疊放到另一個綠色方塊上，精度要求最高，因為兩個方塊的位置都需要追蹤。第四個是"關抽屜"：把一個打開的柜子抽屜推回去，關閉到位。第五個是"扶正杯子"：把橫躺在桌上的杯子抓起來豎立好，需要同時控制位置和朝向。

在這五個任務上，基礎VLA大腦（使用的是NVIDIA發布的GR00T-N1.5開源模型，在每個任務上各用30條真人示範數據微調）在真實機器人上的平均成功率是42%——也就是說，有超過一半的時候會失敗。加上糾錯助手之後，平均成功率升至76%。具體來看，"舉起方塊"從35%升至85%，"取放任務"從45%升至80%，"疊放方塊"從35%升至75%，"關抽屜"從70%升至100%，"扶正杯子"從25%升至40%。

值得關注的是，"扶正杯子"的改善幅度相對有限，從25%升至40%。這個任務最複雜，杯子在被握持過程中會遮擋自身，姿態追蹤容易失效，這也側面說明了方案目前的局限所在。

在虛擬世界的訓練曲線上，五個任務的糾錯助手都在約3萬至5萬步訓練後收斂到高成功率，且訓練結果在三次不同隨機種子下的重複實驗中都保持穩定，說明訓練過程是可靠的而非偶然。

六、對比試驗：為什麼只有"物體姿態"這條路走得通

研究團隊設計了一組對照實驗，系統比較了三種不同的觀察空間設計方案在真實機器人上的遷移效果。

以物體姿態為核心的方案在所有五個任務上都優於其他兩種方案。基於圖像的方案受到視覺域間差異的嚴重影響，它在虛擬世界裡練習時看到的畫面和真實世界裡完全不同，導致策略無法有效遷移。基於蒸餾的方案雖然可以在虛擬世界裡學到優秀的策略，但把知識從"特權資訊老師"壓縮給"只看圖像的學生"這一步會造成明顯的性能損耗，尤其在精度要求高的任務上損失更大。

贊助商廣告

在抗干擾訓練的消融實驗中，研究團隊分別去掉姿態噪聲注入和去掉姿態置零這兩種訓練方式來測試效果。結果發現，兩種機制都有貢獻，而姿態置零的作用更大——這說明真實世界裡姿態追蹤失效的情況確實經常發生，策略需要學會在沒有姿態資訊時也能合理行動。把兩種機制都去掉之後，"關抽屜"任務的成功率從100%下降至80%，疊放方塊從75%下降至45%，說明抗干擾訓練對於成功的零樣本遷移至關重要。

七、糾錯助手到底在"修什麼"

研究團隊還仔細分析了糾錯助手在實際部署中的行為模式，這部分分析頗具說服力。

通過計算糾錯助手每一步的修正方向與"當前位置到目標位置"這個理想方向的餘弦相似度，研究人員發現：當主大腦的動作方向與理想方向偏差較大時，糾錯助手的修正量會顯著增大，而當主大腦表現正常時，糾錯助手的修正量則接近於零。換句話說，糾錯助手不是不分青紅皂白地一直在改，而是有選擇性地在關鍵時刻出手。這種"選擇性糾錯"行為意味著它不會破壞本來就做得好的動作。

此外，加上糾錯助手之後，五個任務的完成所需步驟數全部減少，減少幅度在9%至22%之間。機器人動作更果斷，不再反覆徘徊或調整，完成任務的路徑更直接高效。

更有趣的是，研究團隊還發現糾錯助手在訓練過程中自發習得了一些人類示範數據里完全沒有的行為。比如在舉起方塊任務中，糾錯助手會在機械手下降去抓方塊之前，先給方塊一個小推動讓它轉到更容易被抓住的朝向——這是人類示範員從未演示過的策略。在疊放方塊任務中，如果主大腦的抓取動作對準不精確，糾錯助手會引導夾爪主動"推"向方塊來彌合偏差。在關抽屜任務中，糾錯助手學會了在推抽屜的後期保持向下的接觸力，避免主大腦有時會提前抬起的問題。這些湧現出的行為說明強化學習探索能夠自發發現超越人類示範的解決策略。

贊助商廣告

八、讓機器人用自己的經驗教會自己

這套方案的價值不僅僅在於當下的任務成功率提升，研究團隊還探索了一種"自我改進"的循環。

想一想這個場景：糾錯助手幫助機器人成功完成了很多次任務，這些成功的完整操作過程被記錄下來。這些由糾錯助手輔助產生的高質量操作數據，可以被直接用來重新訓練原本的主大腦VLA，就像一個徒弟在高水平助手的幫助下積累了更多成功經驗，回頭整理這些經驗來提升自己的基本功。

實驗結果證實了這個思路的有效性。用糾錯助手輔助產生的成功軌跡重新訓練主大腦之後，主大腦的獨立成功率從42%提升至59%，而且完成任務所需的平均步驟數從275步減少到196步。相比之下，用未加糾錯助手的普通成功軌跡來重訓，只能把成功率提升至47%，改善幅度明顯更小。這說明糾錯助手產生的軌跡質量更高，給主大腦提供了更好的學習素材。

更實際的意義在於，由於五個不同任務的成功軌跡可以合併在一起訓練同一個多任務主大腦，整個自我改進過程完全不需要人類重新進行任何額外的操作示範。這套系統可以靠自己積累的經驗不斷進化。

九、這套方案是否只對特定機器人大腦有效

一個合理的疑問是：這套糾錯框架是否只適合與特定的主大腦大模型配合使用？為了回答這個問題，研究團隊還用了另一個不同架構的VLA大腦——Physical Intelligence公司開發的π0.5——來測試方案的通用性。

在三個測試任務（關抽屜、舉起方塊、扶正杯子）上，π0.5本身已經是一個更強的基礎大腦，但加上糾錯助手之後仍然有穩定的提升。這說明以物體姿態為中心的觀察接口與主大腦的內部架構無關，可以靈活搭配不同的基礎模型使用。

當然，研究團隊也坦誠地指出了方案目前存在的局限。物體被完全遮擋時（比如方塊被完全握在夾爪里）或者場景特別雜亂時，姿態追蹤可能失效；目前哪些物體需要被追蹤需要人工指定，無法自動識別任務中的相關物體；虛擬和現實之間的物理特性差異（比如摩擦力、材質彈性）在接觸密集的任務中仍可能導致修正不準確；以及對於精度要求達到毫米以下級別的任務，當前的姿態估計精度可能不夠用。這些都是未來工作的方向。

贊助商廣告

說到底，這項研究用一種相當優雅的方式繞開了機器人領域長期以來的一道難題。過去大家都在絞盡腦汁想怎麼把虛擬世界的圖像弄得跟真實世界更像，或者怎麼把"虛擬世界才有的資訊"翻譯給"只能看攝影機的策略"，但這項研究另闢蹊徑，找到了一種在兩個世界裡天然通用的描述方式——物體的空間位置和朝向——並以此作為連接兩個世界的橋樑。

這套思路也給更廣泛的機器人應用帶來了值得思考的啟示：當直接彌合兩個世界的差距非常困難時，換一種本質上就不存在差距的描述方式，也許才是真正的捷徑。對於那些希望在不同環境中部署通用機器人助手的場景，無論是家庭服務還是工廠自動化，這套框架提供了一條在安全性和成本上都更可行的技術路徑。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2606.18953查詢這篇論文，其中包含了完整的算法偽代碼、超參數設置、獎勵函數設計以及失敗案例分析等豐富的補充內容。

Q&A

Q1：物體姿態估計失敗了會怎麼樣，機器人會失控嗎？

A：不會失控。研究團隊專門設計了一種"姿態置零"的訓練機制，以10%的概率在訓練時把所有物體姿態數據清零，強迫糾錯助手學會在沒有姿態資訊時也能依靠機械臂狀態和主大腦指令做出合理動作。部署時，當FoundationPose的置信度低於閾值時，系統自動觸發這種兜底模式，機器人會退回到主大腦獨立控制的狀態，雖然成功率會降低，但不會發生危險行為。

Q2：這套方案每個新任務都要重新在虛擬世界裡訓練一遍嗎？

A：目前是的，每個任務需要單獨訓練一個糾錯助手。不過訓練成本相對較低：虛擬環境只需要測量真實物體尺寸後用簡單幾何形狀搭建，不需要視覺逼真度；訓練數據來自相同的人類示範回放；而且研究發現訓練約3至5萬步就能收斂。多個任務的糾錯助手可以分別訓練，產生的成功軌跡可以合併來訓練同一個多任務主大腦，實現跨任務的自我改進。

贊助商廣告

Q3：殘差強化學習和直接對VLA大腦做強化學習有什麼區別，為什麼不直接改VLA大腦本身？

A：直接對VLA大腦做強化學習有兩個核心障礙。第一，現代VLA大腦通常用擴散模型或流匹配來生成動作，這類生成方式在數學結構上不適合直接套用標準的策略梯度強化學習算法，就像兩種工具的接口不兼容。第二，VLA大腦參數量龐大，用強化學習更新需要極大的計算資源。殘差方案完全繞開了這兩個問題：主大腦凍結不動，只在旁邊訓練一個輕量級的兩層MLP網路作為糾錯助手，推理只需不到1毫秒，訓練效率高且靈活。