復旦大學、上海交大聯手攻克機器人「眼手協調」難題：讓AI真正理解動作背後的物理世界

這項由復旦大學數據科學學院、上海創新研究院、上海交通大學和麥吉爾大學聯合開展的研究，於2026年6月28日發布在預印本平台arXiv，論文編號為arXiv:2606.29501。研究團隊提出了一套名為A2World的機器人世界模型框架，系統性地探索了如何讓機器人不僅能"看懂"世界，還能真正理解動作與後果之間的物理聯繫。

贊助商廣告

當你伸手去抓一杯水，你的大腦在手還沒接觸杯子之前，就已經在腦海中預演了整個過程：手指會怎麼彎曲、杯子會如何移動、水面會不會晃動。這種"預演未來"的能力，是人類處理物理世界時最基礎也最關鍵的本能。對機器人而言，擁有類似的能力，意味著它不再只是按照固定程序執行動作，而是真正理解"我這樣動，世界會發生什麼變化"。這正是A2World框架想要賦予機器人的能力——一種可以跨越不同機器人形態、不同場景、不同任務遷移使用的"動作-物理世界"理解能力。

一、機器人為什麼需要一個"腦海中的世界模型"

當前主流的機器人控制方法大致走向兩條路。一條路是訓練機器人直接從攝影機畫面學會如何輸出控制指令，這類方法叫做視覺-語言-動作策略，機器人就像一個熟練的廚師，看到食材就知道該怎麼切、怎麼炒。另一條路是讓機器人先在"腦海中模擬"世界會發生什麼，再根據模擬結果決定動作，就像一個棋手在落子之前先在腦中推演幾步棋局。

兩條路各有其優勢和局限。直接輸出動作的方法響應快，但缺乏對物理規律的深層理解，換個場景就容易失效。模擬世界的方法理論上更通用，但現有研究往往存在一個共同問題：它們要麼從通用的影片生成模型出發，沒有在真實機器人動作數據上認真"磨合"；要麼只在單一數據集上訓練，見識的機器人形態太少、場景太窄，就像一個只見過廚房的廚師，去到醫院手術室就不知所措了。

更關鍵的是，即便有研究做了大規模預訓練，往往也只瞄準某一個下游任務去優化，比如專門為了做策略評估，或者專門為了生成控制指令，而不是設計一個能被反覆"借用"的通用物理知識庫。這就好像每家餐廳都從頭培訓廚師，卻從來不建立一套可以在不同餐廳之間復用的烹飪基礎課程。

贊助商廣告

復旦大學的研究團隊看到了這個空白。他們提出了一個核心觀點：動作，是理解物理世界最天然的監督信號。無論機器人長什麼樣、手臂有幾條、在哪個房間工作，"向前推一個物體"背後的物理規律是一致的——物體會沿著推力方向移動，接觸面會產生形變或位移。如果能讓模型在大量真實動作與對應視覺變化的配對數據上反覆學習，它就會逐漸內化這些物理規律，形成一種可遷移的"動作-世界"知識。

二、兩百萬條軌跡數據，搭建機器人世界的"動作百科全書"

為了實現這個想法，研究團隊首先做了一件紮實的基礎工作：收集並整理了規模龐大的機器人操作數據集。最終匯總的數據覆蓋了超過210萬條機器人操作軌跡，涵蓋20多種不同形態的機器人，數據來源橫跨AgiBot、DROID、OPEN-X、InternData等多個公開高質量數據集，以及Galaxea和RoboCoin等新興平台的數據。

這些數據的多樣性極為驚人。參與訓練的機器人包括單臂的Franka、雙臂的Genie-1、輪式移動的WidowX，以及Unitree G1等雙足機器人平台，涉及的任務從簡單的抓取擺放，到精密插接、操作鉸接物體，再到處理柔性形變物體，應有盡有。攝影機視角既有固定的第三人稱視角，也有安裝在機器人手腕上隨動的第一人稱視角。

面對如此多樣的數據，研究團隊做了一個聰明的統一化處理：將所有機器人的動作表示統一成"雙臂格式"，每條手臂用7個數字描述（末端執行器的位置、姿態和夾爪狀態）。對於單臂機器人，缺失的那條手臂直接用零補位。這種處理方式避免了為每種機器人單獨設計動作編碼方案，讓模型能夠在統一的語言體系下理解所有機器人的行為。

在訓練過程中，還有一個細節處理頗為講究：由於不同數據集的攝影機擺放方式差異巨大，如果把所有數據混在一起隨機抽取，模型可能會被混亂的視角資訊搞糊塗。因此團隊採用了"數據集一致性批次"策略，每次訓練時一個批次內的數據只來自同一個數據集，保證視角資訊的一致性，就像在學廚藝時，先把中餐的所有基本功練紮實，再去學法餐，而不是今天切菜用法式刀法、明天又換回中式菜刀。

贊助商廣告

三、A2World的核心設計：讓模型真正"看懂"動作指揮視覺變化

有了數據之後，研究團隊需要設計一個能充分利用這些數據的模型架構。A2World的基礎架構選用了DiT（擴散變換器，一種在圖像和影片生成領域表現出色的神經網路結構），並在此基礎上做了三項關鍵設計。

第一項設計是動作條件化注入。通俗地說，就是讓模型知道"接下來要發生什麼動作"，從而預測視覺場景會如何變化。具體做法是將動作序列（一個包含未來20步機器人動作的時間序列）通過一個小型神經網路編碼成一個緊湊的特徵向量，然後將這個向量疊加到模型內部用於控制生成過程的"時間步嵌入"上。這樣，模型的每一層都能感知到當前動作，就像一位導演通過耳機實時給攝影師指示——"鏡頭向左轉30度，推進聚焦"，攝影師的每一幀畫面都在響應這些指令。

第二項設計是多視角聯合生成。現實中的機器人操作台往往配備了多個攝影機，既有從工作檯正面拍攝的全局視角，也有安裝在機器人手腕上的近距離視角。研究團隊將多個視角的影片幀在時間維度上拼接成一個整體序列，統一放入模型處理，並為每個視角分配一個可學習的"身份標籤"，讓模型知道哪些幀來自哪個攝影機。更重要的是，在模型的每個處理層中，都插入了"跨視角注意力模組"——來自視角A的資訊可以直接影響視角B的生成，反之亦然。這確保了不同攝影機拍到的畫面在物理上保持一致，不會出現正面視角顯示機器人夾起了杯子、側面視角卻顯示杯子還沒動的矛盾情況。

第三項設計是模型不依賴"偽動作標籤"。一些現有研究在沒有真實動作標註的影片數據上工作，需要先訓練一個輔助模型去推測"可能發生了什麼動作"，然後用這些猜測出來的偽標籤來訓練世界模型。這就像讓一個廚師先猜測食譜，再按照猜測的食譜來學廚藝——誤差會層層疊加。A2World直接使用真實的機器人動作標註數據進行訓練，去掉了這個中間環節，使得學到的物理知識更加準確可靠。

贊助商廣告

四、從"基礎課程"到兩種不同的"專業應用"

A2World完成預訓練之後，就像一位掌握了紮實物理基礎的工科畢業生，可以在此基礎上走向兩條截然不同但同樣重要的職業方向。研究團隊將這個預訓練權重作為出發點，分別衍生出了A2World-sim（面向仿真模擬）和A2World-policy（面向控制策略）兩個下游版本。

A2World-sim的目標是成為一個可以取代真實機器人測試的"虛擬試驗台"。現實中，要測試一個機器人控制策略的效果，通常需要讓真實機器人反覆執行任務，這不僅耗時耗力，還存在損壞設備的風險，就像新司機每次練車都必須上真實道路，既危險又占用公共資源。如果有一個高質量的虛擬仿真環境，機器人策略就可以在其中進行大量"虛擬練習"，再把表現好的策略拿到現實中驗證。

要讓A2World成為一個可以長時間運行的模擬器，需要解決一個核心挑戰：它本身只能預測從當前幀往後20幀的畫面，而完整的一次機器人操作任務可能需要幾百幀。為此，A2World-sim採用了"滾動預測"的方式——生成了前20幀之後，把這些幀加入歷史記錄，再基於歷史記錄和下一段動作預測下一個20幀，如此循環，就像一個短途接力跑，每個隊員負責一小段，整個隊伍完成全程。

但這種接力方式帶來了一個新問題：如何聰明地利用歷史記錄？如果只保留最近的幾幀，可能會遺漏重要的狀態資訊（比如幾秒前機器人剛剛放下的一個物體）；但如果保留所有歷史幀，計算量會急劇膨脹。研究團隊設計了一種"基於姿態引導的歷史採樣"方法——根據機器人末端執行器在歷史時間段內走過的路徑弧長，均勻地從歷史中選取最具代表性的幀。這就像在回顧一次長途駕車的路線時，不是每公里都拍一張照片，而是在每個重要轉折點、爬坡點、停靠點各拍一張，用最少的照片還原最完整的旅程軌跡。

具體來說，對於單臂機器人，會計算每個相鄰時刻之間末端執行器的位移和旋轉變化量，將其合併成一個"運動步長"，然後把整個歷史時間段按照累積步長均勻分割，選取最接近各分割點的幀。對於雙臂機器人，則同時考慮左右兩臂的運動量，將兩者的貢獻疊加後再進行相同的採樣邏輯。經過這種篩選的歷史幀通過兩條並行的通道注入模型：一條是通過"交叉注意力"機制，讓待生成的幀直接關注歷史幀的內容；另一條是將歷史幀的資訊注入自注意力機制的記憶池，讓模型在生成新幀時能隨時"查閱"歷史狀態。

贊助商廣告

為了讓A2World-sim在長時間滾動預測中保持穩定，不因早期的微小誤差而逐漸漂移崩潰，訓練時還引入了"自我強迫"技術：訓練期間有時故意將上一輪模型自己生成的幀作為條件輸入，而不是總是使用真實數據中的完美幀。這樣，模型會學會在面對自身生成的、略有瑕疵的幀時如何繼續保持合理的預測，而不是只能處理教科書般完美的輸入——就像一個學生不僅要會做標準題，還要練習如何在前一步算錯的情況下繼續往下推導並儘量減小誤差。

五、A2World-policy：讓動作理解直接轉化為控制能力

A2World-policy走向了另一條路，目標是直接用來控制機器人完成任務。與A2World-sim相比，它不再接收外部給定的動作序列，而是需要自己決定下一步該怎麼動。

在架構設計上，A2World-policy保留了A2World的視覺生成骨架，同時在旁邊接上了一個動作生成分支，形成一個"Y字形"的聯合預測結構。視覺部分和動作部分共享同一套自注意力機制，彼此可以相互交流資訊——視覺分支在生成未來畫面的同時，也在向動作分支傳遞"世界將會發生什麼變化"的信號，動作分支利用這些信號來精確計算應該輸出什麼動作。研究團隊把這種結構類比為"混合專家"模型（MoE），因為兩個分支共享注意力"專家"進行跨模態交流，同時各自保留獨立的"層歸一化"和"前饋網路"分支，分別處理各自的細節。

在訓練時，視覺分支和動作分支的噪聲擾動是分別獨立施加的，但會按照一個固定的比例從同一個基礎噪聲水平縮放而來——視覺分支的噪聲水平是基礎值的√6倍，動作分支的噪聲水平是基礎值的0.5倍。這種設計讓兩個分支在學習時各有側重，但又保持著內在的同步聯繫，就像鋼琴的左手和右手練習同一首曲子，速度可以不同，但節拍是統一的。

在推理（實際使用）時，系統接收一張初始場景圖像和一條語言指令（由預訓練的T5文本編碼器處理），同時生成未來的場景影片和對應的動作序列。用戶可以分別調整視覺生成和動作生成的"引導強度"，在視覺逼真度和動作準確性之間靈活權衡。

贊助商廣告

六、實驗驗證：數字背後的真實能力

研究團隊從多個角度對A2World及其兩個衍生版本進行了全面測試。

在基礎世界模型的生成能力展示上，團隊使用了未參與訓練的真實機器人數據進行測試。在DROID數據集上，從同一張初始觀測幀出發，給定不同的動作序列，A2World可以成功模擬機器人去抓取紅色勺子、藍色碗，或者模擬抓取失敗時的場景——這說明模型確實在響應動作輸入，而不是簡單地生成"成功的樣子"。在RoboCoin數據集上，研究人員給出了從未出現在訓練數據中的純粹腳本化控制指令（比如"左臂向右平移20厘米，同時右臂繞X軸旋轉10度"），A2World依然能夠在多個視角下生成物理上自洽的場景影片。在RoboMind和VIOLA兩個完全未見過的數據集上（攝影機擺放方式和場景均與訓練數據完全不同），生成的影片依然合理連貫，顯示出良好的泛化能力。

在A2World-sim的滾動預測質量評測中，研究團隊與三個基線方法進行了對比：在廣泛影片數據上用文本條件預訓練的Cosmos-Predict2、使用DROID數據多視角預訓練的Ctrl-World，以及具備動作條件化但只處理單視角的Prophet。評測指標不只是圖像質量，還額外引入了基於光流的動作保真度指標——衡量生成影片中物體的實際運動方向和幅度與輸入動作的匹配程度。在LIBERO仿真數據集上，A2World-sim在所有五項指標（PSNR、SSIM、tSSIM、EPE、cos）上均優於所有基線。在真實機器人數據集（Flexiv Rizon雙臂平台）上，這一優勢得到延續。進一步在RoboNet數據集上與傳統影片預測方法（MaskViT、iVideoGPT、SAMPO）對比，A2World-sim在FVD（影片質量綜合指標）上達到146.1，遠優於第二名的175.3。

在超出訓練分布的場景遷移測試中，團隊在LIBERO上完成微調後，直接去測試LIBERO-Plus Spatial（一個引入了背景變換、攝影機角度變化、光照變化等多種分布偏移的擴展版本）。與DreamDojo相比，A2World-sim在動作保真度指標EPE上從0.2738降低到0.1301，提升幅度明顯。定性比較進一步顯示，DreamDojo在藍色背景的新場景中會逐漸向訓練時見過的原始背景"漂移"，而A2World-sim能更好地保持新場景的視覺特徵。

贊助商廣告

最關鍵的驗證來自真實機器人測試台的策略評估實驗。研究團隊讓不同的控制策略在A2World-sim中進行虛擬閉環測試（機器人策略每一步輸出動作，A2World-sim根據動作生成下一幀，策略再從新幀中讀取觀測值，如此循環），統計虛擬成功率，然後與同一策略在真實機器人上的實際成功率進行對比。橫跨5個不同難度的任務、共8個數據點，虛擬成功率與真實成功率之間的斯皮爾曼秩相關係數達到0.916，皮爾遜相關係數達到0.965，決定係數R?達到0.930。用通俗的話說，如果一個策略在虛擬環境裡表現好，那它在現實中八九不離十也會表現好，反之亦然。這意味著研究者可以在大量策略中用虛擬測試快速篩選，只把最有希望的策略送上真實機器人驗證，大幅降低硬體損耗和時間成本。

在A2World-policy的策略性能評測上，研究團隊首先在機器人學習領域常用的LIBERO基準測試（包含Spatial、Object、Goal、Long四個子任務集）上進行了全面評測。A2World-policy的平均成功率達到98.6%，在與Diffusion Policy（72.4%）、π0（94.2%）、Cosmos Policy（98.5%）等多個強基線方法的比較中取得了最高分。

在分布外遷移能力的評測（即在LIBERO上訓練後去LIBERO-Plus Spatial上測試）中，研究團隊設計了四個對照版本：直接從Cosmos-Predict2初始化（C-init，80.2%）、用文本條件替代動作條件進行相同規模預訓練（T-pre，85.8%）、使用標準動作條件A2World預訓練（A-pre，88.5%），以及同時預訓練影片和動作的策略針對性版本（P-pre，88.6%）。A-pre與P-pre幾乎持平，卻明顯優於T-pre和C-init。這說明動作條件預訓練所帶來的物理世界知識，在遷移到新的視覺分布時提供了比文本條件預訓練更堅實的基礎。而且，動作預訓練得到的權重是兩用的——同一套權重既可以轉化為A2World-sim（用於策略評估），也可以轉化為A2World-policy（用於策略執行），無需為兩個用途分別設計預訓練流程。

贊助商廣告

在真實機器人測試平台上，研究團隊用兩台Flexiv Rizon 4S雙臂機器人完成了五項真實操作任務的評測，這五項任務分別是：插入RAM內存模組、翻轉小箱子、撥動電源開關、高舉大箱子，以及將柔性鏈條放入箱子中。這五項任務覆蓋了精密接觸操作、鉸接物體操作和柔性形變物體操作等多種典型的操作難題。評測由數據採集團隊的操作員作為第三方獨立執行，採用統一標準化的協議。A2World-policy在平均成功率上全面超越了π0.5和LingBot-VA，尤其在"將鏈條放入箱子"這種需要多個階段精確配合的長任務上差距最為顯著，那兩個基線系統往往在早期階段就卡住了，而A2World-policy能夠完成整個包括放入鏈條和關閉箱蓋在內的完整操作序列。

七、關鍵消融實驗：哪些設計真正起作用

研究團隊進行了幾項針對性的消融實驗，驗證設計選擇的有效性。

在歷史採樣策略的對比實驗中，不注入歷史資訊（即每次滾動預測只依賴當前幀）、使用滑動窗口只保留最近幾幀，以及使用姿態引導弧長均勻採樣這三種方案在LIBERO上進行了比較。姿態引導採樣在PSNR（25.41→26.64）、SSIM（0.8806→0.8957）、動作保真度EPE（0.3969→0.3498）上均有明顯提升，證明了選擇運動資訊豐富的歷史幀而非簡單堆砌最近幀的重要性。

在預訓練方式對策略性能影響的對比實驗中，四種初始化方式（C-init 97.0%、T-pre 97.4%、A-pre 98.6%、P-pre 98.8%）的LIBERO成功率差距雖然不是非常懸殊，但在分布外遷移任務上的差距（80.2%對比85.8%對比88.5%對比88.6%）更能說明問題：動作條件預訓練給模型植入的是對物理規律的理解，這種理解在面對新場景時展現出更好的魯棒性。

在影片生成與動作生成的耦合關係實驗中，研究團隊繪製了訓練過程中影片一致性（用光流餘弦相似度衡量）與動作質量（綜合平移誤差、旋轉誤差和夾爪狀態誤差）的關係散點圖。完整聯合訓練的A2World-policy版本，隨訓練推進形成了一條從左下向右上延伸的軌跡——影片生成越來越好的同時，動作預測也越來越准。凍結影片分支只訓練動作分支的變體，則在更低的水平上形成了一條幾乎停滯的軌跡（最終策略成功率86.2%對比完整版98.6%）。這說明視覺理解能力和動作控制能力並不是互相競爭的，而是互相促進的——一個更好地理解"世界將如何變化"的模型，自然也更好地知道"應該怎麼動才能讓世界發生期望的變化"。

贊助商廣告

說到底，這項研究給機器人領域提出並驗證了一個聽起來直白但執行起來頗具挑戰性的主張：用真實的動作來監督對世界的理解，比用文字描述或者間接猜測更有效。當模型在數百萬次"這個動作——對應這個視覺變化"的配對中磨礪之後，它積累的不是某個特定機器人、某個特定場景的經驗，而是更接近於物理世界運行規律本身的知識。這種知識像一把萬用鑰匙，既能開"虛擬仿真"這把鎖，又能開"策略控制"這把鎖，而不需要為每把鎖單獨打造一把鑰匙。

歸根結底，機器人要真正走入複雜的現實生活，不只需要更大的算力或更多的數據，還需要以正確的方式理解動作與物理後果之間的因果關係。A2World框架在這條路上邁出了系統性的一步。當然，目前的系統仍然有明顯的局限——預訓練數據幾乎全部來自桌面操作任務，對於更複雜的全身運動、室外環境或人機協作場景，能否保持同樣良好的遷移效果，還有待進一步驗證。影片生成的計算開銷也意味著實時閉環控制在某些場景下仍需要額外的工程優化。這些都是未來值得繼續探索的方向。有興趣深入了解完整技術細節的讀者，可以通過arXiv編號2606.29501查閱原始論文，研究團隊也在GitHub上（LogosRoboticsGroup/A2World）開放了項目主頁。

Q&A

Q1：A2World是什麼，和普通的機器人控制有什麼不同？

A：A2World是一個動作條件化的世界模型，核心區別在於它不是直接從圖像輸出動作指令，而是先學會預測"執行某個動作後世界會變成什麼樣子"。普通控制方法像是熟練工人憑經驗操作，A2World更像是讓機器人在腦海中先演練一遍再動手，並且這種"演練能力"可以在不同機器人和不同場景之間遷移復用。

Q2：A2World-sim能否完全替代真實機器人測試？

A：目前還不能完全替代，但在研究團隊的實驗中，虛擬仿真成功率與真實機器人成功率的相關性極高（R?=0.930），說明它是一個非常可靠的初步篩選工具。實際使用中，可以先用A2World-sim大量篩選策略，再把最有希望的候選方案送上真實機器人做最終驗證，從而大幅節省硬體損耗和測試時間。

贊助商廣告

Q3：動作條件預訓練相比文本條件預訓練到底好在哪裡？

A：實驗對比清楚地顯示，在新場景的遷移測試（LIBERO-Plus Spatial）上，動作條件預訓練（A-pre）的平均成功率達到88.5%，明顯高於文本條件預訓練（T-pre）的85.8%。原因在於，給定當前觀測和一個動作序列，未來視覺狀態基本是確定的；而給定一條文本指令，對應的合理動作序列可能有很多種，預訓練目標更模糊，學到的物理規律不夠精準，在面對新場景時魯棒性更差。