武漢大學等五所高校聯合研究：機器人能不能像人一樣「預見未來」？這個輕量級AI讓機械臂又快又准！

這項由武漢大學、上海創新研究院、東南大學、復旦大學和華東師範大學聯合開展的研究，以預印本形式於2026年6月發布在arXiv平台，論文編號為arXiv:2606.08242。感興趣的讀者可以通過這個編號檢索完整論文。

贊助商廣告

當你第一次看到機械臂在實驗室里靈活地抓取物品、完成一連串複雜動作時，可能會覺得這只是單純的"按指令執行"。但實際上，讓機器人真正理解任務、靈活應對變化，背後涉及一個極為前沿的問題：機器人能不能像人一樣，在動手之前就在腦海里"預演"接下來會發生什麼？

這項研究就聚焦於此。研究團隊提出了一個名為Light-WAM的系統——"WAM"是"World Action Model"（世界動作模型）的縮寫，而"Light"則意味著這套系統比同類技術輕巧得多。它的核心思路是：通過訓練機器人"預測未來影片"，讓它在腦子裡形成對物理世界的理解，進而做出更準確的動作；而在實際操控時，又能以極低的計算代價快速響應。整個框架僅有4.4億個可訓練參數（這是衡量AI複雜程度的指標，數字越小意味著越輕便），推理延遲只需72毫秒，峰值顯存占用僅4.1GB，相比同類方案效率大幅提升。

---

一、機器人的"腦子"是怎麼工作的

假設你是一個新來的快遞分揀員，第一天上班，你需要根據包裹的外觀、標籤和貨架位置，決定把它放到哪裡。你的腦子裡不只是在接收眼前的畫面，還在不斷預測：如果我把這個包裹這樣放，架子會不會倒？旁邊的包裹會不會滑落？這種"邊行動、邊預想未來"的能力，正是讓人類在複雜環境中遊刃有餘的關鍵。

機器人研究領域有一類技術叫做視覺語言動作模型（VLA），就像給機器人裝上了一雙"會看文字的眼睛"——它可以讀懂語言指令，也可以識別眼前的視覺場景，然後輸出具體的機械動作。然而，這類模型的局限在於，它們主要靠"當下這一幀"來做決策，缺乏對"接下來會發生什麼"的理解。

贊助商廣告

為了彌補這個缺陷，研究人員提出了"世界動作模型"（WAM）的概念。其核心邏輯是：在訓練機器人做動作的同時，額外要求它預測未來的影片畫面。這就好比不僅要求快遞員把包裹放對地方，還要求他提前畫出"放完之後貨架的樣子"。這種額外的練習，會逼著模型去真正理解場景中物體的運動方式、物體之間的關係，以及任務的進展狀態，而不是僅僅靠"記憶反射"來應付。

然而，現有的WAM系統存在一個令人頭疼的問題：為了做好這種"未來預測"，它們往往需要龐大的生成式架構，訓練成本極高，推理速度極慢，對硬體的要求也十分苛刻。這使得它們很難被部署在真實的閉環控制場景中——畢竟，機器人總不能等兩三秒才邁出下一步。

---

二、核心發現：測試時的"預想"其實可以省掉

研究團隊從一個關鍵洞察出發：既有研究已經表明，在實際運行時生成未來影片，對機器人的最終表現並沒有決定性的幫助。真正重要的，是在訓練階段通過"預測未來"這個任務，讓模型學會更豐富的世界表示。

用一個形象的比方來說：一個桌球運動員在練習時會大量分析對手的打法、預判球的落點；但在真正比賽的那一刻，他不會停下來分析，而是憑藉訓練積累的直覺直接反應。WAM的"未來預測"就像訓練中的分析環節，而不是比賽時的實時思考。

正是基於這個認識，研究團隊設計了Light-WAM：在訓練時保留"預測未來影片"的目標，充分利用其對表示學習的好處；在實際推理時，完全拋棄未來影片生成這個步驟，讓機器人直接根據當前觀測輸出動作。這一取捨使得系統在推理端變得極為輕便，同時又保留了WAM範式的核心優勢。

---

三、"壓縮版"的未來預想：潛空間中的輕量監督

研究團隊面臨的第一個工程挑戰是：即便只在訓練時保留影片預測，這個過程本身仍然消耗大量計算資源。生成高解析度的未來影片幀，需要處理海量的視覺token（可以理解為圖像被切成一小塊一小塊後的數字表示），計算代價極高。

贊助商廣告

研究團隊的解決方案是：在一個"縮小版"的空間裡做未來預測，而不是在原始解析度上進行。具體來說，他們先通過一個編碼器把影片畫面壓縮成緊湊的"潛變量"（latent，即高度濃縮的數學表示），然後對這個潛變量做2倍的空間下採樣，讓它變得更小。之後，影片預測分支就在這個更小的潛變量空間裡完成訓練監督。

這樣做的效果是：token數量大幅減少，訓練計算量隨之下降，但模型依然能通過這種壓縮版的未來預測，學到物體運動、場景變化的規律性知識。相當於學生做了很多簡化版的練習題，雖然題目比真題簡單，但核心能力依然得到了訓練。

至於實際控制用的"當前幀"輸入，則保留原始解析度，不做下採樣，確保機器人在執行動作時擁有足夠清晰的視覺資訊。這種"訓練時用縮圖、推理時用原圖"的非對稱設計，在節省訓練開銷的同時，並不犧牲操控精度。

---

四、聰明的"取讀"方式：多層狀態融合動作專家

Light-WAM的另一個重要創新，是它如何把影片理解模型的輸出轉換為機械臂的動作指令。這個模組叫做StateFusionActionExpert（狀態融合動作專家）。

研究團隊選用了Wan2.1-T2V-1.3B作為影片骨幹網路——這是一個專門為影片生成任務預訓練的大型Transformer模型，參數量約13億。它的能力很強，能夠理解影片中的時序變化和空間關係。為了讓它適配機器人任務而不破壞原有能力，研究團隊採用了LoRA（低秩適配，一種只訓練少量額外參數的技術，類似於給一套成熟軟體打上輕量化的功能補丁）對所有注意力層和前饋層進行微調，同時在模型的第8、16、24層各插入一個輕量級的"WAM適配器"（一個小型瓶頸MLP網路），為這些層額外增加機器人領域的適配能力。

這裡有一個很有意思的設計細節：研究團隊並不是只取最後一層的輸出來預測動作，而是同時取第8、16、24層的輸出。這就像一個廚師不僅品嘗最終端上來的菜，還會在炒到一半時嘗一下味道，在放調料之後再嘗一次——不同階段的中間狀態攜帶著不同層次的視覺資訊，淺層更關注低級紋理和邊緣，深層更關注高級語義和任務進度。把這些不同深度的表示綜合起來，能讓動作預測模組獲得更全面的視覺理解。

贊助商廣告

但直接把這三層的全部視覺token送給動作模組，又會產生大量冗餘資訊。為此，研究團隊為每一層都設計了一組可學習的"查詢向量"（每層16個），通過多頭注意力機制，讓這些查詢向量去"有選擇地"提取對應層中最重要的資訊，然後對所有查詢的輸出取平均，得到一個固定大小的緊湊表示。這個過程就像一群記者採訪了整個新聞發布會，然後各自挑出最重要的資訊匯總成一篇簡報。

隨後，三層的簡報分別經過投影，被拼接在一起，融合成一個6144維的統一狀態向量，再經過一個殘差MLP模組處理。最終，通過為每個動作步驟添加位置編碼，模型一次性輸出整個動作序列（即"動作塊"，action chunk），無需疊代去噪，整個動作分支的推理只需2.1毫秒。

---

五、實驗結果：又輕又快，還不差

研究團隊在兩個標準測試平台上評估了Light-WAM的表現。

第一個是LIBERO，這是機器人操控領域廣泛使用的基準測試，分為四個子任務集：空間任務（Spatial）、對象任務（Object）、目標任務（Goal）和長程任務（Long）。Light-WAM在沒有使用任何額外大規模機器人預訓練數據的情況下，四個子集的成功率分別達到98.2%、99.6%、97.8%和93.0%，平均成功率97.2%。這個成績在所有未使用大規模機身預訓練的方法中排名第一，在全部比較方法中排名第三，僅次於擁有53億參數的LingBot-VA（98.5%）和8B參數的Motus（97.7%）。值得一提的是，長程任務對所有方法都是最難的挑戰，更大的模型確實在這裡有優勢，這也是Light-WAM的相對短板。

第二個測試平台是RoboTwin 2.0，這是一個更具挑戰性的多任務評估環境——單個策略需要同時學習50種雙臂協作操控任務，還要應對隨機化的視覺條件和物理條件。Light-WAM在這裡取得了76.4%的平均成功率（乾淨場景76.4%，隨機化場景76.3%）。相比之下，Fast-WAM的成績是91.9%，使用了體身預訓練的LingBot-VA更高達92.2%，Motus有87.8%。Light-WAM的絕對成績雖然不及這些大模型，但在沒有體身預訓練的前提下，它超越了π0（62.2%）和X-VLA（72.9%），並與未使用體身預訓練的Motus（74.9%）相近。

贊助商廣告

效率方面的對比數據更加直觀。與Fast-WAM相比，Light-WAM將可訓練參數從60.2億壓縮至4.4億，降幅高達13.7倍；訓練吞吐量從每秒0.49步提升至2.08步，提升4.25倍；推理時峰值顯存從12.7GB降至4.1GB；推理延遲從404.62毫秒降至72.03毫秒。如果與需要同步生成未來影片的LingBot-VA相比，推理延遲差距更是達到40倍以上——LingBot-VA單次推理需要超過3秒，而Light-WAM只需0.072秒。

---

六、消融實驗：每個設計都有它的道理

研究團隊在LIBERO-Spatial子集上做了一系列對比實驗，專門驗證各個設計選擇的必要性。

關於影片監督的解析度：如果不做下採樣、保留原始解析度做影片監督，成功率會從98.2%提升到99.0%，說明更高解析度的監督確實能帶來更好的表示質量。但正如表3中的訓練效率數據所顯示的，全解析度影片監督會大幅推高訓練成本。研究團隊最終選擇2倍下採樣，作為性能與效率之間的平衡點。

關於適配器層數：把WAM適配器從3層增加到5層（設置在第4、8、16、20、24層），成功率幾乎沒有變化（從98.2%變為98.0%），說明在這個任務上稀疏三層已經足夠，增加更多適配器只會白白增加參數和計算量。

關於查詢數量：將每層的可學習查詢數量從16個減少到8個，成功率下降明顯，從98.2%降至95.4%。這說明查詢數量需要足夠多，才能從密集的視覺token中提取出足夠豐富的操控相關資訊。如果查詢太少，資訊瓶頸會過度壓縮視覺細節，導致動作預測出錯。

---

七、可視化分析：模型真的在"看"重要的地方

研究團隊還對模型的內部行為做了可視化分析，分為兩個部分。

第一部分是未來影片預測的效果。對於每個任務，他們比較了模型預測的未來幀與環境實際滾出來的未來幀（以t=+8、+16、+24、+32幀為時間節點）。預測畫面比真實畫面稍顯模糊，這是下採樣導致的自然結果，但主要的運動趨勢和場景變化都被正確捕捉到了——比如機械臂的運動軌跡、物體被推動後的大致位置變化。這說明影片預測分支確實學到了有意義的時序動態知識。

贊助商廣告

第二部分是可學習查詢向量的注意力可視化。研究團隊將第8、16、24層的查詢注意力權重投影回圖像坐標，生成熱力圖。有意思的是，三層的注意力焦點明顯不同：淺層（第8層）更關注被操控的物體本身，中層（第16層）的關注範圍擴展到夾爪區域，深層（第24層）則更多關注目標擺放位置等任務目標區域。這種層次化的注意力分工，正好和研究團隊多層融合的設計動機相吻合——不同深度的特徵確實攜帶著互補的視覺資訊。

---

八、真實機器人上的表現

除了仿真環境，研究團隊還在真實的雙臂機器人平台（IMETA Y1）上進行了測試，設計了三個實際操控任務：把紙球清入垃圾桶、疊碗後放入籃子、將水瓶遞入籃子。每個任務收集50條演示數據進行訓練，並與π0.5（一個強大的基線方法）在同等條件下做對比。

結果顯示，在"清紙球"任務中Light-WAM成功率80%，π0.5為67%；在"疊碗放籃"任務中Light-WAM為87%，π0.5為93%；在"水瓶遞接"任務中Light-WAM為60%，π0.5為53%。整體來看，兩種方法各有勝負，Light-WAM在真實世界場景中具有可用的操控能力，並未因為結構輕量而出現系統性退步。

---

說到底，Light-WAM這項研究回答了一個很實際的問題：機器人到底需不需要在每次行動前都"腦補"一遍未來？答案是不一定。關鍵的學習發生在訓練階段，當模型在訓練時反覆預測"接下來會發生什麼"，它就已經把對世界的理解內化成了自己的感知能力；到了實際操控時，它完全可以憑藉這種內化的直覺快速行動，不需要每次都重新"腦補"一遍。

這個思路帶來的收益是顯著的：推理速度快了5倍以上，顯存需求壓縮到原來的三分之一，訓練效率翻了四倍多，而任務成功率僅有有限下降。對於希望在真實硬體上部署機器人策略的工程師來說，這是一個非常值得關注的方向。

當然，研究團隊也誠實地指出了局限：在更複雜的多任務場景下，更大參數量的模型和大規模機器人預訓練數據依然有其不可替代的優勢；Light-WAM目前也沒有在專門測試魯棒性和泛化性的基準（如LIBERO-Plus）上進行驗證，未來還需要引入數據增強和魯棒性訓練來進一步提升表現。

贊助商廣告

對於想了解更多細節的讀者，可以通過arXiv編號2606.08242找到完整論文，代碼也已開源在GitHub上，搜索"L1ziang/Light-WAM"即可訪問。

---

Q&A

Q1：Light-WAM與Fast-WAM相比，具體節省了多少計算資源？

A：Light-WAM相比Fast-WAM，可訓練參數從60.2億降至4.4億，減少約13.7倍；訓練吞吐量從每秒0.49步提升至2.08步，提高4.25倍；推理時峰值顯存從12.7GB降至4.1GB；整體推理延遲從404毫秒縮短至72毫秒。這些改進使Light-WAM可以在消費級GPU上運行，推理延遲也滿足閉環控制的實時需求。

Q2：StateFusionActionExpert為什麼要從多個網路層取特徵，只用最後一層不行嗎？

A：不同深度的網路層攜帶不同層次的視覺資訊，淺層更關注低級紋理和邊緣，深層更關注語義和任務目標。實驗中注意力可視化也證實了三層的關注區域各不相同：第8層聚焦被操控物體，第16層關注夾爪，第24層關注目標位置。只用最後一層會丟失這些互補的中間層資訊，影響動作預測的準確性。

Q3：Light-WAM訓練時用的"影片下採樣"會不會讓機器人看不清細節？

A：影片下採樣只用於訓練階段的"未來影片預測"分支，目的是降低計算成本。在推理階段，機器人用於決策的"當前觀測幀"保留原始解析度，不做下採樣。消融實驗也顯示，使用原始解析度監督僅能將LIBERO-Spatial成功率從98.2%提升到99.0%，而訓練成本卻大幅上升，2倍下採樣是性能與效率的合理平衡點。