上交大聯手騰訊機器人X實驗室：機器人學會「腦補結局」，動作更准更快！

這項由上海交通大學、東方理工大學、騰訊機器人X實驗室、清華大學及中關村學院聯合完成的研究，以預印本形式發布於2026年6月17日，arXiv編號為2606.19531，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

機器人為什麼總學不會"好好幹活"？這是機器人研究圈近年來反覆被追問的一個問題。不是機器人不努力，而是讓它們理解世界、做出正確動作的方式，從根本上就存在一個浪費資源的老毛病。研究團隊在這個方向上提出了一套全新的思路，叫做ImageWAM，它的核心理念可以用一句話概括：機器人不需要在腦子裡放一段完整的"預告片"，只需要"腦補出任務結束時的那張照片"就夠了。

**一、機器人的"腦補煩惱"：為什麼以前的方法太重了**

先從頭說起。現代智能機器人要完成一項任務，比如把一雙鞋子放進箱子裡，它需要兩件東西：一是"看懂"當前的場景，二是"想清楚"接下來要怎麼動手。後一步，也就是"想清楚"的部分，研究圈裡最流行的方法，是讓機器人在腦子裡"播放一段未來的影片"——先生成未來幾幀畫面，再根據這段想像出來的影片決定動作。

這個思路聽起來很合理，就像一個熟練的搬運工在動手之前會在心裡預演一遍操作過程。但問題在於，生成一整段影片的代價實在太大了。為了畫出那段未來影片，機器人必須操心每一幀畫面的背景顏色對不對、桌子的木紋有沒有變、燈光的陰影角度是否一致……而這些細節，和它下一秒要不要伸手、伸多遠、朝哪個方向，根本沒有什麼關係。這就好比你準備把一杯咖啡端給朋友，結果在動身之前，你先把整個咖啡館從早到晚的每一幀畫面都在大腦里過了一遍。不僅費時，還容易因為某幀畫錯了方向而迷路。

更麻煩的是，想像未來影片本身就是一件高難度的事。機器人對細小的物理接觸、輕微的位移、微妙的配置變化往往把握不准，一旦想像的影片裡出現了變形的物體或者混亂的空間關係，依賴這段影片做出的動作就可能完全跑偏。

贊助商廣告

研究團隊由此提出了一個尖銳的問題：機器人真的需要想像那段完整的影片嗎？

**二、換一種"腦補"方式：只看結局，不看過程**

答案是不需要。研究團隊發現，對於大多數機器人操控任務而言，真正有用的資訊是"當前場景應該變成什麼樣"，而不是"中間經過了多少幀畫面"。

以"把鞋子放進箱子"為例，機器人需要知道的，核心只有兩件事：鞋子現在在哪、任務完成之後鞋子應該在哪。把這兩個狀態之間的"差異"理解清楚，動作自然就有了方向。這種"理解差異"的能力，恰好和另一類AI模型高度吻合——圖像編輯模型。

圖像編輯模型是什麼？簡單說，就是那種能根據文字指令修改一張圖片的AI。你給它一張客廳的照片，配上一句"把沙發換成紅色的"，它就能生成一張紅色沙發的客廳圖。這類模型在訓練過程中學會了一件非常核心的事：理解"指令"和"視覺變化"之間的關係。它知道"把沙發換成紅色"意味著沙發的顏色要變、其他地方要保持不變。這種能力，恰恰是機器人操控任務所需要的。

研究團隊於是做了一個大膽的替換：把之前機器人腦子裡"播放未來影片"的模組，換成一個"生成任務完成時那張圖"的圖像編輯模組。機器人不再需要想像整段操作過程，只需要根據當前場景和任務指令，生成一張"任務完成後的樣子"的圖片，再從這張圖片所攜帶的內部資訊中提取動作指令。

**三、ImageWAM的內部構造：它到底是怎麼工作的**

理解ImageWAM的工作方式，可以用"廚師備菜"這個場景來類比。一個經驗豐富的廚師在開始烹飪之前，會先在腦子裡形成一個"最終菜餚應該是什麼樣"的清晰意象。這個意象不需要包含每一步翻炒的動作細節，但它包含了所有重要資訊：食材的位置、顏色、熟度。廚師正是從這個意象出發，決定下一步該怎麼動手。

ImageWAM的運作方式與此類似。給定一張當前場景的圖片和一條任務指令，比如"把條形碼掃描到物體上"，ImageWAM會先讓圖像編輯模型在內部"構想"任務完成後的場景長什麼樣。關鍵之處在於，這個構想過程不需要真正把那張"完成後的圖片"畫出來並輸出——就像廚師不需要真的先做一道樣品菜一樣。研究團隊只是從圖像編輯模型內部的"思考過程"里提取資訊，這些資訊以一種叫做"KV緩存"的形式存在於模型的每一層網路中。

贊助商廣告

所謂KV緩存，可以理解為模型在思考過程中積累的"工作記錄"。每一層網路在處理圖像和指令時，都會生成一組關於"什麼地方需要改變"和"怎麼改變"的內部註記。這些註記不是最終的圖片，而是圖片背後的"意圖"和"關注點"。研究團隊把這些註記直接送給一個專門負責生成動作的"動作專家"模組，讓它據此計算出機器人下一步的具體動作序列。

動作專家模組使用了一種叫做"流匹配"的方法來生成動作。這個方法的直觀理解是：從一團隨機噪聲出發，逐步將其"雕琢"成一組精確的動作指令，而雕琢的方向則由那些來自圖像編輯模型的"工作記錄"來指引。

在訓練階段，研究團隊同時訓練兩件事：一是讓圖像編輯模組能夠準確預測任務完成後的場景圖，二是讓動作專家模組能夠根據圖像編輯模組的內部記錄生成正確的動作。兩個目標共同優化，相互促進。特別值得一提的是，在訓練時，研究團隊會隨機選取圖像編輯過程中不同階段的內部記錄來訓練動作專家，這樣動作專家就能適應各種"思考進度"下的資訊，而不是只依賴最終狀態的資訊。

到了真正使用的時候，整個流程被進一步簡化：圖像編輯模型只需要做一次前向計算，提取內部記錄，不需要完成完整的去噪過程生成最終圖片；動作專家再在這些記錄的基礎上進行動作生成。整個流程比生成完整影片要精簡得多。

**四、用了哪些圖像編輯模型，又凍住了哪些部分**

研究團隊在ImageWAM框架下測試了三種不同的圖像編輯模型作為"底層構想引擎"，分別是OmniGen2、Ovis-U1和FLUX.2（4B參數版本及9B參數版本）。這三種模型來自不同的技術路線，但都具備根據語言指令對圖像進行有針對性修改的能力。

在訓練設置上，研究團隊採取了一種"凍住一部分、開放另一部分"的策略。負責理解語言和圖像的基礎語言模型部分被凍結，保持不變，這樣可以保證模型對語言指令的理解能力不會因為機器人任務的訓練而退化。真正參與學習的，是圖像編輯的擴散生成部分和動作專家部分。前者學習如何準確預測任務結束時的視覺狀態，後者學習如何把這些視覺預期轉化為具體動作。

贊助商廣告

動作專家的結構設計也頗有講究。以OmniGen2為基礎的版本中，動作專家的網路架構與圖像編輯模型保持一致，並通過複製和插值的方式用圖像編輯模型的權重來初始化動作專家的權重。這個策略借鑑了此前一些工作的經驗：在訓練早期，動作相關的梯度信號可能比較嘈雜，用已經訓練好的圖像模型權重來初始化，可以給動作專家一個更穩定的起點。

對於基於FLUX.2的版本，由於FLUX.2本身採用了"雙流加單流"的特殊網路結構，動作專家的初始化也相應調整：較淺層的動作專家網路用FLUX.2雙流階段的圖像流權重初始化，較深層的則用單流階段的權重初始化。

**五、在三個主要測試平台上，成績如何**

研究團隊在模擬器和真實機器人上分別進行了測試，覆蓋了四個主要的評測場景。

第一個是LIBERO基準，這是機器人操控領域最常用的評測平台之一，包含空間任務、物體任務、目標任務和長時序任務四個子集，每個子集有10個不同任務、500條專家演示數據。ImageWAM在這四個子集上的平均成功率達到了98.4%，與當前表現最佳的基於影片生成的方法基本持平，同時明顯超過了絕大多數基線方法。

第二個是LIBERO-Plus，這是LIBERO的強化版本，在原始任務的基礎上增加了大量視覺和布局的變化，比如改變攝像機角度、機器人型號、燈光條件、背景、添加噪聲或改變物體布局，專門用來測試方法的泛化能力。在這個更難的評測中，ImageWAM使用FLUX.2 4B版本達到了83.1%的平均成功率，在相機擾動（80.8%）、語言擾動（91.4%）、燈光擾動（98.1%）、背景擾動（85.5%）、噪聲擾動（93.8%）和布局擾動（80.5%）六個維度上均處於所有不依賴額外預訓練數據的方法中的前列，並且在相機、語言、燈光、背景、噪聲和布局等多個維度上顯著超過了依賴大規模預訓練的傳統VLA方法。

第三個是RoboTwin 2.0，這是一個針對雙臂機器人的大規模模擬評測平台，覆蓋50多個任務，需要兩個機器手臂在多種物體布局和場景條件下協作完成任務。在乾淨場景中，ImageWAM達到了93.20%的平均成功率；在加入大量隨機干擾的場景中，成功率為93.56%，不僅超過了所有不依賴額外預訓練的方法，還超過了部分依賴大規模預訓練數據的強基線。

贊助商廣告

第四個是真實機器人測試，研究團隊使用Dobot XTrainer雙臂機器人平台設計了四項具有代表性的任務：疊三個碗、摺疊毛巾、打開抽屜並存放記號筆、把杯子掛上掛架。這四項任務分別對應長時序操控、柔性物體操控、視覺遮擋和精細操控四種挑戰。ImageWAM在四項任務上的平均成功率為84.5%，在疊碗任務中達到94%，摺疊毛巾任務達到84%，存放記號筆任務達到78%，掛杯子任務達到82%，整體表現優於其他所有對比方法。

**六、計算效率上，省了多少資源**

這是ImageWAM另一個令人關注的優勢。研究團隊在A6000顯卡上對幾種方法的推理延遲和計算量進行了對比。

採用影片生成並在推理時完整運行影片去噪的傳統方法（FastWAM-IDM），推理延遲高達1081毫秒，計算量為63.65 TFLOPs。採用影片生成但推理時去掉未來影片token的簡化版本（FastWAM，1步去噪），延遲降至302毫秒，計算量為13.21 TFLOPs。而ImageWAM只需263毫秒和9.72 TFLOPs，相當於把延遲壓縮到了傳統影片方案的約四分之一，計算量壓縮到約六分之一。

研究團隊還進一步探索了額外的優化手段，包括使用torch.compile編譯、靜態CUDA計算圖等。在這些優化疊加之後，ImageWAM的推理延遲可以進一步壓縮到69毫秒，達到傳統影片方案的約4.4倍加速。這種級別的速度對於需要實時響應的機器人控制場景來說意義重大。

**七、注意力可視化：模型真的在"看"正確的地方嗎**

研究團隊還通過可視化技術檢驗了ImageWAM內部的注意力分布，也就是模型在處理圖像時"把目光集中在哪裡"。結果顯示，ImageWAM的編輯緩存產生的注意力，確實高度集中在與任務相關的變化區域，比如被操控的物體、目標容器、接觸位置，而背景等無關區域的注意力權重則明顯較低。相比之下，FastWAM的注意力分布則更為分散，在任務無關區域也有較高權重。

這個結果從可視化角度驗證了研究團隊的核心假設：圖像編輯模型的內部表示確實是"以變化為中心"的，它的注意力天然聚焦在任務相關的差異上，而不是整個場景的每一個像素。

贊助商廣告

**八、影片生成的"幻覺"問題：錯誤的想像會帶跑機器人**

研究團隊還特別展示了一個失敗案例分析，直觀說明了影片生成方案的內在風險。在某些任務中，影片生成模型產生的"未來幀"里出現了明顯的視覺失真：被操控物體周圍出現了扭曲的幾何形狀，空間布局也變得不連貫。機器人的動作模組依賴這些失真的"想像"來決策，結果動作出現了明顯偏差，任務失敗。ImageWAM則完全繞開了這個問題，因為它根本不需要在推理時解碼出完整的未來圖片，只需要使用圖像編輯模型的內部"思考記錄"，這些記錄更抽象、更穩定，不容易出現圖像層面的視覺失真。

**九、換一個編輯模型，效果會不會差很多**

研究團隊專門測試了這個問題：如果把底層的圖像編輯模型換掉，整個框架還能保持好的效果嗎？

測試結果顯示，三個不同的圖像編輯模型在LIBERO-Plus上的表現分別為：OmniGen2版本平均71.8%，Ovis-U1版本平均71.2%，FLUX.2 4B版本平均83.1%。三者均超過了不依賴預訓練的對比方法FastWAM（51.5%），也超過了多數依賴大規模預訓練的傳統VLA方法。這說明ImageWAM框架並不依賴某一個特定的圖像編輯模型，任何具備良好圖像編輯能力的模型都可以接入這個框架，並且更強的編輯模型能帶來更好的效果。

在此基礎上，研究團隊進一步測試了更大參數量的FLUX.2 9B版本，發現平均成功率從83.1%提升到了85.2%。提升主要來自機器人擾動、語言擾動、背景擾動和布局擾動這四個維度，說明更大的編輯模型能提供更強的指令條件視覺上下文。不過，相機、燈光和噪聲擾動三個維度並未單調提升，說明模型規模的收益因擾動類型而異，並非對所有挑戰都有同等幫助。

**十、為什麼不用那種"理解和生成一體化"的大模型**

研究團隊也回應了一個自然而然會產生的疑問：既然有那種把語言理解和圖像生成都整合在一起的多模態大模型上交大聯手騰訊機器人X實驗室機器人學會腦補結局動作更准更快，為什麼不直接用它們，而要把理解部分凍結、只訓練生成部分？

贊助商廣告

研究團隊的解釋是，理解和生成這兩件事在模型結構上有著不同的需求。語言和視覺的理解傾向於高層語義抽象，而圖像生成則需要精細的空間和結構細節，尤其在網路的深層更是如此。把兩個目標放在一個完全共享參數的模型里同時優化，可能會造成相互干擾：提升生成質量可能損害理解能力，反之亦然。將理解部分凍結、只訓練生成和動作部分，能夠保留理解能力的穩定性，同時讓生成和動作模組更專注地學習機器人任務所需要的表示。

對比實驗也印證了這一點。在LIBERO基準上，ImageWAM（98.4%）超過了基於理解生成一體化模型的UniVLA（95.5%）；在RoboTwin乾淨場景中，ImageWAM（84.4%）超過了BagelVLA的關鍵幀預測版本（75.3%）；而且ImageWAM無需任何額外的具身預訓練數據，而對比方法均使用了大量預訓練數據。

歸根結底，ImageWAM這項工作揭示了一個在機器人學習領域頗具啟發性的事實：讓機器人"把未來場景的完整電影演一遍"並非必須，只需要讓它"在腦子裡形成一張任務完成時的快照"就足夠了——而且更快、更准、更省力。圖像編輯模型那種天生擅長理解"什麼地方要變、怎麼變"的能力，在機器人操控任務中找到了一個意想不到但非常契合的用武之地。

隨著圖像編輯模型本身不斷變強，這個框架的天花板也會隨之不斷提高，而不需要從頭設計新的機器人專用架構。這對於想要讓機器人走進日常生活的研究者和工程師來說，是一條非常值得繼續深挖的路。有興趣進一步了解技術細節的讀者，可以通過arXiv編號2606.19531查閱完整論文。

Q&A

Q1：ImageWAM和之前的機器人影片生成方法有什麼本質區別？

A：之前的影片生成方法讓機器人在腦子裡"播放未來幾秒的完整影片"，再據此決定動作，計算量大且容易因影片失真而誤導動作。ImageWAM則只讓模型"想像任務完成時的那張圖"，從圖像編輯模型的內部思考記錄中提取資訊來指導動作，不需要生成完整影片，計算量降到原來的六分之一，速度提升約四倍。

贊助商廣告

Q2：ImageWAM在真實機器人上表現怎麼樣？

A：研究團隊用Dobot XTrainer雙臂機器人測試了四項任務：疊三個碗、摺疊毛巾、打開抽屜並存放記號筆、掛杯子。ImageWAM平均成功率84.5%，高於π0的55.8%、π0.5的72.3%和FastWAM的79%，在摺疊毛巾這類需要處理柔性物體變化的任務上提升尤為明顯。

Q3：ImageWAM需要大量預訓練數據嗎？

A：不需要。研究中所有ImageWAM的測試均未使用額外的具身機器人預訓練數據，只在目標任務的演示數據上訓練。而對比的很多方法，包括π0、π0.5、LingBot-VA等，都依賴大規模預訓練數據，但ImageWAM的表現依然與它們持平甚至更好。