這項由上海交通大學、上海人工智慧實驗室、百度智能雲、香港大學聯合開展的研究,以預印本形式發布於2026年6月(論文編號:arXiv:2606.09811),目前尚未收錄於正式期刊,感興趣的讀者可通過該編號在arXiv平台檢索完整原文。
**機器人為什麼總是"慢半拍"?**
假設你雇了一個助手來幫你整理廚房,但這個助手每次伸手拿東西之前,都必須完整地在腦子裡播放一遍"接下來會發生什麼"的微電影——預見下一秒杯子會怎麼移動,盤子會不會倒,手怎麼放才合適——然後才敢動手。這當然很小心,但問題是,這種"看一幀、想一幀、動一幀"的工作方式,速度慢得讓人抓狂。
這正是目前許多機器人控制系統面臨的困境。近年來,一類叫做"世界-動作模型"(World-Action Models,WAMs)的技術開始流行,它的核心思路是讓機器人不僅知道當下該怎麼動,還能預測這個動作會帶來什麼樣的場景變化。這種把"預測未來畫面"和"執行動作"綁定在一起的做法,確實讓機器人變得更聰明,但也帶來了一個代價:每次執行動作之前,都必須先算完整的"未來影片",導致控制頻率極低,最快也只有每秒5次左右,而人類做精細操作時的手部調整頻率遠不止於此。
上述研究團隊認為,這種"世界預測"和"動作執行"被強行綁在同一個節奏上的做法,本質上是一種浪費。預測未來場景這件事,不需要每一步動作都重新算一遍;而執行動作這件事,卻需要快速、實時地響應眼前的變化。於是他們提出了一套名為AHA-WAM(Asynchronous Horizon-Adaptive World-Action Model,異步自適應視野世界動作模型)的新框架,讓機器人的"規劃腦"和"執行腦"徹底分家,各司其職,從而在不犧牲智能的前提下,把控制速度提升了整整4.59倍,最快甚至能達到10.82倍的提升。
---
一、為什麼要給機器人"分兩個腦子"
回到剛才那個助手的比喻。更聰明的做法是什麼?也許是這樣:你雇兩個人,一個是"戰略顧問",他負責每隔一段時間深度思考整個任務的走向,比如"接下來要先處理左邊的架子,再處理右邊的抽屜";另一個是"現場執行者",他基於顧問給出的大方向,快速、靈活地處理每一個眼前的動作,同時隨時根據眼睛看到的最新情況做微調。這兩個人並不需要同步——顧問可以慢慢想,執行者不停地幹活,只要執行者能隨時訪問顧問的最新判斷就好。
AHA-WAM的核心設計思路正是如此。研究團隊把整個系統拆分成兩個"擴散變換器"(Diffusion Transformer,DiT)組成的雙模組結構。擴散變換器是一種在圖像和影片生成領域非常流行的神經網路架構,可以通俗地理解為一種"從模糊到清晰"的逐步推理機器,在這裡被用來既生成動作序列,也生成未來視覺預測。
其中一個叫做"影片DiT",扮演的是"慢思考戰略顧問"的角色。它負責在較低的頻率下,處理過去的視覺觀測,預測較長時間段內(研究中設定為64幀)的場景演化趨勢,並把這些"對未來的理解"壓縮成一套可以反覆使用的"規劃語境"——研究中把這些東西稱為"分層鍵值上下文"(layerwise K/V context),可以理解為顧問每次做完深度分析後留下的一份"參考筆記"。
另一個叫做"動作DiT",扮演的是"快速執行者"的角色。它在高頻率下(每次只處理16個動作步驟的短序列)不停地根據最新的觀測狀態生成下一批動作,同時通過一種特殊的"分層聯合注意力"機制(layerwise joint attention)來隨時翻閱那份顧問留下的參考筆記。這意味著執行者不需要自己從頭算"未來會發生什麼",只需要利用顧問的分析結果就夠了。
這裡有一個關鍵的時間不對稱性:慢顧問負責的時間跨度(64幀)遠大於快執行者每次處理的動作序列(16步),這就是"視野自適應"這一名稱的由來——兩個模組被賦予了不同的時間視野,並根據各自的功能調整到最合適的節奏。
---
二、"筆記"會過時怎麼辦?——OVCR登場
然而,雙腦分離帶來了一個新問題:顧問留下的參考筆記不是時時更新的,當執行者快速連續做了好幾個動作之後,現場情況已經變了,但筆記還是上一輪分析的結果。就好像你拿著昨晚廚房的照片來指導今天的整理工作,可冰箱裡的東西早被別人動過了。
為了解決這個問題,研究團隊設計了一個叫做"觀測引導的影片語境路由"(Observation-Guided Video-Context Routing,OVCR)的機制。這個名字聽起來複雜,但核心思路非常直觀:每次執行者要行動之前,先用當前眼睛看到的畫面,對顧問的參考筆記做一次"快速修訂",而不是整個重新寫一份新筆記。
具體來說,OVCR會從當前的視覺圖像中提取一組緊湊的"路由查詢"(routing queries),可以理解為一組精煉的"問題清單"——"現在杯子在哪裡?盤子有沒有移動?機械臂的位置對了嗎?"然後用這些問題去"檢索"顧問筆記中的相關內容,對鍵值對進行一次殘差更新(residual update),即只修改那些和當前觀測不符的部分,而保留大部分仍然有效的規劃資訊。
這種設計的妙處在於,它不需要把所有視覺資訊直接塞給動作執行者處理——那樣會大大增加計算量——而是把視覺資訊壓縮成少量查詢向量,用極低的計算代價實現了對規劃語境的實時校正。本體感知資訊(比如機械臂關節角度這種數字狀態)則直接輸入給動作DiT,因為這類資訊本來就很緊湊,不需要經過路由處理。
如此一來,當顧問的分析結果在執行者連續工作的間隙變得有點"過時"時,OVCR就充當了一個實時的"筆記修訂者",確保執行者每次翻看的參考內容都是基於最新現場情況的。
---
三、訓練時就"練習時差"——視野自適應偏移訓練
除了推理階段的OVCR機制,研究團隊還在訓練階段做了一個重要的設計,叫做"視野自適應偏移訓練"(horizon-adaptive offset training)。
這個問題可以這樣理解:在實際部署時,顧問不可能恰好在執行者開始新一批動作的那一刻完成分析,大多數時候執行者需要在顧問"分析到一半"的情況下就開始行動,也就是說執行者使用的筆記,可能是顧問在上一次分析周期的中途寫下的。如果訓練時總是讓執行者從"筆記寫完"的那一刻開始用,就會導致模型在實際部署時遇到這種"中途切入"的情況時手足無措。
為了解決這個問題,訓練時會隨機給每個訓練樣本引入一個隨機的時間偏移量δ,讓動作序列在規劃窗口內的不同相位位置開始。這樣一來,執行者在訓練過程中就見過了所有可能的"時差情況",也就學會了在任意時間節點接過顧問筆記、繼續流暢執行的能力。由於規劃周期和動作塊的大小之間存在周期性關係,只需要讓δ在零到動作塊長度減一之間均勻採樣,就能覆蓋所有可能出現的時間偏移場景。
---
四、"歷史存檔"幫顧問記得更遠——滾動鍵值記憶
一個好的戰略顧問不只是看眼前,還要記得之前發生了什麼。在長時間的操作任務中,機器人可能需要知道"剛才那個物體已經被移到了哪裡"或者"之前這個子任務完成到哪一步了",如果顧問每次只看當前畫面,就會忘記之前的資訊。
為此,研究團隊給影片DiT配備了一套"滾動鍵值記憶"(rolling K/V memory)機制,本質上是一個先進先出的歷史存檔隊列。每次顧問完成一輪分析,都會把這次分析的中間表示(即各層的鍵值對)存入隊列;下一輪分析時,顧問不僅看當前的畫面,還會通過注意力機制回顧最近幾次分析留下的記錄。研究中設定的存檔深度是6幀歷史,也就是顧問能記住最近6次分析的內容。
這個機制只在影片DiT內部使用,不會增加動作DiT的計算負擔。它讓顧問的"時間感知窗口"變得更寬,對於那些需要記住子任務完成狀態的長流程任務尤其有用。
---
五、不同模組的精細配合——整體架構的數學邏輯
把上述所有機制拼在一起,形成的是一套在數學上有嚴格定義的聯合訓練框架。研究使用了"流匹配"(flow matching)作為訓練目標,這是一種比傳統擴散模型更簡潔高效的生成學習方法,可以理解為讓模型學習"從隨機噪聲到目標軌跡的最短路徑"。
訓練時,動作損失和影片損失同時優化,影片分支預測的是未來64幀的視覺潛在變量,動作分支預測的是未來16步的機械臂動作序列。兩個損失用一個權重參數λ加權相加。在推理階段,影片分支不再實際輸出未來幀的像素內容,只保留其中間層的鍵值上下文供動作分支調用。影片預測的功能因此從"推理時必須的輸出"轉變為"訓練時的監督信號",這一轉變讓推理時的計算量大幅減少。
在注意力機制的設計上,影片分支使用完全因果掩碼(fully causal mask),確保它在預測未來幀時只能看到當前及過去的資訊,這是讓它學習前向場景動態的關鍵約束。動作分支則被阻止直接關注影片分支預測的未來幀token,保證推理時可以安全移除未來幀預測路徑而不影響動作生成質量。
---
六、硬體加速:讓快更快——推理優化細節
即便雙腦分離的設計已經從架構上消除了影片DiT對每步動作延遲的影響,動作DiT自身的推理速度依然需要優化才能達到實用的控制頻率。研究團隊做了大量工程級別的加速工作。
動作DiT、記憶模組、語境路由模組以及VAE編碼器(負責把攝影機圖像轉成模型能處理的壓縮表示)都被編譯進了TensorRT引擎,並通過CUDA Graph技術"錄製"成固定的執行圖,讓每次推理不再需要Python層的調度開銷。影片DiT的預填充路徑則使用torch.compile進行編譯優化,但由於其控制流更複雜,使用了相對寬鬆的默認編譯模式。此外,團隊還仔細檢查了推理熱路徑中的冗餘計算,把一些只取決於動作塊級別輸入(而非逐步去噪步驟)的計算挪到去噪循環外面執行,並消除了已處於推理模式的模組上不必要的遞歸狀態遍歷。
通過這一系列優化,10步去噪的動作推理延遲從PyTorch直接運行時的415.77毫秒,壓縮到了41.37毫秒,降幅超過90%。論文的附錄還詳細記錄了每一步優化帶來的具體收益,這種細粒度的消融分析在工程類論文中頗為少見。
在此基礎上,研究團隊還訓練了一個"AHA-WAM-Flash"版本,通過"ODE蒸餾"(ODE distillation)技術把動作去噪步驟從10步進一步壓縮到2步。具體做法是凍結影片DiT,只針對動作去噪路徑訓練一個學生模型,讓學生學會直接從帶噪聲的初始狀態一步跳到教師模型最終輸出的乾淨動作,訓練時刻意多採樣高噪聲端的狀態,因為那裡是最難一步跳到位的地方。2步推理版本的延遲進一步降至17.56毫秒,控制頻率達到56.95赫茲。
---
七、實驗結果:既快又准,而且不靠大量預訓練數據
研究團隊在兩個維度上驗證了AHA-WAM的實際效果——一個是RoboTwin 2.0仿真基準測試,另一個是真實機器人的部署實驗。
RoboTwin 2.0是一個包含50個雙臂機械手操作任務的仿真基準,覆蓋各種抓取、堆疊、整理、工具使用等技能,每個任務在"乾淨場景"和"隨機化場景"兩種條件下各評估100次。AHA-WAM在這50個任務上取得了平均92.80%的成功率,其中乾淨場景93.40%,隨機化場景92.20%。值得關注的是,這個成績是在沒有使用任何機器人數據進行大規模預訓練的情況下達到的,比同樣沒有機器人預訓練的Fast-WAM高出0.97個百分點,甚至超過了使用了大規模機器人數據預訓練的LingBot-VA(92.20%)0.60個百分點。而Flash版本也保持了90.20%的平均成功率,性能損失非常小。
在真實機器人實驗中,研究團隊在一套雙臂AgileX Piper機器人平台上測試了四項任務:摺疊毛巾(考察可變形物體操作能力)、整理桌面(考察多物體長流程組織能力)、準備豆漿(考察精細工具使用能力)和收納盤子(考察雙臂協作與空間泛化能力)。每項任務大約收集了120條演示軌跡作為訓練數據,策略只使用頭部視角RGB圖像、關節狀態和語言指令作為輸入。
由於Fast-WAM和AHA-WAM默認沒有機器人數據預訓練,兩者都先在RoboCOIN數據集(包含24,600條軌跡、約165小時機器人操作數據)上做了預訓練,再在任務特定數據上微調,保證比較的公平性。Motus和Fast-WAM因為推理延遲太高,被部署成非阻塞的RTC風格控制方案並做了動作插值,AHA-WAM則以原生的異步規劃-執行方式部署。
結果顯示,AHA-WAM在四項任務原始設置下的平均成功率達到78.3%,明顯高於Fast-WAM的68.3%和Motus的21.7%,與使用了大規模預訓練的π0.5模型的76.7%基本持平甚至略高。在泛化測試(包括光照變化、材質變化、物體擺放變化、環境背景變化等四種分布外情況)中,π0.5表現最好,AHA-WAM在成功率上位居第二,但在"進度分"(0-3分,衡量即便任務未完成也完成了多少子步驟)上以35.00分高於π0.5的33.25分,說明AHA-WAM在遇到分布外情況時往往能完成大部分子步驟,只在最後關頭失誤,而不是從一開始就徹底失敗。
---
八、消融實驗:每個設計都有其不可替代的作用
為了驗證每個組件的必要性,研究團隊做了一組逐步添加機制的消融對照實驗。
基準出發點是Fast-WAM,它的平均成功率是91.83%。如果只是簡單地把影片DiT和動作DiT解耦、讓動作分支直接復用最新的規劃語境而不做任何額外處理(即"樸素異步"版本),成功率會驟降至88.60%,下降超過3個百分點。這證明了單純的異步執行確實會帶來規劃-執行錯位的問題,並非一種免費的加速。
在樸素異步基礎上加入滾動鍵值記憶後,成功率回升至91.01%,恢復了大部分損失。不過研究者也指出,在RoboTwin這個以中短流程任務為主、物體大多時間可見的基準上,歷史記憶的作用相對有限,在更長流程的任務上預計會更加顯著。
單獨加入OVCR(不加滾動記憶)時,成功率達到91.47%,比只加記憶的版本高0.46個百分點,說明OVCR對於解決實時規劃-執行錯位的直接效果更強。把兩者都加上,AHA-WAM達到了92.80%,超過Fast-WAM近1個百分點——這說明記憶和路由是互補的:記憶負責保存時間連續性,路由負責對齊當前執行狀態,缺一不可。
---
說到底,AHA-WAM做的事情並不玄妙——它就是把一個一直被強行綁在一起做的事情,按照它們本來應該的節奏拆開來做。讓想得遠的人慢慢想,讓動得快的人快快動,再用一個聰明的"實時筆記修訂"機制確保兩者不脫節。這種設計哲學與其說是技術突破,不如說是一次對機器人控制系統結構本身的重新思考。
對普通人來說,這項研究意味著未來家庭服務機器人、工廠協作機械手、甚至手術輔助機器人,都有可能在不需要堆砌海量硬體資源的情況下,同時做到"看得遠"和"動得快"。當機器人可以以接近人類手部調整速度的頻率響應環境變化,很多目前還需要高度謹慎和緩慢操作的任務場景,就有可能變得更加流暢自然。
當然,這項研究也坦誠地指出了現有的局限:規劃頻率、影片預測跨度、動作塊大小這些時間超參數的最優配置,可能因任務類型和機器人硬體不同而有所差異,目前還是手動設定而非自動適應的。此外,文章的真實機器人實驗只覆蓋了四項任務,對於更長流程、更動態環境的驗證還有待後續工作展開。感興趣的讀者可以通過arXiv編號2606.09811檢索原文深入了解所有技術細節。
---
Q&A
Q1:AHA-WAM的控制頻率為什麼比Fast-WAM快這麼多?
A:AHA-WAM把原本需要每步都重新運行的"未來影片預測"模組(影片DiT)移出了動作執行的關鍵路徑,改成異步運行——影片模組慢慢算,動作模組不等它、持續快速執行。每次動作更新只需要運行輕量的動作DiT加上OVCR路由,延遲從190毫秒降至約41毫秒,控制頻率因此從5.26赫茲提升到24.17赫茲,Flash版本更可達56.95赫茲。
Q2:OVCR機制是用來解決什麼問題的?
A:OVCR解決的是"規劃語境過時"的問題。影片DiT生成的規劃語境(對未來場景的理解)不會每步動作都更新,當機器人連續執行幾個動作後,現場狀態已經變了,但規劃語境還是之前的。OVCR用當前視覺圖像生成少量"修訂查詢",對舊的規劃語境做局部殘差更新,以極低計算代價實現實時校正,而無需重跑整個影片DiT。
Q3:AHA-WAM在沒有大規模機器人數據預訓練的情況下,為什麼還能達到很高的成功率?
A:AHA-WAM使用了預訓練好的Wan2.2-5B影片生成模型來初始化影片DiT,這個模型從大量網際網路影片中學到了豐富的物理場景動態知識。這些知識雖然不是專門來自機器人操作數據,但對於理解物體運動、場景變化規律依然有效,相當於給機器人"注入"了對物理世界的基礎理解,從而補償了機器人專屬數據不足的問題。






