機器人終於學會「想清楚再動手」了——AGIBOT Finch與上海創新研究院聯合推出τ?-WM世界模型

這項由AGIBOT Finch與上海創新研究院聯合完成的研究，於2026年5月31日以預印本形式發布在arXiv平台，論文編號為arXiv:2606.01027。有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**機器人為什麼總是"手忙腳亂"？**

人類在做任何一件精細動作之前，都會在腦子裡過一遍。比如你伸手去拿一杯水，你的大腦會預先判斷水杯的位置、重量和距離，然後再指揮手臂以合適的力度和角度去抓。這種"先想後做"的能力，對人類來說再自然不過，卻是現代機器人面臨的一道真正的技術難關。

今天大多數機器人的行事邏輯更像是"先做了再說"——它們通過大量訓練學會了一套"看到什麼就做什麼"的反射式操作，缺少真正意義上的"後果預判"能力。遇到複雜任務，比如把工具整齊放回工具箱、拉上書包拉鏈，或者把軟管接到水龍頭上，這類需要多步驟精細配合的操作，現有的機器人往往表現得差強人意，頻繁出錯。

τ?-WM（tau-zero World Model）想要改變這一現狀。這個由AGIBOT Finch和上海創新研究院的研究團隊共同開發的系統，試圖給機器人裝上一套"事先在腦子裡演練"的能力——在真正執行動作之前，先在腦海中模擬一遍會發生什麼，再決定到底怎麼動手。

**一、機器人的學習困境：數據太貴，視野又窄**

訓練一個能幹的機器人，需要大量的示範數據。問題是，真正有用的機器人操作數據獲取起來代價極高。研究人員需要在實驗室里設置好機械臂、攝影機、傳感器，然後讓人類通過遙控操作的方式一遍一遍地演示各種任務。這個過程費時費力，而且受限於實驗室的設備和空間，能覆蓋的場景、物體和任務類型其實相當有限。

與此同時，世界上其實存在大量免費且豐富的"人類操作影片"——YouTube上各種做手工、做家務、修理東西的第一視角影片，記錄了人類如何用雙手處理各種各樣的物體。這些影片讓機器人"看到"了更廣闊的世界，但問題是，這些影片裡沒有機器人能直接用上的"控制信號"——你看到影片裡的人抓起了一個蘋果，但影片裡沒有告訴機器臂應該以什麼角度、什麼力度、什麼速度去完成同樣的抓取。

贊助商廣告

這就形成了一個矛盾：機器人專用的操作數據準確但稀少，人類影片數據豐富但機器人用不上。τ?-WM的研究團隊認為，解決這個矛盾的關鍵，是建立一個能同時消化兩類數據的統一框架，讓每一類數據都能貢獻它本身能提供的那部分資訊，而不是硬要把它們統一成同一種格式。

**二、三類數據、一個框架：讓每塊食材都發揮本味**

為了實現這個目標，研究團隊收集了一個規模龐大的訓練數據集，總時長約為27300小時，相當於三年不間斷播放的影片量。這份數據集由三大來源構成，各有側重，相互補充。

第一類是真實機器人遙控操作數據，時長約17800小時，占總量的65%。這部分數據來自AGIBOT-G01人形機器人、ARX機械臂和雙臂Franka機器人平台，覆蓋家庭、零售和工業場景。這些數據最為珍貴，因為它們直接記錄了機械臂在特定控制系統下的每一個關節角度、每一步動作，是機器人能直接"照著做"的高質量示範。

第二類是UMI風格的示範數據，時長約6500小時，占24%。UMI是一種用手持式夾爪設備採集數據的方法——操作者手持一個類似機器人末端執行器的裝置，在各種真實環境裡進行演示，成本遠低於搭建完整的機器人系統。這些數據覆蓋的場景更多樣，但採集設備畢竟不是真正的機器人，所以動作信號比第一類數據"弱"一些，只能作為較粗糙的行為參考。這部分數據由GenRobot公司的開源數據集提供支持。

第三類是以第一視角拍攝的人類互動影片，時長約3000小時，占11%。這些影片來自EgoDex、EgoVerse以及Xperience-10M等公開數據集，記錄了人類在日常生活中處理各種物體的動作。由於影片裡的"手"是人手而不是機械手，完全無法直接轉換為機器人控制指令，所以這類數據只用來訓練"看圖預測下一幀會發生什麼"的視覺感知能力。

關鍵的設計思路在於：系統會為每個訓練樣本打上一張"資質證明"，明確標註這條數據能用來監督哪些輸出、不能用來監督哪些輸出。真實機器人數據可以同時監督影片預測和動作生成兩個模組；UMI數據可以提供較弱的動作參考和較強的視覺動態參考；人類影片只能參與影片預測的訓練，不參與動作生成的訓練。這樣，三類數據各司其職，在同一個訓練過程里共同塑造模型的能力，而不會因為格式不匹配而互相干擾。

贊助商廣告

**三、τ?-WM的兩張"臉"：一張負責做決定，一張負責預想後果**

τ?-WM的核心架構可以用一個駕駛員的比喻來理解。一位經驗豐富的老司機在開車時有兩套思維在同時運作：一套在想"我現在應該打方向盤、踩油門還是剎車"，另一套在想"如果我現在這樣做，接下來的路面會變成什麼樣子"。τ?-WM的兩個核心組件，分別對應這兩套思維。

第一個組件叫做"影片動作模型"（Video Action Model，簡稱VAM），它扮演的是"決策者"的角色。給它輸入當前時刻來自多個攝影機的畫面、一句自然語言指令（比如"把工具放回工具箱"），以及機器人當前的關節狀態，它會同時輸出兩樣東西：接下來一段時間裡機器人應該執行的連續動作序列，以及對應這些動作之後場景應該變成什麼樣子的影片幀預測。

VAM的基礎架構來自一個已經預訓練好的大型影片生成模型——Wan2.2-TI2V-5B，參數量達到50億。這個模型原本是用來根據圖片和文字描述生成影片的，研究團隊在它的基礎上額外附加了一個專門負責生成動作序列的"動作解碼器"，參數量約為5億。兩者合在一起，就組成了55億參數的VAM。影片預測部分和動作生成部分並不是各自獨立運作的，而是通過一種叫做"交叉注意力"的機制緊密耦合——動作解碼器會主動去查閱影片模型對未來場景的理解，以此為依據生成更貼合實際物理情況的動作。

第二個組件叫做"動作條件影片模擬器"（Action-Conditioned Video Simulator，簡稱ACVS），它扮演的是"後果評估者"的角色。不同於VAM主動提出"應該做什麼"，ACVS的任務是回答"如果執行某個特定動作，會發生什麼"。你可以把它理解為一個"虛擬沙盤"——研究人員把一個候選動作方案輸入進去，ACVS就會模擬出執行這個方案之後，場景會演變成什麼樣，並且給出一個量化的"任務進展評分"，告訴你這個動作到底讓任務推進了多少。

ACVS復用了VAM里的影片生成主幹網路，但去掉了動作解碼器。它不產生新的動作，只負責在給定動作的條件下預測視覺結果和任務進展。為了讓模型學會區分"看起來在動"和"真正在完成任務"，研究團隊特意在訓練數據中加入了大量失敗軌跡和恢復軌跡——那些最終沒有完成任務的操作片段。失敗片段對應負面的任務進展分數，成功片段對應正面分數，這讓ACVS學會了一套更細膩的評判標準：不只看動作是否流暢，更看動作是否真的朝著目標前進。

贊助商廣告

從技術實現角度來說，兩個組件都採用了"流匹配"訓練方式，這是擴散模型的一個變體，能讓模型學會如何從隨機噪聲逐步"雕刻"出清晰的影片幀或者精確的動作序列。通過在損失函數中設置監督掩碼，系統可以靈活地根據每條訓練數據的性質，決定對哪個輸出頭施加監督、對哪個輸出頭關閉梯度，從而實現異質數據的統一訓練。

**四、"出手前先算一算"：測試時的推理增強策略**

VAM和ACVS的組合，讓τ?-WM具備了一項普通機器人策略模型所沒有的能力：在真正執行動作之前，先做一輪"預演篩選"。研究團隊稱這套機制為"測試時推理增強"（Test-Time Computation），其運作方式可以分成兩個遞進的階段。

第一階段是"再去噪一致性評分"（Re-denoising Consistency Score，RCS）。具體做法是：系統先從VAM里採樣多個候選動作方案（默認為4個），然後對每個候選方案施加一定程度的隨機噪聲，再讓VAM嘗試從這些含噪的候選方案中重新預測出原始動作。如果某個候選方案"足夠好"、足夠貼近VAM所學到的合理動作分布，那麼VAM對它的重新預測誤差就會很小；反之，如果某個候選方案很怪異，VAM重建時誤差就會很大。基於這個邏輯，系統把重建誤差最小的候選方案選出來作為首選。這個過程計算量很小，幾乎不增加額外的響應時間。

如果所有候選方案的一致性評分都低於一個預設的門檻，說明這是一個"當前局面比較棘手"的情形，單靠輕量篩選已經不夠用了，系統就會進入第二階段，喚起ACVS來做更深入的評估。

第二階段是"低質動作修正"（Low-quality Action Rectification，LAR）。ACVS接受所有候選動作作為輸入，分別為每個候選方案預測未來的視覺演變過程，並估算各自的任務進展分數。系統選出預計任務進展分數最高的那個未來場景，然後把這個"最優未來場景"作為額外的條件資訊，重新去查詢VAM，讓VAM在這個特定的未來願景的引導下，生成一個更精確、更有針對性的動作方案。

贊助商廣告

這個兩階段流程的巧妙之處在於，它的資源消耗是"按需分配"的。絕大多數普通情形只需要第一階段的輕量篩選就足夠了，系統能保持接近實時的響應速度；只有在真正困難的情形下，才會啟動第二階段的"深度模擬"，確保在關鍵時刻有足夠的計算資源用於決策質量的提升。

**五、真實機器人上的考驗：四項精細長程任務**

為了檢驗τ?-WM的實際能力，研究團隊設計了四項真實機器人操作任務，全部是那種步驟多、精度要求高、稍有差池就全盤失敗的類型，而且這四項任務都沒有出現在訓練數據中，屬於"從未見過的新任務"。

第一項任務叫"工具箱"——機器人需要把桌面上散放著的各種工具，對應放回工具箱裡各自的卡槽中。第二項任務叫"書包"——機器人需要先把書包的拉鏈拉開，然後把幾件物品放進去，再把拉鏈拉上。第三項任務叫"水龍頭"——機器人需要把一根軟管精確對準並接到水龍頭接口上，完成連接和固定。第四項任務叫"羽毛球"——機器人需要把羽毛球整齊放進球筒，再把蓋子蓋上。

這四項任務分別在三種不同的機器人平台上執行：AGIBOT-G01完成工具箱和書包任務，ARX機械臂完成羽毛球任務，雙臂Franka完成水龍頭任務。這種跨平台的設置有意考察τ?-WM的通用性——同一套模型是否能在不同形態的機器人身上都發揮作用。

對比實驗引入了另外兩個有代表性的基準系統：π?.5，這是一個由Physical Intelligence公司開發的視覺-語言-動作模型，以廣泛的零樣本泛化能力著稱；Fast-WAM，這是一個專門研究在推理階段是否真的需要影片預測的系統，它的核心貢獻之一是證明在某些情況下去掉影片預測反而能提升效率。

從成功率數據來看，τ?-WM在四項任務的平均成功率上表現最佳。π?.5在工具箱任務上與τ?-WM接近，但在需要更長時間協調和更精細操作的書包、水龍頭任務上表現明顯下滑。水龍頭任務對所有方法來說都是最難的，但τ?-WM在這項任務上也保持了最高的成功率。

贊助商廣告

除了成功率，研究團隊還記錄了任務完成的進度分數，以更細膩地反映各步驟的完成情況。有一個有趣的現象值得關註：在工具箱任務中，其他系統往往在把工具塞進槽位之後就"認為完成了"，即使工具並沒有完全卡到位，還處於鬆動狀態。τ?-WM則會在這之後繼續施加額外的壓力或推動，直到工具真正固定好，才會結束這一步驟。研究團隊認為，這種細節上的差異來源於τ?-WM對未來視覺狀態的建模——它不只判斷"動作是否執行了"，而是判斷"最終場景是否達到了期望狀態"。

**六、拆開來看：每個設計選擇到底值多少**

為了驗證各個設計選擇的真實貢獻，研究團隊進行了兩組受控消融實驗。

第一組實驗檢驗異質數據預訓練的價值。研究團隊分別訓練了只用真實機器人數據和用完整三類數據的兩個版本，然後在兩種評測協議下對比它們的表現：零樣本執行（直接測，不做任何額外微調）和有監督微調後的執行。

零樣本評測任務是"把筆放進筆筒"，在乾淨和雜亂兩種桌面環境下各自測試。只用機器人數據訓練的版本，在乾淨環境下成功率為0.22，在雜亂環境下降至0.06，平均僅有0.14。而加入UMI和人類影片數據訓練後，乾淨環境下成功率躍升至0.56，雜亂環境下也達到了0.53，平均成功率大幅提升至0.55。這意味著，更多樣化的數據讓模型對場景的理解能力顯著增強，即使沒有針對性訓練也能舉一反三。

微調評測任務是"拿起物體、擦去灰塵、放回桌面"，同樣分乾淨和雜亂環境測試。在這種已經針對性訓練過的情形下，差距有所收窄，但仍然存在：只用機器人數據的版本乾淨環境成功率0.85、雜亂環境0.55，平均0.70；加入異質數據後，乾淨環境達到0.90、雜亂環境0.75，平均0.83。雜亂環境下的收益尤為明顯，說明異質預訓練增強的是模型在複雜、非理想條件下的魯棒性，而不只是讓它更容易記住訓練數據。

贊助商廣告

第二組實驗檢驗測試時推理增強各階段的貢獻，在"抽紙放進盒子"和"把筆放進盒子"兩項任務上進行，並採用嚴格的單次執行協議——每次只能嘗試一次，不允許重試，每種配置重複20次。

不用任何推理增強時，兩項任務的平均成功率為0.43。只加入RCS輕量篩選後，平均成功率提升至0.50，說明單純通過選出"更符合分布"的動作候選，就能過濾掉相當一部分隨機採樣產生的低質量方案。進一步加入LAR深度修正後，平均成功率再度提升至0.60，證明ACVS的"虛擬預演"確實能在困難情形下給出更有效的修正建議。

作為對比，研究團隊還測試了兩種同類的推理增強方法：CFG（無分類器引導，在生成過程中通過加權方式強化條件信號）和ACG（動作一致性引導，專門為視覺-語言-動作模型設計的生成引導方法）。結果顯示，CFG的平均成功率反而下降至0.20，低於不加任何增強的基線；ACG表現為0.38，略低於基線。τ?-WM的RCS+LAR以0.60的成功率明顯超越了這兩種方法。研究團隊指出，CFG和ACG都是在生成過程內部做文章，而τ?-WM的方法是在生成完成後通過顯式評估候選方案來做選擇，這種"先生成、再篩選"的範式在機器人操作這個場景下似乎更加有效，尤其是對需要精確對齊的任務（比如把筆放進盒子），提升幅度更為明顯。

**七、工程細節：怎樣讓這套系統在真實機器人上跑起來**

一套研究方案能在論文裡展示效果是一回事，能在真實機器人上實時運行又是另一回事。55億參數的模型，直接部署的響應時間可能令人無法接受。研究團隊為此做了一系列工程層面的優化。

基礎部署在單塊RTX 5090 GPU上進行，默認配置下每次查詢從輸入到輸出動作約需220毫秒。通過緩存文本指令的特徵向量（因為指令在一段時間內不會改變，不需要反覆重新編碼），響應時間可以降至180毫秒左右。

進一步的加速措施包括：交叉注意力的KV緩存——在整個去噪疊代過程中，影片分支提供給動作分支的"鍵"和"值"張量只需要計算一次，在所有去噪步驟里復用，省去了大量冗餘計算；將查詢、鍵、值的矩陣乘法合併為一次操作，減少GPU核函數的調用開銷；對動作序列的位置編碼進行簡化，因為動作序列本身是一維時序，無需用到影片幀那種複雜的多維位置編碼。

贊助商廣告

此外，研究團隊還嘗試了使用PyTorch 2的動態圖編譯功能，經過逐塊編譯優化後，響應時間可以進一步降至140毫秒。不過，編譯器級別的圖優化和算子融合有時會引入微小的數值差異，而擴散模型的採樣過程對數值精度有一定敏感性，這些微小差異可能在某些情況下導致輸出略有不同。因此，論文主體實驗中報告的所有結果，都是在不開啟編譯優化的情況下獲得的，以保證結果的一致性和可復現性。

每次機器人執行時，系統採用"滑動窗口"式的閉環控制：預測出一段長度為30步的動作序列，執行其中一部分，然後重新感知環境、重新預測，如此循環。這種方式平衡了計劃的連貫性和對環境變化的響應能力。

**八、局限與展望：這套系統還差什麼**

τ?-WM在論文中坦誠地討論了當前的局限性和未來的改進方向。

在感知維度上，目前的系統完全依賴視覺資訊。對於很多精細操作任務而言，僅憑視覺是不夠的——比如判斷一個插頭是否真的接好了、一個螺絲是否擰緊到位、一塊軟質材料在接觸時的形變情況。觸覺反饋在這類任務中能提供視覺無法捕捉的關鍵資訊。研究團隊認為，將觸覺傳感器的數據納入統一的預測框架，是增強模型在接觸密集型任務上能力的重要方向。

在推理質量上，儘管RCS+LAR的組合已經顯著優於對比方法，但當前的推理增強機制仍然相對簡單。更好的不確定性估計、更長時間跨度的預見能力、以及更高效的動作空間搜索策略，都可能在困難情形下帶來進一步的提升。

在時間跨度上，當前的預測窗口相對有限，對於需要跨越數分鐘甚至數十分鐘才能完成的任務，模型還無法進行足夠長遠的規劃。擴展預測時域，讓模型能夠"看"到更遠的未來，是實現更複雜任務規劃的必要條件。

歸根結底，τ?-WM做了一件重要的事：它把"想清楚後果再動手"這件原本屬於人類直覺的事情，變成了機器人可以計算和優化的明確目標。當機器人不僅知道該怎麼動，還知道動了之後會發生什麼，並且能據此修正自己的計劃，它處理複雜現實世界任務的能力就進入了一個新的台階。這項研究提供了一個把大規模影片理解能力和機器人執行能力真正統一起來的可行路徑，而實驗結果也支持了這條路值得繼續走下去。

贊助商廣告

---

Q&A

Q1：τ?-WM和普通機器人控制系統有什麼根本區別？

A：普通的機器人控制系統通常是"看到場景→輸出動作"的直接映射，不會預判動作會帶來什麼後果。τ?-WM的核心區別在於它多了一個"後果預想"的環節：在真正執行動作之前，系統會先在內部模擬"如果這樣做，接下來場景會變成什麼樣"，並據此篩選和修正動作方案。這讓它在處理需要多步精細配合的任務時，比傳統方法更不容易在關鍵步驟犯錯。

Q2：τ?-WM訓練用的人類影片數據怎麼幫到機器人動作生成？

A：人類影片數據在τ?-WM中只用來訓練視覺預測能力，不直接參與動作生成的訓練。它的貢獻是讓模型更深刻地理解"物體在被操作時會怎樣運動""接觸發生時場景如何變化"——這些視覺動態規律雖然來自人手的操作，但在模型推理時能幫助影片預測模組生成更準確的未來場景，進而給動作決策提供更可靠的參考依據。從零樣本實驗數據來看，加入人類影片後零樣本成功率從0.14大幅提升至0.55。

Q3：測試時推理增強會讓機器人反應變慢多少？

A：τ?-WM的推理增強採用了"按需啟用"的設計。第一階段的RCS輕量篩選只需要對已生成的候選動作做額外的噪聲擾動和重建計算，額外開銷極小，對響應時間的影響可以忽略。只有當所有候選方案的質量都低於可靠性門檻時，才會啟動第二階段的ACVS深度模擬，這會帶來更多計算開銷。在大多數常規情形下，系統能維持約140到220毫秒的響應延遲，只有在真正困難的關鍵節點才會付出更多計算時間來換取更好的動作質量。