機器人的「眼界」決定它的能力上限——字節跳動&北京大學&清華大學聯合研究出了一種讓機器人真正讀懂「進展」的新方法

這項由字節跳動Seed實驗室、北京大學與清華大學聯合開展的研究發表於2026年6月，論文編號為arXiv:2606.24742，感興趣的讀者可通過該編號查詢完整論文。

贊助商廣告

現代機器人技術正在經歷一場安靜卻深刻的變革。科研人員不再只關心機器人能不能完成任務，而是開始追問：機器人在完成任務的過程中，自己到底有沒有"看懂"自己在幹什麼？這個問題乍聽之下有些哲學味道，但背後藏著一個非常實際的工程難題——當機器人從大量混雜質量的操作影片中學習時，它怎麼知道哪段影片值得學、哪段影片不值得學？

這支聯合團隊提出了一個叫做"世界價值模型"（World Value Model，以下簡稱WVM）的新框架，以及一個全新的評測基準——"次優價值測試集"（Suboptimal-Value-Bench）。這項研究的核心思路，用一句話來概括就是：與其用"讀圖識字"的模型來判斷機器人任務完成了多少，不如用真正懂影片、懂時間流動的模型來做這件事。

---

一、機器人學習的隱藏難題：誰來告訴它哪段錄像該學？

想一下你剛開始學做菜的場景。你找來一堆菜譜影片，有的是大廚示範的精準操作，有的是家庭主婦邊聊天邊拖拉的隨意記錄，還有一些是拍了一半放棄的失敗案例。如果你不加區分地照單全收，可能學了一堆壞習慣。機器人面臨的處境完全一樣。

機器人研究領域現在流行的做法是：從海量的人類操作影片中讓機器人學習動作策略。這些影片來自各處，質量參差不齊——有專業操作員流暢完成任務的"模範"示範，也有操作中途卡殼、猶豫、失敗後重來的"次優"片段。如果機器人把所有影片都當成同等重要的課本去學，它會把那些"錯誤示範"里的遲疑、失誤都當成正常操作記下來。這直接導致它學出來的動作策略既低效又不穩定。

解決這個問題的關鍵，就是一個能判斷"當前這幀影片裡，任務完成了多少比例"的工具——也就是所謂的價值模型（Value Model）。價值模型的任務是給每一幀影片打一個0到1之間的分數：0表示任務剛開始，1表示任務已經完成。有了這個分數，機器人就可以優先學習那些穩定向前推進的片段，忽略或者降低那些停滯、倒退的片段的權重。

贊助商廣告

---

二、現有方法的三道坎：為什麼"讀圖識字"不夠用？

現有的價值模型大多是在一類叫做"視覺語言模型"（VLM）的技術基礎上搭建的。VLM是什麼？你可以把它理解成一個"看圖說話"的AI——它擅長看一張圖，然後回答"這張圖里有什麼"、"任務完成了嗎"這類問題。GPT-4V、Qwen-VL等都是這類模型的代表。

但問題就出在這裡。"看圖說話"的模型有一個天然的局限：它的訓練素材大多是獨立的圖片，或者是時間上很稀疏的截圖序列。換句話說，它並不真正理解"時間流動"這件事。

研究團隊指出現有方法被三道坎擋住了。第一道坎是"監督信號太稀"——現有方法通常只用一個單一的數字來督導模型學習，比如"這段任務完成了0.7"，這個信號非常貧乏，模型很難從中學到細膩的進展規律。第二道坎是"只會做一道菜"——很多現有的價值模型是專門為某一個具體任務設計的，比如專門評估"把杯子放進箱子"這個動作，換一個任務就完全失效，根本無法作為通用工具使用。第三道坎是最根本的：這些建立在VLM上的模型缺乏對時間動態的感知能力。它不理解"機器人爪子向前伸了三幀又縮回來"意味著什麼，它只能看到每一幀的靜態畫面。

---

三、世界模型：天生懂"時間"的大腦

與VLM形成對比的，是另一類近年來迅速崛起的技術——世界模型（World Model）。世界模型的核心能力是預測：給它看一段影片的前半段，它能推測接下來會發生什麼。Sora、Wan等影片生成模型背後的技術，本質上就屬於這個範疇。

世界模型天生就是在處理"時間序列"這件事上打磨出來的。它不是在看一張張獨立的圖片，而是在理解事物如何隨時間變化、一個動作會導致什麼後果、現在的狀態預示著未來的走向。這正是判斷任務進展所需要的能力。

研究團隊的核心洞見是：既然世界模型已經掌握了理解時間動態的能力，何不直接把它的"大腦"借來，用於判斷任務價值？這就是WVM的起點。

贊助商廣告

---

四、WVM的設計：給世界模型裝上一個"進度條"

WVM在技術上的構建方式，可以用一個工廠生產線的比喻來理解。工廠里原本有一條成熟的影片處理流水線（這是世界模型部分），現在研究團隊在這條流水線旁邊增設了一條專門生產"進度評分"的副線（這是價值模型部分），兩條線並行運作，但副線可以隨時從主線上獲取資訊。

具體來說，WVM的基礎是Wan2.2這個開源影片生成模型。對於任意一段機器人操作影片，WVM首先截取一個時間窗口：一幀"前綴幀"（提供背景參考）、h幀當前觀測畫面，以及h幀未來預測畫面，三者合成一個時間膠囊，送入影片變分自編碼器（Video VAE）壓縮成緊湊的隱空間表示。這個過程相當於把影片"濃縮"成一段富含時空資訊的特徵代碼。

在這份代碼之上，影片DiT（擴散變換器）負責處理原本的影片生成任務，而與之並行的價值DiT則專門負責生成價值評分序列。兩條流水線通過一種叫做"混合變換器"（Mixture-of-Transformers，MoT）的機制緊密耦合：價值流水線可以直接"旁聽"影片流水線產生的中間特徵，但影片流水線對價值流水線的存在完全無感知。這種單向資訊傳遞的設計非常精妙——價值流水線充分吸收了影片理解的精華，同時又不干擾影片生成任務本身，確保世界模型的時空理解能力不會因為"兼職"而退化。

價值DiT的輸出不是一個單一的數字，而是一組連續的價值分數序列——也就是一個"進度曲線塊"。用流動匹配（Flow Matching）這種技術來訓練模型生成這條曲線，相當於給模型提供了一種連續、細膩的監督方式，遠比只給一個"0.7分"更能引導模型學到進展的細節。

---

五、訓練中的兩個小技巧：防止作弊，學會倒退

有了這個雙流架構，研究團隊還引入了兩個非常有針對性的訓練增強手段，來解決實際中遇到的具體問題。

第一個是"前綴隨機化"。在推斷階段，WVM會用滑動窗口的方式處理一段長影片：每次處理一個時間塊，相鄰時間塊之間有重疊，前一個塊的末尾評分會作為下一個塊的"前綴"輸入，幫助保持評分的連續性。這本是好事，但研究團隊發現這裡潛藏著一個風險：模型可能會養成"懶惰"的習慣，只是把前綴的分數往前搬，而不真正去看畫面里發生了什麼。為了防止這種投機取巧，他們在訓練時隨機地用一個0到1之間的隨機數來替換正確的前綴值，強迫模型每次都不得不認真觀察畫面內容來給出評分。

贊助商廣告

第二個是"影片倒放增強"。機器人的訓練數據絕大多數來自成功完成任務的示範，這意味著價值分數幾乎總是單調遞增的——任務越來越接近完成。但現實中，機器人經常出現"倒退"情況，比如抓件失敗後手臂縮回去重試。這種情況下價值分數理應下降，但模型從來沒見過這種模式怎麼辦？研究團隊借鑑了"ReWiND"方法，在訓練時人為構造下降和平穩的進度曲線：對某個時間窗口內的幀進行倒序排列，就模擬出了"退步"的場景；對同一幀重複播放，就模擬出了"停滯"的場景。配合重新標註的價值標籤，模型得以見識到進展曲線的全部形態。

---

六、次優價值測試集：給"不完美表現"評分的新考場

在介紹WVM的性能之前，有必要先解釋一下這項研究的另一個重要貢獻——Suboptimal-Value-Bench的由來和設計。

現有的價值模型評測體系有一個明顯的盲區：它們幾乎只在"成功的、流暢的"演示影片上評測。這就好像只在晴天考駕照，從不在雨天或塞車情況下測試一樣，通過了也不代表真的會開車。現實中的機器人數據充滿了"次優"片段——操作員有時會停下來想一想，有時會因為抓取失敗而把手臂縮回來重試。一個真正好用的價值模型，必須能準確識別這些"問題片段"。

研究團隊為此構建了一個包含800條人工標註軌跡的測試集，覆蓋三種機器人平台（AgileX雙臂機器人、ARX雙臂機器人、RoboSuite仿真單臂機器人）和15個操作任務，總時長超過213分鐘。每條軌跡都經過人工精確標註了幀級別的"真實價值曲線"。

測試集重點關注兩種典型的次優行為模式。一種是"猶豫"——機器人爪子停在目標物體上方，既沒往前抓也沒縮回去，原地僵持了幾秒。這段時間裡任務根本沒有進展，價值分數應該保持平穩不變。評測這種情況用的是RMSE誤差指標，即預測分數與真實恆定分數之間的差距，差距越小說明模型越不會在本該穩定的時候亂飄。另一種是"重試"——機器人嘗試抓取失敗，手臂後退，任務進展實際上在倒退。評測這種情況用的是VOC相關性指標，重點看模型的預測曲線和真實的下降曲線是否一致走向，方向對了才算及格。

贊助商廣告

為了生成這800條標註數據，研究團隊採用了一套兩階段流程。先用一個大型視覺語言模型自動分析每條影片，粗略定位出"沒有進展"的片段；再讓人工標註員在專用的界面上精確調整邊界，確保每一幀的標註都是由人類最終確認的，而不是模型一手包辦的。

---

七、實驗成績：在三張考卷上的表現

研究團隊將WVM與六個競爭方法進行了系統對比，這六個方法分別是：GVL、VLAC、Robometer、TopReward、RoboReward和Robo-Dopamine，均是當前機器人價值估計領域的代表性工作。

在"猶豫檢測"這張考卷上，WVM的平均RMSE錯誤率只有0.05，而同樣表現不錯的GVL和Robometer的錯誤率是0.14，是WVM的將近三倍。這意味著當機器人在原地踏步時，WVM能穩穩地維持評分不亂跳，而其他方法的評分會因為"不知道該給多少分"而上下抖動。

在"重試檢測"這張考卷上，WVM的平均Retry-VOC得分是0.78，而最強基線GVL只有0.62，其他方法有的得了負分——意味著它們的預測方向完全反了，任務進展在下降時它們反而給出了上升的評分。這個差距非常直觀地說明了WVM在理解"倒退"這件事上的顯著優勢。

在面向成功示範的傳統Expert-VOC測試上，WVM的平均得分是0.95，高於最強基線的0.88，在六個數據集中拿下了五個第一，在自行收集的三個機器人平台數據上更是逼近滿分的0.99。唯一的例外是EgoDex數據集，另一個基線RoboReward略高（0.95對0.92）。研究團隊對此做了有趣的分析：這恰恰說明傳統的Expert-VOC指標本身存在局限性，某種程度上獎勵了那些"依賴前綴數值外推"的投機策略，而不是真正理解影片內容的模型。

---

八、機器人真的開竅了？下游策略提升實驗

價值模型的終極意義不在於評分，而在於幫機器人從混亂的數據中淘金。研究團隊在三個仿真RoboSuite任務（疊方塊、把麥片放進托盤、把牛奶放進托盤）和三個真實AgileX雙臂機器人任務（把老鼠放進盒子、把蝦放進鍋、把記號筆放進支架）上驗證了WVM對機器學習策略的提升效果。

贊助商廣告

為了模擬真實場景中數據質量不佳的挑戰，實驗刻意只使用次優數據進行策略微調：仿真任務每個只用10條軌跡，真實任務每個只用50條軌跡。基礎策略採用了π0.5-base，這是一個開源的通用機器人操作基礎模型。

實驗比較了三種利用WVM價值評分的方法。第一種是二值過濾：只保留那些價值分數在一個動作片段結束時比開始時更高的數據塊，直接丟棄"進展為負"的片段。第二種是百分位過濾：保留價值進展排名前70%的數據塊，後30%全部捨棄。第三種是優勢加權回歸（AWR）：不直接丟棄數據，而是根據價值進展給每個數據塊打一個權重，進展越大權重越高，模型學習時會自動多關注這些片段。

三種方法均以樸素的行為克隆（BC）為基線，結果顯示在仿真任務中，利用WVM的三種策略平均成功率都明顯高於基線；在真實機器人任務中，提升幅度更為顯著。這直接證明了WVM的價值評分確實抓住了"有效進展"的本質，而不是在打無意義的分數。

---

九、消融實驗：拆解WVM，哪個環節最關鍵？

為了搞清楚WVM設計中每個環節的貢獻，研究團隊進行了系統的消融實驗——也就是每次去掉一個組件，看性能如何變化。

關於影片聯合訓練的作用，實驗表明：如果完全去掉影片生成的訓練目標，只讓價值流水線借用影片DiT的特徵，猶豫檢測的RMSE會從0.05升到0.08，重試檢測的VOC會從0.78跌到0.68。如果把影片DiT從零開始隨機初始化訓練，重試VOC進一步跌到0.62。最極端的情況是把影片DiT完全凍結不更新，此時性能最差：猶豫RMSE飆到0.12，重試VOC跌到0.45。這組數字非常清晰地說明了一件事：WVM的強大不僅僅來自"借用了影片模型的參數"，更來自"影片模型和價值模型在訓練中持續地共同進化"。影片理解能力和價值估計能力是相互滋養的關係，缺一不可。

關於前綴隨機化比率的選擇，實驗測試了完全不隨機化（p=0）、完全隨機化（p=1）和WVM默認的p=0.5三種情況。完全不隨機化時，Expert-VOC確實達到了0.98的高分，但猶豫RMSE和重試VOC都明顯變差——這正是"投機取巧"的表現，模型只是在複製前綴分數而非真正看畫面。完全隨機化時，重試檢測有所恢復，但Expert-VOC下滑到0.91，說明連續性被破壞了。只有p=0.5在各個指標上達到最均衡的表現。

贊助商廣告

關於價值輸出頭的設計，實驗對比了WVM的流動匹配輸出頭與另一種常見方案HL-Gaussian（把分數離散化成51個格子，預測落在哪個格子的概率）。結果顯示，HL-Gaussian在重試檢測的VOC上明顯更低，原因正如研究團隊分析的：固定的格子結構保留了整體均值，但抹平了相鄰幀之間細微的分數差異，而恰恰是這些細微差異決定了排序的正確性。

---

十、局限與展望：這條路還長

研究團隊在文中也坦誠地指出了WVM當前的局限。由於算力限制，訓練數據的規模相對有限，因此WVM面對完全陌生的任務和場景時，泛化能力還不夠強。另外，Suboptimal-Value-Bench目前主要聚焦於抓取和放置類任務，對於更精細的操作（比如擰螺絲、穿線、摺疊布料）和需要長時間規劃的複雜任務，測試集的覆蓋還很不足。

從更宏觀的角度來看，這項研究打開了一個有趣的思路方向：世界模型不只是用來"想像未來"的工具，它對時間和空間的深度理解，可以被挪用來解決機器人學習中的各種評估難題。隨著影片生成模型越來越強、訓練數據越來越多，建立在世界模型之上的價值估計框架，很可能成為未來機器人大規模學習的重要基礎設施。

說到底，這項研究解決的問題可以用很生活化的語言來概括：它讓機器人學會了區分"我在認真幹活"和"我在原地磨蹭或者走了彎路"，進而讓機器人在學習時能更有選擇性地向好的示範取經。這個能力聽起來很基礎，但它恰恰是機器人從一個"鸚鵡學舌的模仿者"走向"真正理解任務的執行者"的關鍵一步。至於這條路還有多遠，也許值得每一個關注機器人未來的人繼續思考。

---

Q&A

Q1：世界價值模型（WVM）和普通的視覺語言模型在評估機器人任務進展上有什麼本質區別？

A：普通視覺語言模型（VLM）是在靜態圖片或時間稀疏的截圖上訓練的，它缺乏對時間動態的真正理解，面對機器人操作影片時，無法感知"爪子向前伸了三幀又縮回來"這類時序變化的含義。而WVM建立在影片世界模型之上，這類模型天生就是在預測時間序列變化中訓練出來的，能夠理解當前狀態是如何從歷史演變而來、未來又會走向哪裡。因此WVM在判斷任務進展方面，尤其是識別"停滯"和"倒退"這類次優行為時，遠比VLM系方法更準確。

贊助商廣告

Q2：Suboptimal-Value-Bench是什麼？它和現有的機器人評測基準有何不同？

A：Suboptimal-Value-Bench是這項研究發布的一個新評測基準，包含800條由人工精確標註幀級進展曲線的機器人操作軌跡，覆蓋三種機器人平台和15個任務，總時長超過213分鐘。它的核心特點是專門針對兩種次優行為（猶豫和重試）設計了專項評測指標。現有的主流評測基準幾乎只在成功、流暢的專家示範上測試價值模型，無法反映模型處理現實中大量"不完美"數據的能力，而Suboptimal-Value-Bench填補了這一空白。

Q3：前綴隨機化技術在WVM訓練中具體解決了什麼問題？

A：WVM在推斷時用滑動窗口處理影片，相鄰窗口之間會共享前綴評分以保持連續性。但這種機制會讓模型養成"偷懶"的習慣：直接複製前綴分數往後推，而不去認真觀察畫面內容。前綴隨機化在訓練時以50%的概率將前綴替換成一個隨機數，強迫模型每次都必須依賴視覺資訊來給出評分，防止這種"走捷徑"的行為。實驗表明，不加這個機制時，模型在成功示範的測試上分數虛高，但在次優行為檢測上表現明顯變差，暴露了它只是在搬運前綴而非真正理解畫面。