宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

機器人的「眼界」決定它的能力上限——字節跳動&北京大學&清華大學聯合研究出了一種讓機器人真正讀懂「進展」的新方法

2026年06月26日 首頁 » 熱門科技

這項由字節跳動Seed實驗室、北京大學與清華大學聯合開展的研究發表於2026年6月,論文編號為arXiv:2606.24742,感興趣的讀者可通過該編號查詢完整論文。

現代機器人技術正在經歷一場安靜卻深刻的變革。科研人員不再只關心機器人能不能完成任務,而是開始追問:機器人在完成任務的過程中,自己到底有沒有"看懂"自己在幹什麼?這個問題乍聽之下有些哲學味道,但背後藏著一個非常實際的工程難題——當機器人從大量混雜質量的操作影片中學習時,它怎麼知道哪段影片值得學、哪段影片不值得學?

這支聯合團隊提出了一個叫做"世界價值模型"(World Value Model,以下簡稱WVM)的新框架,以及一個全新的評測基準——"次優價值測試集"(Suboptimal-Value-Bench)。這項研究的核心思路,用一句話來概括就是:與其用"讀圖識字"的模型來判斷機器人任務完成了多少,不如用真正懂影片、懂時間流動的模型來做這件事。

---

一、機器人學習的隱藏難題:誰來告訴它哪段錄像該學?

想一下你剛開始學做菜的場景。你找來一堆菜譜影片,有的是大廚示範的精準操作,有的是家庭主婦邊聊天邊拖拉的隨意記錄,還有一些是拍了一半放棄的失敗案例。如果你不加區分地照單全收,可能學了一堆壞習慣。機器人面臨的處境完全一樣。

機器人研究領域現在流行的做法是:從海量的人類操作影片中讓機器人學習動作策略。這些影片來自各處,質量參差不齊——有專業操作員流暢完成任務的"模範"示範,也有操作中途卡殼、猶豫、失敗後重來的"次優"片段。如果機器人把所有影片都當成同等重要的課本去學,它會把那些"錯誤示範"里的遲疑、失誤都當成正常操作記下來。這直接導致它學出來的動作策略既低效又不穩定。

解決這個問題的關鍵,就是一個能判斷"當前這幀影片裡,任務完成了多少比例"的工具——也就是所謂的價值模型(Value Model)。價值模型的任務是給每一幀影片打一個0到1之間的分數:0表示任務剛開始,1表示任務已經完成。有了這個分數,機器人就可以優先學習那些穩定向前推進的片段,忽略或者降低那些停滯、倒退的片段的權重。

---

二、現有方法的三道坎:為什麼"讀圖識字"不夠用?

現有的價值模型大多是在一類叫做"視覺語言模型"(VLM)的技術基礎上搭建的。VLM是什麼?你可以把它理解成一個"看圖說話"的AI——它擅長看一張圖,然後回答"這張圖里有什麼"、"任務完成了嗎"這類問題。GPT-4V、Qwen-VL等都是這類模型的代表。

但問題就出在這裡。"看圖說話"的模型有一個天然的局限:它的訓練素材大多是獨立的圖片,或者是時間上很稀疏的截圖序列。換句話說,它並不真正理解"時間流動"這件事。

研究團隊指出現有方法被三道坎擋住了。第一道坎是"監督信號太稀"——現有方法通常只用一個單一的數字來督導模型學習,比如"這段任務完成了0.7",這個信號非常貧乏,模型很難從中學到細膩的進展規律。第二道坎是"只會做一道菜"——很多現有的價值模型是專門為某一個具體任務設計的,比如專門評估"把杯子放進箱子"這個動作,換一個任務就完全失效,根本無法作為通用工具使用。第三道坎是最根本的:這些建立在VLM上的模型缺乏對時間動態的感知能力。它不理解"機器人爪子向前伸了三幀又縮回來"意味著什麼,它只能看到每一幀的靜態畫面。

---

三、世界模型:天生懂"時間"的大腦

與VLM形成對比的,是另一類近年來迅速崛起的技術——世界模型(World Model)。世界模型的核心能力是預測:給它看一段影片的前半段,它能推測接下來會發生什麼。Sora、Wan等影片生成模型背後的技術,本質上就屬於這個範疇。

世界模型天生就是在處理"時間序列"這件事上打磨出來的。它不是在看一張張獨立的圖片,而是在理解事物如何隨時間變化、一個動作會導致什麼後果、現在的狀態預示著未來的走向。這正是判斷任務進展所需要的能力。

研究團隊的核心洞見是:既然世界模型已經掌握了理解時間動態的能力,何不直接把它的"大腦"借來,用於判斷任務價值?這就是WVM的起點。

---

四、WVM的設計:給世界模型裝上一個"進度條"

WVM在技術上的構建方式,可以用一個工廠生產線的比喻來理解。工廠里原本有一條成熟的影片處理流水線(這是世界模型部分),現在研究團隊在這條流水線旁邊增設了一條專門生產"進度評分"的副線(這是價值模型部分),兩條線並行運作,但副線可以隨時從主線上獲取資訊。

具體來說,WVM的基礎是Wan2.2這個開源影片生成模型。對於任意一段機器人操作影片,WVM首先截取一個時間窗口:一幀"前綴幀"(提供背景參考)、h幀當前觀測畫面,以及h幀未來預測畫面,三者合成一個時間膠囊,送入影片變分自編碼器(Video VAE)壓縮成緊湊的隱空間表示。這個過程相當於把影片"濃縮"成一段富含時空資訊的特徵代碼。

在這份代碼之上,影片DiT(擴散變換器)負責處理原本的影片生成任務,而與之並行的價值DiT則專門負責生成價值評分序列。兩條流水線通過一種叫做"混合變換器"(Mixture-of-Transformers,MoT)的機制緊密耦合:價值流水線可以直接"旁聽"影片流水線產生的中間特徵,但影片流水線對價值流水線的存在完全無感知。這種單向資訊傳遞的設計非常精妙——價值流水線充分吸收了影片理解的精華,同時又不干擾影片生成任務本身,確保世界模型的時空理解能力不會因為"兼職"而退化。

價值DiT的輸出不是一個單一的數字,而是一組連續的價值分數序列——也就是一個"進度曲線塊"。用流動匹配(Flow Matching)這種技術來訓練模型生成這條曲線,相當於給模型提供了一種連續、細膩的監督方式,遠比只給一個"0.7分"更能引導模型學到進展的細節。

---

五、訓練中的兩個小技巧:防止作弊,學會倒退

有了這個雙流架構,研究團隊還引入了兩個非常有針對性的訓練增強手段,來解決實際中遇到的具體問題。

第一個是"前綴隨機化"。在推斷階段,WVM會用滑動窗口的方式處理一段長影片:每次處理一個時間塊,相鄰時間塊之間有重疊,前一個塊的末尾評分會作為下一個塊的"前綴"輸入,幫助保持評分的連續性。這本是好事,但研究團隊發現這裡潛藏著一個風險:模型可能會養成"懶惰"的習慣,只是把前綴的分數往前搬,而不真正去看畫面里發生了什麼。為了防止這種投機取巧,他們在訓練時隨機地用一個0到1之間的隨機數來替換正確的前綴值,強迫模型每次都不得不認真觀察畫面內容來給出評分。

第二個是"影片倒放增強"。機器人的訓練數據絕大多數來自成功完成任務的示範,這意味著價值分數幾乎總是單調遞增的——任務越來越接近完成。但現實中,機器人經常出現"倒退"情況,比如抓件失敗後手臂縮回去重試。這種情況下價值分數理應下降,但模型從來沒見過這種模式怎麼辦?研究團隊借鑑了"ReWiND"方法,在訓練時人為構造下降和平穩的進度曲線:對某個時間窗口內的幀進行倒序排列,就模擬出了"退步"的場景;對同一幀重複播放,就模擬出了"停滯"的場景。配合重新標註的價值標籤,模型得以見識到進展曲線的全部形態。

---

六、次優價值測試集:給"不完美表現"評分的新考場

在介紹WVM的性能之前,有必要先解釋一下這項研究的另一個重要貢獻——Suboptimal-Value-Bench的由來和設計。

現有的價值模型評測體系有一個明顯的盲區:它們幾乎只在"成功的、流暢的"演示影片上評測。這就好像只在晴天考駕照,從不在雨天或塞車情況下測試一樣,通過了也不代表真的會開車。現實中的機器人數據充滿了"次優"片段——操作員有時會停下來想一想,有時會因為抓取失敗而把手臂縮回來重試。一個真正好用的價值模型,必須能準確識別這些"問題片段"。

研究團隊為此構建了一個包含800條人工標註軌跡的測試集,覆蓋三種機器人平台(AgileX雙臂機器人、ARX雙臂機器人、RoboSuite仿真單臂機器人)和15個操作任務,總時長超過213分鐘。每條軌跡都經過人工精確標註了幀級別的"真實價值曲線"。

測試集重點關注兩種典型的次優行為模式。一種是"猶豫"——機器人爪子停在目標物體上方,既沒往前抓也沒縮回去,原地僵持了幾秒。這段時間裡任務根本沒有進展,價值分數應該保持平穩不變。評測這種情況用的是RMSE誤差指標,即預測分數與真實恆定分數之間的差距,差距越小說明模型越不會在本該穩定的時候亂飄。另一種是"重試"——機器人嘗試抓取失敗,手臂後退,任務進展實際上在倒退。評測這種情況用的是VOC相關性指標,重點看模型的預測曲線和真實的下降曲線是否一致走向,方向對了才算及格。

為了生成這800條標註數據,研究團隊採用了一套兩階段流程。先用一個大型視覺語言模型自動分析每條影片,粗略定位出"沒有進展"的片段;再讓人工標註員在專用的界面上精確調整邊界,確保每一幀的標註都是由人類最終確認的,而不是模型一手包辦的。

---

七、實驗成績:在三張考卷上的表現

研究團隊將WVM與六個競爭方法進行了系統對比,這六個方法分別是:GVL、VLAC、Robometer、TopReward、RoboReward和Robo-Dopamine,均是當前機器人價值估計領域的代表性工作。

在"猶豫檢測"這張考卷上,WVM的平均RMSE錯誤率只有0.05,而同樣表現不錯的GVL和Robometer的錯誤率是0.14,是WVM的將近三倍。這意味著當機器人在原地踏步時,WVM能穩穩地維持評分不亂跳,而其他方法的評分會因為"不知道該給多少分"而上下抖動。

在"重試檢測"這張考卷上,WVM的平均Retry-VOC得分是0.78,而最強基線GVL只有0.62,其他方法有的得了負分——意味著它們的預測方向完全反了,任務進展在下降時它們反而給出了上升的評分。這個差距非常直觀地說明了WVM在理解"倒退"這件事上的顯著優勢。

在面向成功示範的傳統Expert-VOC測試上,WVM的平均得分是0.95,高於最強基線的0.88,在六個數據集中拿下了五個第一,在自行收集的三個機器人平台數據上更是逼近滿分的0.99。唯一的例外是EgoDex數據集,另一個基線RoboReward略高(0.95對0.92)。研究團隊對此做了有趣的分析:這恰恰說明傳統的Expert-VOC指標本身存在局限性,某種程度上獎勵了那些"依賴前綴數值外推"的投機策略,而不是真正理解影片內容的模型。

---

八、機器人真的開竅了?下游策略提升實驗

價值模型的終極意義不在於評分,而在於幫機器人從混亂的數據中淘金。研究團隊在三個仿真RoboSuite任務(疊方塊、把麥片放進托盤、把牛奶放進托盤)和三個真實AgileX雙臂機器人任務(把老鼠放進盒子、把蝦放進鍋、把記號筆放進支架)上驗證了WVM對機器學習策略的提升效果。

為了模擬真實場景中數據質量不佳的挑戰,實驗刻意只使用次優數據進行策略微調:仿真任務每個只用10條軌跡,真實任務每個只用50條軌跡。基礎策略採用了π0.5-base,這是一個開源的通用機器人操作基礎模型。

實驗比較了三種利用WVM價值評分的方法。第一種是二值過濾:只保留那些價值分數在一個動作片段結束時比開始時更高的數據塊,直接丟棄"進展為負"的片段。第二種是百分位過濾:保留價值進展排名前70%的數據塊,後30%全部捨棄。第三種是優勢加權回歸(AWR):不直接丟棄數據,而是根據價值進展給每個數據塊打一個權重,進展越大權重越高,模型學習時會自動多關注這些片段。

三種方法均以樸素的行為克隆(BC)為基線,結果顯示在仿真任務中,利用WVM的三種策略平均成功率都明顯高於基線;在真實機器人任務中,提升幅度更為顯著。這直接證明了WVM的價值評分確實抓住了"有效進展"的本質,而不是在打無意義的分數。

---

九、消融實驗:拆解WVM,哪個環節最關鍵?

為了搞清楚WVM設計中每個環節的貢獻,研究團隊進行了系統的消融實驗——也就是每次去掉一個組件,看性能如何變化。

關於影片聯合訓練的作用,實驗表明:如果完全去掉影片生成的訓練目標,只讓價值流水線借用影片DiT的特徵,猶豫檢測的RMSE會從0.05升到0.08,重試檢測的VOC會從0.78跌到0.68。如果把影片DiT從零開始隨機初始化訓練,重試VOC進一步跌到0.62。最極端的情況是把影片DiT完全凍結不更新,此時性能最差:猶豫RMSE飆到0.12,重試VOC跌到0.45。這組數字非常清晰地說明了一件事:WVM的強大不僅僅來自"借用了影片模型的參數",更來自"影片模型和價值模型在訓練中持續地共同進化"。影片理解能力和價值估計能力是相互滋養的關係,缺一不可。

關於前綴隨機化比率的選擇,實驗測試了完全不隨機化(p=0)、完全隨機化(p=1)和WVM默認的p=0.5三種情況。完全不隨機化時,Expert-VOC確實達到了0.98的高分,但猶豫RMSE和重試VOC都明顯變差——這正是"投機取巧"的表現,模型只是在複製前綴分數而非真正看畫面。完全隨機化時,重試檢測有所恢復,但Expert-VOC下滑到0.91,說明連續性被破壞了。只有p=0.5在各個指標上達到最均衡的表現。

關於價值輸出頭的設計,實驗對比了WVM的流動匹配輸出頭與另一種常見方案HL-Gaussian(把分數離散化成51個格子,預測落在哪個格子的概率)。結果顯示,HL-Gaussian在重試檢測的VOC上明顯更低,原因正如研究團隊分析的:固定的格子結構保留了整體均值,但抹平了相鄰幀之間細微的分數差異,而恰恰是這些細微差異決定了排序的正確性。

---

十、局限與展望:這條路還長

研究團隊在文中也坦誠地指出了WVM當前的局限。由於算力限制,訓練數據的規模相對有限,因此WVM面對完全陌生的任務和場景時,泛化能力還不夠強。另外,Suboptimal-Value-Bench目前主要聚焦於抓取和放置類任務,對於更精細的操作(比如擰螺絲、穿線、摺疊布料)和需要長時間規劃的複雜任務,測試集的覆蓋還很不足。

從更宏觀的角度來看,這項研究打開了一個有趣的思路方向:世界模型不只是用來"想像未來"的工具,它對時間和空間的深度理解,可以被挪用來解決機器人學習中的各種評估難題。隨著影片生成模型越來越強、訓練數據越來越多,建立在世界模型之上的價值估計框架,很可能成為未來機器人大規模學習的重要基礎設施。

說到底,這項研究解決的問題可以用很生活化的語言來概括:它讓機器人學會了區分"我在認真幹活"和"我在原地磨蹭或者走了彎路",進而讓機器人在學習時能更有選擇性地向好的示範取經。這個能力聽起來很基礎,但它恰恰是機器人從一個"鸚鵡學舌的模仿者"走向"真正理解任務的執行者"的關鍵一步。至於這條路還有多遠,也許值得每一個關注機器人未來的人繼續思考。

---

Q&A

Q1:世界價值模型(WVM)和普通的視覺語言模型在評估機器人任務進展上有什麼本質區別?

A:普通視覺語言模型(VLM)是在靜態圖片或時間稀疏的截圖上訓練的,它缺乏對時間動態的真正理解,面對機器人操作影片時,無法感知"爪子向前伸了三幀又縮回來"這類時序變化的含義。而WVM建立在影片世界模型之上,這類模型天生就是在預測時間序列變化中訓練出來的,能夠理解當前狀態是如何從歷史演變而來、未來又會走向哪裡。因此WVM在判斷任務進展方面,尤其是識別"停滯"和"倒退"這類次優行為時,遠比VLM系方法更準確。

Q2:Suboptimal-Value-Bench是什麼?它和現有的機器人評測基準有何不同?

A:Suboptimal-Value-Bench是這項研究發布的一個新評測基準,包含800條由人工精確標註幀級進展曲線的機器人操作軌跡,覆蓋三種機器人平台和15個任務,總時長超過213分鐘。它的核心特點是專門針對兩種次優行為(猶豫和重試)設計了專項評測指標。現有的主流評測基準幾乎只在成功、流暢的專家示範上測試價值模型,無法反映模型處理現實中大量"不完美"數據的能力,而Suboptimal-Value-Bench填補了這一空白。

Q3:前綴隨機化技術在WVM訓練中具體解決了什麼問題?

A:WVM在推斷時用滑動窗口處理影片,相鄰窗口之間會共享前綴評分以保持連續性。但這種機制會讓模型養成"偷懶"的習慣:直接複製前綴分數往後推,而不去認真觀察畫面內容。前綴隨機化在訓練時以50%的概率將前綴替換成一個隨機數,強迫模型每次都必須依賴視覺資訊來給出評分,防止這種"走捷徑"的行為。實驗表明,不加這個機制時,模型在成功示範的測試上分數虛高,但在次優行為檢測上表現明顯變差,暴露了它只是在搬運前綴而非真正理解畫面。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新