這項研究來自NVIDIA與伊利諾伊大學厄巴納-香檳分校、加州大學聖地亞哥分校、香港理工大學、密西根大學、南洋理工大學、約翰斯·霍普金斯大學以及蒂賓根大學等多所頂尖機構的聯合團隊,於2026年6月18日發布在預印本平台arXiv,論文編號為arXiv:2606.20905。有興趣深入了解的讀者可以通過該編號查詢完整論文。
現在,機器人領域正面臨一個聽起來有些滑稽的困境——為了讓機器人變得聰明,工程師們往往需要給它裝上一大堆"專家顧問":一個專門認路的導航專家、一個專門記事的記憶專家、一個專門看圖說話的視覺專家……這些專家各自為政,互相傳話,結果一旦某個專家出錯,整條鏈子就斷了。這就像你雇了一支豪華團隊來幫你搬家,但廚師只管廚具、司機只管開車、搬運工只管箱子,沒人能統籌全局,最後你的沙發被搬到了陽台,電視被放進了儲物間。
Vesta的出現,就是為了解決這個"群龍無首"的混亂局面。它的核心思路很簡單——把所有這些專家的能力,全部塞進一個人的腦子裡。而且實驗結果表明,這個"全能選手"不僅沒有因為什麼都學而變得平庸,反而在幾乎每項測試中都打敗了那些術業專攻的專家模型。
一、為什麼機器人需要"全能大腦",而不是一群專家顧問
要理解Vesta解決的是什麼問題,不妨先想像一個在超市工作的人形機器人。它需要同時具備好幾種截然不同的能力:當地面髒了,它要規劃出最高效的清潔路線;當有顧客過來詢問,它要理解問題並給出合理答覆;當它不確定某樣東西該被放回貨架還是扔進垃圾桶時,它需要結合常識作出判斷;當它完成了一個區域的清潔之後,它還要記住自己做過什麼,以免重複勞動。這四件事,在今天的機器人領域,通常是由四個完全獨立的模型分別負責的。
這種"專家團隊"模式在實驗室里看起來很美好,因為每個專家都可以在自己的領域裡達到最高水準。但當你把這些專家拼到一起部署到真實世界,問題就接踵而來。首先,多個大型模型同時運行,計算資源的消耗是驚人的;其次,專家之間傳遞資訊本身就會引入延遲;更要命的是,一旦某個專家輸出了一個錯誤的結論,這個錯誤會像多米諾骨牌一樣,在傳遞過程中被後續專家放大和繼承,最終導致整個系統崩潰。研究團隊把這種現象稱為"級聯失敗"。
Vesta的解決思路是把所有專家合併成一個,也就是用一個統一的基礎模型,同時承擔定位、導航、空間推理和長期規劃四大能力。而且這個模型在面對真實機器人任務時,還要能夠記住過去發生了什麼,並基於這段"記憶"做出下一步決策。
二、Vesta是怎麼被"餵"出來的——數據混合的講究
Vesta的基礎是阿里雲的Qwen3-VL-8B模型,這是一個已經具備強大視覺和語言理解能力的大模型。研究團隊對它進行了專門的"增強訓練",而這個過程最關鍵的部分,是精心設計的訓練數據配方。
整個訓練數據集被分成六大類別,每類的比例都經過仔細斟酌。占比最大的是"空間智能"相關數據,約占總量的27.1%,這類數據專門訓練模型理解三維空間中物體的位置關係。緊隨其後的是導航數據,占21.8%,以及物體定位數據,占20.8%。通用視覺語言數據占16.2%,這部分數據的作用是防止模型在專項訓練中"忘掉"原本的通用能力。剩餘的約9.8%是具身推理數據,最後約4.3%來自真實機器人操作的實際數據。
這個數據配方的設計哲學很清晰:大頭給空間相關能力,因為機器人理解世界本質上是在理解空間;保留一塊給通用能力,防止模型變成"單純的機器人工具"而失去泛化能力;最後用少量真實機器人數據來做"落地校準",讓模型知道理論最終要服務於真實操作。
在定位能力的訓練上,研究團隊採用了一種"主幹加尾巴"的策略。主幹部分使用了Objects365、COCO和LVIS等大規模通用物體檢測數據集,這些數據集覆蓋了數以千計的物體類別,能讓模型建立起紮實的通用識別基礎。尾巴部分則專門加入了機器人視角的數據,包括第一人稱視角的觀察、以操作為中心的標註,以及隨時間推移的交互序列。這些數據幫助模型適應機器人特有的觀察條件,比如視角受限、物體被部分遮擋,以及需要預判哪個位置適合抓握等。
導航能力的訓練數據來自R2R、RxR和ScaleVLN三個經典數據集,這些數據集在Habitat和Matterport3D等虛擬環境中被渲染成實際的導航軌跡。在訓練時,模型不僅要看當前幀,還要接收歷史幀作為參考,以便理解自己走過了哪條路。
三、讓機器人有"記性"——記憶模組的設計
機器人任務中有一類格外棘手的挑戰,就是那些跨越很長時間段的任務,比如把雜貨從紙袋裡一樣一樣取出來分門別類放好,或者在四個抽屜里找一塊糖果並記住哪個抽屜已經翻過。這類任務有個特點:下一步要做什麼,高度依賴於之前發生了什麼。用研究者的術語說,這是"非馬爾可夫"問題——當前狀態不能完整描述你需要知道的一切。
Vesta的處理方式是給自己配備一個明確的記憶模組。這個記憶模組的工作方式其實非常樸素,但樸素不代表無效。每走完一個步驟,系統就把這一步的關鍵資訊打包存檔,包括步驟編號、時間戳、當時的視覺畫面、模型做出的決策,以及整體目標。當需要做下一步決策時,這段歷史記錄會被重新注入到模型的輸入中,讓它"回憶"起之前做了什麼。
歷史圖像的數量是有上限的,研究團隊用了兩種不同的採樣策略來從歷史中挑選哪些幀被保留下來:一種是均勻採樣,均等地從歷史時間軸上取點;另一種是偏向近期的採樣,越近的幀被選中的概率越高,因為剛剛發生的事情通常與當前決策更相關。值得一提的是,第一幀永遠會被保留,因為任務的起始狀態對於理解整體進度至關重要。
研究團隊還在決策過程中引入了鏈式思考機制。在給出每個子任務的預測之前,模型會經歷四個思考階段:先做"觀察",描述當前看到了什麼;再做"進度評估",判斷整體任務完成了多少;然後進行"推理",分析下一步應該做什麼以及為什麼;最後才輸出具體的"行動"指令。這四個階段只有行動指令會被寫入記憶,其餘是輔助思考過程。
後來的消融實驗證明,僅用圖像記憶或僅用文字記憶的效果都比兩者結合差。純圖像記憶的模型看到畫面卻難以理解任務進度,容易過早切換行動;純文字記憶的模型則過度依賴文字捷徑,頻繁輸出"繼續當前任務"這種敷衍的答案。圖像加文字的混合記憶才能兩全其美。
四、導航能力——一個模型追平了導航專家
在視覺語言導航領域,衡量一個模型好不好,最核心的指標是它能否把智能體引導到正確目的地。研究團隊用了R2R(Room-to-Room)數據集的未見場景驗證集來測試Vesta,這個驗證集包含1839個導航任務,都發生在訓練時從未出現過的場景中。
Vesta在這項測試中取得了55.5%的成功率,與此前的導航專家模型InternVLA-N1幾乎持平,後者的成功率是55.4%。Vesta在成功率和"預言成功率"兩個指標上甚至微微領先,只是在路徑效率方面略微遜色。相比之下,那些沒有專門訓練導航的通用模型——包括RynnBrain、RoboBrain 2.5和Qwen3-VL——成功率全部是零。這說明導航能力需要專門訓練,但同時也說明,如果訓練數據到位,一個通用模型完全可以達到專家水準。
消融實驗進一步驗證了這一點。當研究團隊用完全相同的架構和訓練資源,只做導航數據訓練時,得到的專家模型成功率為54.1%;只做具身推理數據訓練時,成功率為零;而統一訓練的Vesta成功率達到了55.5%,反而比純導航專家還高了1.4個百分點。這個結果出人意料卻意義重大:不同任務之間的聯合訓練不但沒有相互干擾,反而產生了正向遷移,讓模型在各個維度上都有所提升。
五、具身推理——看圖回答"這裡發生了什麼"
具身推理是一種比普通圖像問答更複雜的能力,它要求模型不僅理解圖像中有什麼,還要理解智能體應該做什麼、能從哪裡抓取物體、物體放在哪裡最合適。研究團隊在十個認知類基準和五個定位類基準上對Vesta進行了綜合測試。
在認知類測試中,Vesta的平均分是68.7,而最強的競爭者RynnBrain得了64.8,RoboBrain 2.5得了56.6,Qwen3-VL得了55.7。Vesta在Open-X VQA上得了89.3分,遠超RynnBrain的74.0;在MindCube空間推理測試上得了80.9分,而RynnBrain只有56.6,RoboBrain 2.5隻有29.2。在EgoTaskQA這項以第一人稱視角理解人類任務的測試上,Vesta得了81.9分,比基礎模型Qwen3-VL高出超過24分。
在定位類測試中,Vesta的平均分是69.9,超過了所有其他模型。RoboBrain 2.5緊隨其後得了69.4,兩者接近,但Vesta在CrossPoint這項需要理解跨視角對應關係的任務上以76.0分大幅領先(RynnBrain只有44.3,Qwen3-VL只有28.7)。
值得特別提到的是,那些純導航專家模型在具身推理測試中的表現近乎災難性——InternVLA-N1由於過度專項訓練出現了"災難性遺忘",在面對任何非導航問題時,都機械地輸出轉向指令,完全失去了回答問題的能力。這是"只會一招"的專家模型最典型的短板。
六、動作規劃——在流水線式的真實任務中輾壓對手
動作規劃測試的場景是這樣的:機器人面對一段預先錄製好的操作影片,每隔固定時間,它要從候選動作列表中選出當前最合適的子任務,並持續追蹤任務進度。這個測試分為兩個數據集:AgiBot公開數據集提供了五類標準機器人操作任務,包括清理桌面、放置水果、分揀零件、摺疊襯衫和補充貨架;內部的以人手為主角的Egocentric Human-Hand數據集則包含了60種極為多樣化的現實任務,從組裝手機到雕刻石頭再到修剪地毯,每種任務只有一條軌跡。
Vesta在這項測試中的表現令人印象深刻。總體平均分達到75.4,而最接近的競爭者RoboBrain 2.5隻有38.5,Qwen3-VL和RynnBrain分別是33.6和33.5。具體到各個子任務,Vesta在清理桌面上得了74.4分(對手最高只有38.7),在放置水果上得了91.0分(對手最高81.6),在分揀零件上得了64.0分(對手最高18.1),在摺疊襯衫上得了80.3分(對手最高38.3),在補充貨架上得了82.3分(對手最高33.0)。即便是在那60個高度多樣化、完全零樣本的人手任務上,Vesta也以60.5分對27.0分大幅領先。
這個測試還特別關注"過渡時刻"——也就是機器人從一個子任務切換到下一個子任務的那一刻。過渡時刻在訓練數據中天然稀少,因為大多數時候機器人都在"繼續執行當前任務"。研究團隊發現,將過渡時刻的訓練樣本按2倍比例過採樣,能顯著提升過渡階段的準確率,同時整體表現也有明顯改善;進一步提升到3倍則收益遞減,還會輕微損害執行階段的準確率。於是2倍成為了默認配置。
七、在真實機器人上驗證——三個考驗"記性"的任務
所有的基準測試都是在虛擬環境或預錄影片上進行的,最終能否在真實機器人上有效運作,才是檢驗一切的終極考場。研究團隊使用了I2RT公司的雙臂YAM夾持機器人,設計了三個專門考驗記憶和推理能力的實測任務。
第一個任務是"尋找物品":一件物品被隨機放置在四個抽屜中的某一個里,機器人要逐一打開抽屜查找,找到後取出放到桌上。任務的挑戰在於,如果同一個抽屜被打開兩次,任務立即判定失敗。這意味著機器人必須記住自己已經開過哪個抽屜,不能重複勞動。
第二個任務是"數水果":桌上擺著一個野餐籃和若干水果,系統指定要放入幾個水果,機器人就要一個一個地把正確數量的水果放進去,然後關上籃子。這考驗的是計數能力,以及在一系列重複動作中不出錯地停在正確步驟。
第三個任務是"記住糖果":桌上放著一塊糖、一個盒子和兩個不同顏色的托盤。機器人要把糖放進盒子、關上蓋子,然後把盒子放到與糖果顏色相匹配的托盤上。難點在於,一旦盒子關上,糖果就不再可見,機器人必須憑記憶知道盒子裡裝的是什麼顏色的糖。
每個任務各測試20次,分三種配置對比:純執行模型(沒有規劃器)、執行模型加Qwen3-VL規劃器、執行模型加Vesta規劃器。結果顯示,加入Vesta規劃器之後,三個任務的平均成功率比純執行模型提升了38.3%,比使用Qwen3-VL規劃器提升了25%。這個結果在統計上的置信度超過4個標準差,意味著這不是偶然現象。研究團隊還指出,在失敗案例中,大多數失敗來自執行模型本身的動作錯誤,而非規劃器的判斷失誤,這說明規劃器已經相當可靠。
歸根結底,Vesta這項研究的意義不只是"又一個比別人強的模型"。它回答了一個在機器人研究領域爭論已久的問題:把所有能力塞進一個模型,真的可行嗎?長期以來,很多研究者認為,每個任務太複雜、差異太大,讓一個模型同時精通所有任務幾乎是不可能的。Vesta的結果給出了一個明確的"可以"——而且不只是"也還行",而是"比專家團隊集體出戰還要強"。
當然,這項研究也坦誠地指出了自己的局限。目前的測試只在一種機器人平台和三種任務上進行了驗證,真實世界的機器人場景遠比這複雜;模型的規模停留在80億參數級別,更大規模下的表現尚未探索;記憶模組目前依賴人工設計的規則,而不是從數據中自我學習。這些都是研究團隊明確列出的"未來工作方向"。
這對普通人意味著什麼?如果這條路線繼續發展下去,未來家庭助理機器人、醫療陪護機器人、工廠操作機器人的內部設計可能會大幅簡化,部署成本會降低,可靠性會提升。機器人不再需要是一群專家的拼湊,而可以是一個真正理解上下文、有記憶、能推理的整體。那個超市裡的清潔機器人,或許某一天真的能夠在打掃地板的同時,禮貌而準確地回答你"芝士片放在哪個貨架"的問題了。
Q&A
Q1:Vesta和普通機器人控制模型有什麼本質區別?
A:傳統機器人系統通常使用多個專門模型分工合作,一個負責導航、一個負責識別物體、一個負責規劃任務。Vesta把這四種能力——定位、導航、具身推理、動作規劃——全部統一進一個模型。好處是減少了模型之間的傳話誤差,降低了計算資源消耗,也避免了某個專家出錯後錯誤層層放大的問題。實驗證明,這個"全能選手"甚至比各領域的專家模型還要表現得好。
Q2:Vesta的記憶功能是怎麼實現的?
A:Vesta用一個明確的記憶模組來記錄任務過程。每完成一個步驟,系統就把當時的圖像、時間戳、步驟編號和決策結果存檔。下次做決策時,這些歷史記錄會被重新注入模型輸入,讓它"回憶"之前發生了什麼。歷史圖像數量有上限,通過均勻採樣或偏向近期的採樣來選取哪些幀保留,第一幀永遠被保留。實驗證明,圖像加文字的混合記憶比單獨用其中一種效果更好。
Q3:Vesta在真實機器人上測試了哪些任務,效果如何?
A:研究團隊用雙臂夾持機器人測試了三項任務:在四個抽屜里找物品(不能重複開同一個抽屜)、把指定數量的水果放進籃子、把糖放進盒子後憑記憶找到顏色匹配的托盤放置。每項任務測試20次。加入Vesta規劃器後,三項任務的平均成功率比沒有規劃器的版本提升了38.3%,比使用Qwen3-VL規劃器的版本提升了25%,統計置信度超過4個標準差。






