卡內基梅隆大學聯合博世研究院出手：讓機器人大腦在"上崗前"先經歷針對性訓練

這項由卡內基梅隆大學語言技術研究所與博世北美研究院及博世人工智慧中心聯合完成的研究，以預印本形式於2026年4月發布於arXiv平台，編號為arXiv:2604.20012v1，尚在同行評審階段。感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

**一個讓機器人"上崗"更順暢的關鍵難題**

教會機器人做事，聽起來應該和教人差不多——先打好基礎，再專門訓練。現代機器人系統的設計思路確實如此：研究者先訓練一個具備視覺理解和語言理解能力的"通用大腦"，也就是視覺語言模型（VLM，可以理解圖片內容並根據語言指令做出回應的AI模型），再在此基礎上疊加"動作生成"能力，讓機器人不只能看、能說，還能動手操作，這類系統被稱為視覺語言動作模型（VLA）。

然而，現實中存在一個尷尬的裂縫：負責打基礎的"通用大腦"是用網路上大量圖片說明、問答對話、文檔理解等內容訓練出來的，而機器人實際要做的事——拿起杯子、移動積木、操作機械臂——所需要的那種理解方式，跟"看圖說話"或者"回答問題"完全不是一個路數。這就好比一個人讀了大量文學、歷史、藝術，突然要去做一名外科醫生——通識教育很有價值，但手術室里需要的那種精準空間感知和操作判斷，和讀書積累的那些能力之間，隔著一道並不小的鴻溝。

正因如此，直接把一個"通用大腦"接上機器人，讓它去完成精細操作任務，效果往往大打折扣。更麻煩的是，研究者們此前也嘗試過專門把VLM在"具身場景"（即機器人所處的真實物理環境類數據）上再做一輪微調，期望讓它更理解機器人世界——但實驗證明，這樣做在VLM的理解能力測試上可能有提升，卻未必能讓機器人真正做得更好。

這項來自卡內基梅隆大學和博世研究院的研究，正是為了填補這道裂縫而來。研究團隊提出了一套名為EmbodiedMidtrain的中間訓練框架，核心思路是：在"通用大腦"和"機器人專項訓練"之間，加入一個經過精心挑選數據的"過渡期"，讓大腦在正式上崗前，先經歷一段與機器人世界更接近的熱身，從而成為一個更好的起點。

贊助商廣告

**一、兩個世界之間的"文化衝擊"有多嚴重**

研究的第一步，是弄清楚這道裂縫到底有多寬。研究團隊把VLM的訓練數據和VLA的訓練數據放在同一個"坐標系"里，用數學方法衡量它們之間的距離。

具體來說，他們讓VLM讀取每一個數據樣本，提取出模型對這個樣本的內部理解表示（可以理解為模型對這段內容的"印象"），然後用一種叫做最大均值差異（MMD）的工具來量化不同數據集之間的分布距離——距離越大，說明兩組數據的"世界觀"差異越大。

結果相當清晰。VLM常用的訓練數據，包括大規模圖文匹配數據（如LAION-400M、CC-12M）、視覺問答數據（如LLaVA-Instruct-665k）、視覺常識推理數據（VCR）等，它們彼此之間的距離普遍較小，屬於同一個大家庭。而機器人操作軌跡數據——比如LIBERO（一個機器人長時程任務數據集）、Bridge-V2（真實機器人桌面操作數據）和Calvin（一個機器人語言條件操作基準測試）——則形成了一片緊湊的"小島"，與VLM那片廣闊的大陸之間隔著相當大的距離。

用t-SNE可視化（一種把高維數據壓縮成二維圖來直觀展示的技術）來看，機器人數據形成的那幾個簇，與VLM數據的主要區域幾乎不重疊，只有極少數VLM樣本漂浮在靠近機器人數據的邊緣地帶。這驗證了一個直覺：大多數VLM訓練數據的"口味"，和機器人任務需要的"口味"，根本不是一回事。

不過，研究者還發現了一個更細膩的現象：這種差距並不是鐵板一塊的二元對立。某些VLM數據源——比如專注於空間指代推理的RefSpatial數據集——與機器人數據的距離，明顯比純圖文描述數據更近。而即使在同一個數據集內部，不同的樣本與機器人世界的相關程度也大相徑庭。換句話說，這不是一道非此即彼的牆，而是一個從"完全不相關"到"高度相關"的連續譜。

這個發現至關重要，它意味著：與其拋棄所有VLM數據重來，不如在VLM那片廣闊的數據大陸上，精準地挑選出那些與機器人世界更接近的"邊境地帶"樣本，用它們來做針對性的過渡訓練。

贊助商廣告

**二、如何從海量數據里"選出好學員"**

弄清楚了問題所在，研究團隊設計了一套數據篩選引擎，核心是一個他們稱之為"鄰近性估計器"的輕量級工具。

這個工具的設計思路，借鑑了一個來自統計學和機器學習的經典結論：如果你訓練一個分類器，讓它區分"屬於A類"和"屬於B類"的樣本，當這個分類器訓練得足夠好時，它給每個樣本打的"屬於A類的概率"，恰好與這個樣本在A類分布下出現的概率與在B類分布下出現的概率之比成單調關係。換句話說，分類器的輸出分數可以作為衡量"這個樣本更像哪個世界的人"的連續尺度。

具體實現上，研究團隊把VLM模型對每個數據樣本的內部表示（也就是模型最後一層的隱藏狀態，可以理解為模型對該內容的"內心印象"）提取出來，凍結不動，再在上面接一個非常簡單的線性分類層，用VLA訓練數據作為正樣本、VLM訓練數據作為負樣本，訓練這個分類器區分兩類數據。為了防止過擬合，訓練在驗證集準確率達到90%時就提前停止，整個訓練過程通常在75到100步內完成。

訓練完成後，這個分類器就成了一個"靠近機器人世界的程度評分員"——對海量VLM數據的每一個樣本打一個0到1之間的分數，分數越高，說明這個樣本與機器人操作數據的"世界觀"越接近。研究團隊從這些分數中篩選出得分最高的約120萬個樣本，構成中間訓練用的精選數據集。

這個設計有幾個值得注意的特點。其一，鄰近性估計器完全建立在凍結的VLM特徵之上，無需對VLM本身做任何改動，計算代價極低。其二，選擇的邏輯不是簡單地"保留某些數據集、扔掉另一些數據集"，而是在每個數據集內部做樣本級別的精細篩選，因為即便是總體上與機器人數據相距較遠的大規模圖文數據集，其中也有相當數量的樣本恰好與空間理解、物體定位等機器人任務高度相關。其三，篩選的結果在覆蓋範圍上保持了高度多樣性，並沒有退化成一堆雷同的機器人風格數據。

贊助商廣告

**三、熱身訓練的實際效果：小模型逆襲大模型**

有了精選數據集，研究團隊就用它對VLM進行中間訓練（全參數微調，批量大小256，訓練5000步），然後再把這個經過熱身的VLM作為起點，按照標準流程訓練成VLA，在三個機器人操作基準測試上進行評估。

三個測試場景各有側重。Calvin ABC-D測試的是機器人在ABC三個場景訓練後能否泛化到沒見過的D場景，評估指標是連續完成五個子任務的平均長度（滿分5）。SimplerEnv Bridge是一個真實到仿真的測試，包含四種桌面操作任務各24次試驗，報告平均成功率。LIBERO-10是該基準中最具挑戰性的套件，包含10個長時程任務，每個任務50次試驗。

實驗結果相當顯著。以1.1B參數量的InternVL3.5-1B為基礎做中間訓練後，該模型在Calvin上的平均完成任務長度從3.173提升到3.714，在SimplerEnv上的成功率從36.5%提升到56.3%，在LIBERO上的成功率從39.0%提升到54.2%。

更引人注目的是橫向比較的結果。在參數量上，這個經過中間訓練的1.1B模型，面對的競爭對手包括7.7B參數的OpenVLA、3.1B參數的π0（基於PaliGemma-1的流匹配模型）、3.8B參數的Qwen2.5VL-3B、8.3B參數的Qwen2.5VL-7B，以及規模從2B到30B的多個Qwen3VL系列模型。這些基線模型全都使用了遠多於中間訓練模型的訓練樣本——在每個基準上，基線模型使用的訓練數據量約為中間訓練模型的6到25倍。

在Calvin上，中間訓練後的1.1B模型以3.714的平均得分超越了OpenVLA（2.548）和π0（3.509），與1.7B的KosMos-2（3.096）、2.9B的Paligemma-1（3.506）、3.0B的Paligemma-2（3.406）形成顯著優勢，與2.1B的Qwen3VL-2B（在全量訓練數據下達到4.142）的差距也大幅縮小。在SimplerEnv上，56.3%的成功率達到了Qwen3VL-4B（56.3%）的水平，超過了Qwen3VL-2B（49.0%）。在LIBERO上，54.2%的成功率超越了KosMos-2（55.0%除外的大多數基線）和多個Paligemma系列模型。

研究團隊還做了一個"跨身體"的遷移實驗：用InternVL3.5-1B的特徵空間篩選出的精選數據集，不做任何調整，直接用來對另一個架構不同的模型Qwen3VL-2B進行中間訓練。結果同樣在三個基準上都有提升——Calvin從3.205到3.584，SimplerEnv從38.5%到45.8%，LIBERO從33.8%到40.2%。這說明鄰近性估計器捕捉到的"與機器人世界接近"這一特性，並不是某個特定VLM的個性偏好，而是一種更普遍的、跨模型適用的分布對齊信號。

贊助商廣告

**四、為什麼不亂選一批數據湊數？消融實驗揭示選擇質量的重要性**

為了驗證精挑細選這個步驟到底有多關鍵，研究團隊做了一系列消融實驗，把學習得到的鄰近性估計器和幾種替代方案進行對比。

第一種替代方案是隨機選擇：從候選數據池裡隨機抽取相同數量的樣本做中間訓練，不做任何基於內容的篩選。結果表明，隨機選擇在三個基準上均不如學習得到的鄰近性估計器——Calvin得分3.398對比3.714，SimplerEnv 43.8%對比56.3%，LIBERO 48.4%對比54.2%。這直接說明了中間訓練的收益不是來自"更多數據"本身，而是來自數據內容與機器人領域的對齊程度。

第二種替代方案是特徵空間平均距離：對每個候選VLM樣本，計算它的VLM內部表示與所有VLA樣本內部表示之間的平均歐氏距離，距離越小的樣本優先入選。這種方法在Calvin上得分3.126，SimplerEnv 53.1%，LIBERO 51.2%——比隨機選擇有所提升，但整體不如學習得到的估計器穩定。

第三種替代方案是VLA條件困惑度：先把VLM在文本形式的VLA數據上微調一遍，然後用這個微調後的模型對候選VLM樣本評估困惑度（困惑度可以理解為模型對這段內容的"意外程度"，越低說明越符合模型預期），困惑度越低的樣本優先入選。這種方法在Calvin上得分3.159，SimplerEnv 55.2%，LIBERO 48.0%。

第四種替代方案是困惑度差值（Delta Perplexity）：計算VLA微調前後對每個樣本困惑度的變化量，差值越負（即微調後困惑度下降越多）說明該樣本越符合VLA的"學習方向"。然而這種方法表現最差，Calvin僅有1.527，說明這個指標捕捉的信號與實際有效性之間存在嚴重脫節。

這些對比共同揭示了一個道理：VLM樣本與VLA領域的對齊程度，是一個需要從數據中學習的複雜信號，而不是可以靠直覺構造的簡單距離或困惑度度量。

**五、熱身訓練的效果從第一步就開始體現**

研究團隊還仔細分析了中間訓練對VLA學習過程本身的影響，通過記錄VLA訓練過程中各個檢查點（即訓練到一半時保存下來的模型狀態）在三個基準上的表現，繪製了完整的訓練動態曲線。

贊助商廣告

曲線顯示，經過中間訓練的VLM在VLA微調的最早階段就已經表現出更高的任務成功率，並且隨著VLA訓練的推進，這個優勢不但沒有消失，反而持續擴大。這說明中間訓練帶來的不是一個一次性的"開局優勢"，而是對模型內部表示的根本性改善，這種改善在整個後續學習過程中都在發揮作用。

有趣的是，對比兩種初始化方式下的VLA訓練損失曲線，兩者幾乎沒有差異——損失值的下降速度和最終水平高度相似。這意味著，如果只盯著訓練損失來判斷模型質量，你根本看不出中間訓練帶來的那些差別。換句話說，在機器人任務上真正重要的模型能力改進，並不必然反映在訓練損失的變化上，這也解釋了為什麼單純在具身場景數據上微調VLM（那樣做同樣會降低訓練損失）卻未必能改善機器人任務表現。

**六、估計器究竟"認為"哪些數據更有價值**

研究團隊還仔細檢查了鄰近性估計器對不同數據的評分結果，從中讀出估計器到底學到了什麼樣的"品味"。

從數據集層面看，RefSpatial（專注於空間指代推理的數據集）獲得了最高的平均分，而VCR（視覺常識推理數據集，主要涉及對圖片中人物行為意圖的理解）獲得了最低的平均分。這與直覺吻合：機器人操作需要的是知道"桌子右邊那個白色杯子在哪裡"這類空間定位能力，而理解"圖中男人為什麼皺眉頭"這類社交心理推斷則與機器人任務幾乎無關。

從樣本層面看，即便是得分最高的數據集，內部樣本的得分分布也相當寬，說明估計器在同一個數據集內部也做了細粒度的分層。一個典型的高分樣本來自RefSpatial，內容是這樣的："你站在坐標（0.878, 0.780）這個點上，正前方是什麼？答：右下角那輛白色啞光卡車。"以及"請指出右上角那台黃色金屬起重機上的一個點：答：[(0.976, 0.244)]。"——這類樣本要求模型同時完成空間定位和物體指代，恰好是機器人感知和操作所需的核心能力。而一個典型的低分樣本則是一張書籍封面的圖片，配上"這本書是誰寫的？答：Charles P. McKeague。這本書的書名是什麼？答：三角學。"——純文字識別和書目資訊檢索，與機器人任務幾乎沒有關聯。

贊助商廣告

最終篩選出的120萬樣本中，LAION-400M貢獻了最大的絕對數量（占比32.0%），但這不是因為LAION整體上與機器人數據接近，而是因為這個數據集總體規模極大，哪怕只有很小比例的樣本夠格，絕對數量依然可觀。LLaVA-Instruct-665k貢獻了20.2%，RoboPoint貢獻了19.9%，RefSpatial貢獻了14.7%，Robo2VLM貢獻了9.2%，CC-12M貢獻了3.7%，而EmbSpatial-Bench和VCR則幾乎被完全淘汰（分別僅占0.1%和0.0%）。這種組成結構體現了估計器自然形成的平衡：來自專業數據集的空間推理樣本有較高的"命中率"，來自大規模通用數據的樣本則貢獻了絕對數量，兩者共同構成一個既對齊機器人領域又保持廣泛多樣性的中間訓練集。

關於多樣性的保持，研究團隊用一個叫做均勻性指標的工具（基於特徵空間中樣本對之間距離的統計，分數越高表示數據分布越均勻、越多樣）進行了量化。結果顯示，精選後的VLM數據多樣性得分為1.93，與通用VLM數據的1.96非常接近，遠高於具身導向VLM數據的1.62和VLA數據的1.26。換句話說，這次篩選並沒有把數據範圍壓縮到只剩機器人風格內容，而是在整體向機器人領域靠攏的同時，保留了廣泛的視覺和語言覆蓋面。

**七、中間訓練之後，VLM本身還好嗎**

除了在機器人任務上的提升，研究團隊也關心：這番針對性的熱身訓練，會不會削弱VLM原本在其他視覺語言任務上的能力？畢竟，一個變成了"機器人專家"卻忘記了如何看圖說話的模型，應用範圍會大打折扣。

研究團隊在五個VLM標準基準測試上評估了中間訓練前後的變化。結果顯示，在POPE（物體幻覺評估）上幾乎沒有變化（86.33 vs 86.29），在VisuLogic（視覺邏輯推理）和3DSRBench（三維空間推理）上略有提升（21.00→24.90和47.87→49.51），而在BLINK（多模態感知基準）和SpatialEval（空間推理基準）上有中等程度的下降（43.45→40.45和49.82→48.00）。

這個結果表明，中間訓練對VLM的原有能力並非無損保留，而是帶來了一種有選擇性的調整：它強化了與機器人任務相關的能力（如三維空間推理），同時對某些更偏向通用感知或特定類型空間理解的能力有所削弱。這種權衡是可以接受的，因為中間訓練的目標本來就不是讓VLM在所有任務上變得更好，而是讓它成為VLA學習的一個更好的起點。

贊助商廣告

---

歸根結底，這項研究回答了一個非常實際的問題：當我們想讓AI控制機器人做事時，AI的"通識教育"和"專業訓練"之間應該怎麼銜接？研究團隊的答案是：不需要拋棄通識教育，也不需要無休止地增加專業數據，只需要在兩者之間加入一段精挑細選的"過渡課程"，讓大腦在上崗前先調整好狀態。

這個思路的意義或許不止於機器人領域。當人們把一個通用AI系統改造為某個垂直領域的專家系統時——無論是醫療診斷、工業檢測還是自動駕駛——"如何讓通用大腦向專業領域平穩過渡"都是同一類問題。EmbodiedMidtrain提供的解法——用一個輕量級分類器來衡量數據的領域對齊程度，然後用篩選出的樣本做中間訓練——是一個計算代價低、無需改變模型架構、具有跨架構遷移性的方案。

當然，這項研究也留下了一些開放的問題。鄰近性估計器的有效性依賴於VLA訓練數據作為"靶點"，如果目標領域的數據本身很稀缺，這套方法的可行性就需要重新評估。此外，中間訓練對部分通用VLM能力的削弱，在某些需要VLM同時兼顧多類任務的場景下可能是個需要權衡的問題。

感興趣深入了解這項研究的讀者，可以通過arXiv編號2604.20012查閱完整論文，研究團隊也承諾將開放全部代碼、數據和模型，供後續研究使用。

---

Q&A

Q1：EmbodiedMidtrain和普通的機器人VLM微調有什麼區別？

A：普通微調通常是直接在機器人場景數據上繼續訓練VLM，但實驗表明這種做法在VLM理解能力測試上可能有提升，卻未必改善機器人實際操作表現。EmbodiedMidtrain不使用機器人場景數據微調VLM，而是從VLM原有的海量訓練數據中篩選出與機器人任務"世界觀"更接近的子集，用這個精選子集對VLM進行過渡訓練，讓它在進入機器人專項訓練前就具備更好的基礎狀態。

Q2：鄰近性估計器訓練起來複雜嗎，成本高不高？

A：鄰近性估計器非常輕量。它是一個簡單的線性層，建立在凍結的VLM特徵之上，不需要對VLM本身做任何改動。訓練時批量大小128，通常在75到100步內就完成（提前停止條件是驗證集準確率達到90%），計算代價極低。訓練完成後對所有候選數據評分篩選，整個流程與後續的中間訓練本身相互獨立，不增加中間訓練階段的額外開銷。

贊助商廣告

Q3：用InternVL3.5-1B篩出的數據，能不能直接拿去訓練其他VLM？

A：可以，而且實驗驗證了這一點。研究團隊將用InternVL3.5-1B特徵空間篩選出的精選數據，直接用於對架構不同的Qwen3VL-2B進行中間訓練，結果在Calvin、SimplerEnv和LIBERO三個基準上均有提升。這說明鄰近性估計器捕捉到的數據對齊特性具有跨模型遷移性，不依賴於特定的VLM架構，反映的是數據內容本身與機器人領域的相關程度。