上海AI實驗室造出給機器人「體檢」的儀器——當四款頂尖機器人大腦拿到同一份試卷，成績單藏著哪些驚天秘密？

這項由上海人工智慧實驗室聯合西安交通大學、清華大學人工智慧產業研究院、上海交通大學、浙江大學、清華大學、同濟大學及中國科學技術大學共同開展的研究，以預印本形式發表於2026年6月，論文編號為arXiv:2606.18239，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當一個學生在數學卷子上拿到80分，另一個學生同樣拿到80分，這兩個人真的一樣聰明嗎？不一定——也許第一個人代數滿分但幾何是零蛋，第二個人幾何很強但代數勉強及格。平均分相同，能力畫像卻截然不同。機器人領域正面臨完全一樣的困境：現在最先進的"機器人大腦"（研究者稱之為通用操控策略）在各種測試中都報告一個綜合成功率，但這個單一數字完全無法告訴我們這個機器人到底擅長什麼、在哪裡會出糗。正是為了解決這個問題，上海AI實驗室的研究團隊打造了一套全新的"體檢儀器"，取名EBench。

一、為什麼一個分數遠遠不夠

現有的機器人測試方法，大多像是只考了一門課就給出總成績。有些測試平台專門考桌面上抓取物體，有些只測在房間裡走來走去，有些只看單一動作。更大的問題是，哪怕測試結果顯示兩款機器人大腦的綜合成功率非常接近，你也完全不知道它們各自的短板在哪裡，也不知道換個環境之後哪個更抗打。

研究團隊把這個困境比作結構性缺陷——不是某個工具不好用，而是整個評測框架的設計本身就缺少了關鍵的診斷維度。他們提出了三個核心問題：這個機器人大腦哪裡強？哪裡會崩？當它面對從沒見過的場景、物體或者指令時，性能會怎麼變化？EBench就是為了系統性地回答這三個問題而生的。

二、這份"體檢套餐"里裝了什麼

EBench包含26個精心設計的操控任務，覆蓋9種不同場景——臥室、浴室、廚房、客廳、書房、餐廳、超市、工業環境和物流倉庫。這26個任務被分成三大家族：第一類是移動抓取與放置任務，共10個，機器人需要在空間裡移動並完成搬運，每次任務大約需要600到1000個仿真步驟；第二類是移動長時序任務，共9個，要完成多個連續步驟的複雜動作序列，每次任務可能需要3000到5000步；第三類是桌面精細操作任務，共7個，要求毫米級甚至亞厘米級的精度，比如把釘子插進洞裡、擰緊螺母或者安裝齒輪，每次任務需要1500到3500步。整個仿真系統以每秒60步的物理頻率運行，最長的任務相當於約83秒的真實機器人運作時間。

贊助商廣告

每個任務都被打上了五個維度的標籤，就像給每道菜標註了食材、烹飪方式、難度、口味和出餐時長。這五個維度分別是場景類型、基本動作技能、時間跨度、精度要求和操作模式。基本動作技能細分為11種，包括抓取、放置、推、拉、按壓、插入、倒液體、翻轉、掃、傳遞和移動。精度則分為低精度（誤差10厘米以上可接受）、中精度（誤差在1到10厘米之間）和高精度（誤差必須小於1厘米）。時間跨度分為短任務（不超過2000步）和長任務（超過2000步）。操作模式則區分移動模式和固定精細模式。

這樣的設計意味著，一個綜合成功率可以被拆解成一張能力坐標圖，而不是一個意義模糊的總分。正如用一張成績單同時展示語文、數學、英語、理化的各科成績，遠比只給出總分有用得多。

三、數據從哪裡來：兩條生產線同時開工

收集訓練數據是整個體檢體系的基礎工程。研究團隊面臨一個棘手的矛盾：精細操作任務太複雜，程序自動生成的動作軌跡根本做不到，必須靠人手把手示範；但長時序移動任務又漫長而繁瑣，靠人一步步示範效率極低，還容易在中途出錯。為了解決這個矛盾，團隊設計了兩條並行的數據生產線。

針對7個精細操作任務，團隊採用了一套"演員跟隨"的遠程操控裝置：操作員控制一個與機器人結構完全對應的操控控制器，機器人實時複製每一個細微動作。這種方式能保留操作員在面對複雜接觸時的直覺性微調，比如把釘子對準孔洞時那種微妙的手感反饋，是任何自動化程序都難以替代的。每個精細操作任務通過這種方式積累了400個示範片段。

針對另外19個移動和長時序任務，團隊採用了截然不同的方式：操作員只需要標註出幾個關鍵的空間位置（就像在地圖上標記路標而不是描述每一步走法），然後由一個叫做cuRobo的運動規划算法自動計算出連接這些路標的完整、平滑、無碰撞軌跡。這種方式可以批量生成大量示範片段，而且生成的軌跡還能在不同背景、不同物體外觀、不同光照條件下重新渲染，自然產生出各種泛化變體。每個移動任務和每個長時序任務各積累了200個運動規劃示範片段。

贊助商廣告

整個訓練數據集最終包含9187萬幀畫面、6600個完整示範片段，累計時長91.4小時，以LeRobot格式組織儲存。

四、考卷分成幾種：從熟悉到陌生的四重考驗

EBench的測試集設計得頗為考究，不只是檢驗機器人在熟悉環境裡能不能成功完成任務，更重要的是測試它在陌生情況下的適應能力。研究團隊設計了四種泛化維度，每種維度都代表一種"陌生感"來源。

第一種叫背景泛化：換掉場景的牆面紋理、地板圖案和光照條件，但保持物體和指令不變。這相當於把同樣的任務搬到了裝修風格完全不同的房間裡做。第二種叫物體泛化：換掉要操作的具體物體，用同一類別里形狀不同的新物體替代，比如原來抓的是圓形蘋果，現在換成了外形不同的另一種蘋果。這涉及機器人對物理世界的真實理解能力，因為不同形狀的物體重心不同、抓取方式也不同。第三種叫指令泛化：用不同的說法描述同一個任務目標，比如"把蘋果放到果盤裡"換成"將蘋果移至水果盆中"。這測試的是機器人對語言的理解是否真正靈活，還是只認識固定搭配。第四種叫混合泛化：同時換掉背景、物體和指令，三重陌生感疊加在一起。

至關重要的一點是，訓練集和測試集在資產層面完全隔離——訓練時見過的場景紋理、物體實例和指令措辭，在測試集裡一個都不會出現。這保證了測試結果是真實的泛化能力，而不是對訓練數據的死記硬背。

驗證集分為兩部分：Val-Train包含130個分布內的片段（每個任務各5個），Val-Unseen包含154個使用了陌生物體實例的片段。正式測試集包含510個片段，跨越全部四種泛化維度（大多數任務各20個，兩個長時序任務各15個）。

五、送上考場的四位"考生"

研究團隊選取了目前最具代表性的四款通用視覺-語言-動作模型（可以理解為能同時看圖、讀指令、控制身體的機器人大腦）參與評測：π0、π0.5、XVLA和InternVLA-A1。

贊助商廣告

π0由Physical Intelligence團隊開發，採用一種叫做流匹配的方式生成動作序列，基於大規模多機器人預訓練數據。π0.5是π0的升級版，具備更強的開放世界泛化能力。XVLA由上海AI實驗室等機構研發，將視覺-語言理解和動作執行通過模組化解碼器分離開來處理。InternVLA-A1同樣來自上海AI實驗室，結合了強大的視覺表徵和分層規劃機制。

為了保證比較的公平性，所有四款模型都在完全相同的條件下進行了微調訓練：20萬次梯度更新步驟、批次大小128、AdamW優化器配合餘弦學習率調度，峰值學習率設為1e-5。觀測輸入包括來自左、右和頂部三個視角的224×224像素RGB圖像，加上機器人本體的姿態狀態資訊和自然語言指令。每次預測50步的動作序列，但實際執行時只執行前30步，然後重新預測，這樣的設計既能利用模型的前瞻能力，又不會因為預測太遠而失控。因為仿真渲染器本身存在一定隨機性，每個模型都被獨立評測三次，報告均值和標準差。

六、四份成績單：相似的總分，迥異的能力圖譜

四個模型的綜合測試成功率出奇地接近，落在24.4%到29.5%這個狹窄的區間裡——π0是24.4%，XVLA是24.7%，InternVLA-A1是27.6%，π0.5以29.5%領先。乍一看，這四個學生似乎旗鼓相當。但當研究團隊把成績單按科目拆開來看，畫風就完全不同了。

關於"留住成績"的能力，即模型在熟悉環境裡表現好、在陌生測試集裡也能保持的能力，π0.5做得最好：它在熟悉場景的驗證集上拿到32.1%，在正式測試集上仍然保持29.5%，保留率高達0.92。換句話說，它在熟悉環境裡學到的東西，九成以上能帶到陌生環境裡用。相比之下，InternVLA-A1在熟悉場景里拿到了最高的33.1%，但在陌生物體版本的驗證集上驟降到20.8%，保留率只有0.83，說明它的高分更多是"認臉"而非真正理解。π0的保留率最低，只有0.80，過擬合訓練數據的傾向最明顯。

贊助商廣告

按操作模式拆分時，最觸目驚心的是InternVLA-A1：它在移動操控任務上的成功率和π0.5相當，約為34.7%，但在精細固定操作任務上只有5.8%，移動與精細之間相差了整整29個百分點。這說明它非常擅長規劃"走去哪裡、大概放在哪裡"，但在需要毫米級接觸控制的場景里幾乎完全失效。π0的表現則最為均衡，移動和精細之間只差了11個百分點，雖然絕對值不如π0.5高，但兩種能力的平衡程度是最好的。

按精度拆分時，在要求誤差小於1厘米的高精度任務上，π0以13.8%的成功率領先，其他三個模型都跌入個位數。在低精度任務上，π0.5以44.2%獨占鰲頭，其他模型聚集在35%左右。按時間跨度拆分時，短任務對所有模型都相對友好，成功率集中在24%到32%之間；長時序任務則拉開了差距，InternVLA-A1以29.1%領先，而XVLA從短任務的28.9%驟降到長任務的13.5%，暴露出它的模組化解碼器在處理需要長期規劃的任務時存在明顯短板。

按基本動作技能拆分時，沒有任何一個模型能包攬全部11種技能。π0在拉(Pull)和按壓(Press)上分別拿到47%和50%的高分；XVLA在推(Push)上高達73.8%，但傳遞(Handover)只有5.8%；InternVLA-A1擅長移動(Move)和掃(Sweep)，但按壓和翻轉(Flip)得了0分；只有π0.5做到了在所有11種技能上都沒有出現災難性零分的情況。按場景拆分時，π0.5在臥室、浴室、客廳場景表現最好；InternVLA-A1在廚房和餐廳場景領先；XVLA則在超市場景拿到了最高成績。這些能力版圖的交叉與錯位，是任何單一總分都無法反映的深層資訊。

七、隨著訓練時間增加，誰的成績漲得更穩？

研究團隊還追蹤了四個模型在訓練過程中（每訓練2.5萬步評測一次，共評測到20萬步）的成績變化曲線，分別繪製了在熟悉驗證集和正式測試集上的曲線對比。兩條曲線之間的縱向間距，代表了"在熟悉環境裡學好了但沒法帶到陌生環境"的程度，間距越小越好。

贊助商廣告

π0.5的兩條曲線幾乎同步爬升，間距始終保持較小，到20萬步時達到最高的測試成績，體現出最穩健的泛化能力。π0的成績也在穩步提升，但到後期兩條曲線的間距開始變大，說明後期增加的訓練更多是在強化對訓練數據的記憶，而不是真正提升泛化能力。XVLA的測試集曲線有些波動，一度出現非單調性（也就是訓練更多反而成績短暫下滑），最終在20萬步時恢復並達到不錯的水平。InternVLA-A1則在熟悉驗證集上取得了最強的最終成績，但測試集的間距也是最大的，表明額外訓練主要是在幫助它更好地應對它見過的分布，而非開拓未知領域。

八、四種陌生感，哪個最讓機器人頭疼？

在泛化維度的專項分析中，研究團隊發現了一個清晰的難度層次結構。背景變化和指令措辭變化對四個模型影響都較小，它們在這兩種擾動下仍能維持27%到35%的成功率，說明這些視覺感知層面和語言理解層面的變化對當前模型來說相對容易適應。

然而，物體替換帶來的衝擊要大得多，成功率降至21%到29%。這說明當要操作的物體換成了從未見過的新形狀、新重量時，模型對物理世界的真實理解能力就會暴露出明顯的不足。而當背景、物體和指令三種變化同時疊加（混合泛化）時，成功率進一步降至18%到23%，組合性的分布偏移帶來的麻煩遠超單個因素的簡單疊加。

在四個模型中，π0.5在背景變化、物體替換和混合擾動這三種條件下都是最強的基準；InternVLA-A1則在指令措辭變化這一維度上表現最好，它的語言理解模組似乎對指令的多樣化表達更為魯棒。

九、預訓練到底有多重要：用三個平台做的一次對比實驗

研究團隊還追問了一個很多從業者關心的問題：大規模預訓練（也就是在正式訓練任務之前，先用海量通用數據讓模型學習世界知識）對模型最終表現究竟有多大幫助？為了回答這個問題，他們比較了五款模型在"有預訓練"和"從零訓練"兩種條件下的表現，並且在EBench、LIBERO和RoboTwin 2.0三個不同平台上同時進行了比較。

贊助商廣告

其中Fast-WAM和StarVLA-OFT沒有公開發布的預訓練版本，只參與了從零訓練條件的對比。結果令人印象深刻：在EBench上，預訓練帶來的提升幅度非常顯著，π0從從零訓練的11.2%成功率躍升到有預訓練的24.4%，提升了13.2個百分點；π0.5從8.5%躍升到29.5%，提升了整整21個百分點；XVLA從15.7%升到24.7%，提升了9個百分點。

然而，在LIBERO平台上，預訓練幾乎沒有帶來任何差異——五個條件下的成績全部集中在94%到98%之間，從零訓練的π0甚至比有預訓練的π0略高（95.7% vs 94.1%）。在RoboTwin 2.0的困難任務子集上，情況更加極端：從零訓練的Fast-WAM拿到91.8%，從零訓練的π0拿到88.8%，反而高於所有有預訓練模型的58.4%到76.8%。這說明LIBERO和RoboTwin 2.0這兩個平台的任務已經足夠簡單，以至於不需要預訓練就能接近飽和，自然無法體現預訓練的價值。EBench則是唯一一個在有無預訓練條件下結果存在大幅且穩定差距的平台，因此也是唯一能真正衡量大規模預訓練對通用策略貢獻的評測工具。

十、鏡頭角度也會影響成績：一個意外的發現

在附錄研究中，研究團隊還探索了一個有趣的工程問題：機器人上的主攝影機用哪個角度，會不會影響成績？他們測試了兩種配置：一種是架在工作區上方的俯視廣角攝影機（Overview），另一種是安裝在機器人頭部、視野較小但聚焦於手部區域的近距頭視攝影機（Headview）。

結果發現兩款模型的偏好方向完全相反。π0在切換到頭視攝影機後，測試成功率從24.44%升到26.92%，提高了2.48個百分點；π0.5則在切換後從29.53%降到25.32%，降低了4.21個百分點。進一步按任務類型拆分，π0對頭視攝影機的偏好高度集中在精細操作任務上（差距達+8.38%），在移動任務上幾乎沒有差異（+0.28%）。π0.5對俯視攝影機的偏好則集中在移動和長時序任務上，因為這類任務的工作空間很大，俯視廣角能更全面地覆蓋整個移動範圍。研究團隊認為，這種差異的根源在於兩款模型動作生成頭（action head）的有效感受野不同，導致它們對"最合適的視野範圍"有不同的偏好。不過這種攝影機帶來的差異，在量級上比預訓練帶來的差異小了一個數量級，並不是左右成績的決定性因素。

贊助商廣告

十一、五個"超綱題"：當前所有模型都拿了零分

在任務層面的精細分析中，研究團隊識別出了五個對當前所有模型都構成根本性挑戰的任務：shop（超市購物場景的複雜操作）、bottle（瓶子相關操作）、peg_in_hole（經典的孔插銷任務）、collect_coffee_beans（收集咖啡豆）和flip_cup_collect_cookies（翻轉杯子並收集餅乾）。所有四個模型在這五個任務上的成功率全部不超過5%，跨越多次評測時間點都是如此。

孔插銷任務要求的精度極高，而翻轉杯子再收集餅乾則需要連續的力感知反饋——這兩類任務都超出了當前開環動作模型（也就是一次性生成動作序列而不根據執行中途的反饋隨時調整的模型）的能力邊界。研究團隊建議把這五個任務單獨列為一個"硬核子集"，供未來的模型開發者用作壓力測試基準：任何模型如果能在這個子集上突破10%的成功率，就意味著在真正推動技術前沿。

十二、統計上的嚴謹：用置換檢驗揭開"假象"

研究團隊在論文附錄中還做了一項特別嚴謹的分析，專門防止"錯誤歸因"的陷阱。當我們說某個模型在移動任務上比精細任務好，這個觀察有沒有可能只是因為恰巧移動任務里低精度任務更多，所以看起來移動比精細好，其實真正的原因是精度差異而不是移動/精細的本質區別？

為了排除這類混淆，團隊使用了一種叫做置換檢驗的統計方法：將任務的標籤在任務之間隨機打亂10000次，每次計算打亂後兩組之間的差距，形成一個"隨機差距分布"。如果真實觀察到的差距比99%的隨機打亂結果都要大，那就說明這個差距確實可信，而不只是任務分組碰巧造成的。

分析結果顯示，InternVLA-A1的移動優勢是所有標籤對比中統計可信度最高的（差距+30.9%，p=0.008）。π0.5在低精度任務上的優勢（+37.1%，p=0.030）和在插入類任務上的劣勢（–32.1%，p=0.040）也都通過了統計檢驗。相比之下，場景類別之間的差異大多沒能通過檢驗，因為每個場景里任務數量太少（有的場景只有一到兩個任務），這意味著"π0.5在臥室表現最好"這樣的結論需要謹慎對待，背後很可能只是那個場景里恰好集中了低精度任務，而不是π0.5真的特別擅長臥室風格的視覺輸入。

贊助商廣告

歸根結底，EBench想要告訴機器人研究者的核心資訊其實很樸素：一個綜合分數像一張用摺疊出來的玫瑰，看起來挺好看，但展開來才能用。四款目前最先進的機器人大腦，在這套體檢下呈現出了截然不同的能力圖譜——沒有任何一個是全科優等生，每一個都在某些科目上有明顯的天花板，而這些天花板在綜合總分里被平均掉了，變得隱形。這也正是EBench存在的理由：讓這些隱形的短板變得可見，才能有的放矢地去修補它們。對普通人來說，這項研究意味著未來家裡的服務機器人、工廠里的協作機器人，在被大規模部署之前，能夠得到更全面、更準確的能力評估，減少"考試考得好但上崗之後露餡"的尷尬局面。對想要進一步了解這套評測方法的讀者，可以通過arXiv編號2606.18239找到完整的論文和開源代碼。

Q&A

Q1：EBench和LIBERO、RoboTwin這些已有的機器人評測平台有什麼本質區別？

A：LIBERO和RoboTwin主要聚焦於單一類型的操控場景，而且任務已經相對飽和——就算不做任何預訓練，從零訓練的模型都能達到94%以上的成功率，根本無法分辨有沒有預訓練的差別。EBench的核心區別是同時覆蓋了移動操控、長時序任務和精細操作三大類型，並且為每個任務打上五個維度的標籤，讓一個總成功率能被拆解成一張多維能力圖譜，而不是一個無法診斷問題的單一數字。

Q2：InternVLA-A1綜合成績明明不是最差的，為什麼說它在精細任務上"崩了"？

A：InternVLA-A1在移動操控任務上的成功率約34.7%，和最強的π0.5相當，但在需要毫米級精度的固定精細操作任務上成功率只有5.8%，兩者之間差了整整29個百分點。這說明它的能力高度偏科：非常擅長大範圍的導航決策，但在需要精細接觸控制的場景里幾乎失效。這種差距被綜合總分平均掉了，但在EBench的分維度分析中就暴露得非常清楚。

Q3：EBench里那五個所有模型都接近零分的任務，為什麼當前模型做不了？

贊助商廣告

A：孔插銷這類高精度插入任務和翻轉杯子收集餅乾這類需要力感知反饋的任務，都要求機器人在執行過程中根據實時接觸感知隨時微調動作。但目前主流的通用模型採用的是開環方式，也就是一次性生成一段動作序列然後執行，中途不根據物體的實際反應來調整。這種設計在大多數任務上夠用，但在需要持續力感知閉環的任務上就徹底失效了。