當AI也搞不清楚「前左輪」和「後右輪」的區別——馬克斯·普朗克資訊學研究所等機構提出的SOCO基準測試

這項由馬克斯·普朗克資訊學研究所（隸屬薩爾蘭資訊學園區）、CISPA亥姆霍茲資訊安全中心以及弗萊堡大學聯合開展的研究，於2026年6月以預印本形式發布，論文編號為arXiv:2605.31597v2。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

一、當AI認識了"輪子"，卻分不清哪個是哪個

你有沒有想過，當我們說一個人"真正認識"一輛自行車，意味著什麼？對大多數人來說，認識一輛自行車，不只是知道它叫"自行車"這個名字，也不只是能把它和摩托車或者汽車區分開來。真正認識它，意味著你能清楚地指出它的左手把和右手把、前輪和後輪、車座和踏板——而且不管這輛自行車是紅色的還是藍色的，不管它是新的還是鏽跡斑斑的，不管你從什麼角度看它，你都能穩穩地認出那些對應的部件。

現在，把這個挑戰交給目前最強大的人工智慧視覺模型，結果會怎樣？研究團隊發現，答案有些出乎意料：這些模型能認出"輪子"這個概念，但往往搞不清楚眼前的這個輪子到底是前左輪、前右輪，還是後左輪。更有意思的是，當你讓它把一輛汽車的某個部件，和一輛公共汽車上對應的部件對應起來時，很多模型就開始犯難了。

這個問題，就是這篇論文想要測量和解決的核心：我們到底該如何衡量AI對物體結構的"真正理解"？研究團隊為此專門打造了一套名為SOCO的基準測試系統，並且發現了一系列現有模型的盲點。這不只是學術圈內的技術討論，而是直接關係到機器人抓取物體、自動駕駛汽車識別路上的行人和障礙物、以及醫療影像分析等實際應用場景。

二、現有的"考試題目"出了什麼問題

在理解SOCO的創新之前，先要弄清楚研究者們發現的老問題在哪裡。

過去幾年，研究者們已經有了一些用來測試AI視覺理解能力的"標準考題"，其中最廣為人知的叫做SPair-71k。這個數據集包含71000張圖片對，涵蓋18種物體類別，算是當時的行業標準。此外還有PF-PASCAL、PF-WILLOW、MISC210K等數據集，各有側重。

贊助商廣告

但這些"考題"有一個共同的根本缺陷：它們混淆了兩件本質上不同的事情。

一件事是"認出同一個局部概念"。比如，看到一輛自行車，能認出"這裡有一個輪子"。另一件事是"搞清楚這個概念在整個物體裡的具體位置"。比如，這個輪子是前輪還是後輪？是左邊的還是右邊的？

更嚴重的問題是，這些舊數據集的關鍵點標註方式相當隨意和混亂。有些關鍵點是純粹根據幾何形狀定義的，比如"電視機邊框的中間點"或者"船身輪廓的中點"——這些點和真正有意義的語義概念毫無關係，不同人標註的結果可能完全不同。對於那些有大量形態變化的物體類別（比如船，形狀千變萬化），或者那些有高度對稱性的物體（比如花瓶、花盆），這種基於幾何的標註方法更是會產生嚴重的歧義。舉一個具體的例子：在現有數據集裡，"火車"這個類別的關鍵點定義就前後不一致，有時候"末端"指火車頭那邊，有時候又指車尾那邊。

另一個重大缺失是，這些舊數據集都只在同一類物體內部測試對應關係——汽車配汽車，椅子配椅子。但真實世界裡，汽車和公共汽車、卡車在很多部件上是相通的。如果AI能真正理解"輪子"這個概念，它應該能把汽車的前左輪和公共汽車的前左輪對應起來。現有測試完全忽略了這種跨類別的遷移能力。

再加上，沒有任何一個現有數據集為關鍵點提供了自然語言描述，使得無法對大型視覺-語言模型（就是那種既能看圖又能理解文字的模型，比如GPT-4V）進行系統性評估。

三、SOCO：一套有"分類樹"的新考試體系

研究團隊設計SOCO（語義物體對應關係數據集）的核心思路，是先建立一個清晰的"分類框架"，然後在這個框架上收集數據、設計測試。

這個框架把"理解物體"這件事分成了三個層次，就像是從認識"輪子"這個詞，到搞清楚是哪個輪子，再到跨越不同車型都能對上號這三個遞進的階段。

贊助商廣告

第一個層次叫做"概念對應"（CC），測試的是能不能認出同一個局部概念。給你看兩輛不同的自行車，你能不能把"手把"和"手把"對應起來？注意，這裡不要求分清楚是左手把還是右手把，只要認出"這兩個地方都是手把"就算過關。這個任務相對容易，但對於那些有多個相同部件的物體（比如有四條腿的椅子），正確答案可能不唯一。

第二個層次叫做"語義物體對應"（SOC），要求更高。不僅要認出是同一個概念，還要確定是物體上的哪個具體位置。給你看兩輛自行車，要把左手把和左手把對應，右手把和右手把對應，不能搞混。這時候，答案是唯一的——每個關鍵點只有一個正確的對應點。要完成這個任務，AI必須既懂得"手把是什麼"，還要明白"在這輛車的坐標系裡，左邊和右邊意味著什麼"。

第三個層次叫做"跨類別語義物體對應"（Cross-SOC），挑戰最大。要把一輛汽車的前左輪和一輛公共汽車的前左輪對應起來，或者把一輛拖拉機的前左輪對應上去。這需要AI能夠抽象出"前左輪"這個概念，並理解它在不同形態的車輛上是如何體現的。

為了支撐這三個層次的測試，研究團隊建立了一個橫跨100個物體類別的關鍵點分類體系，把這100類物體組織成四個大類：交通工具（31類，包括汽車、公交車、火車、飛機、自行車等）、手持物品（20類，包括吉他、小提琴、電鋸、手槍等）、家具（9類，包括椅子、桌子、床等）以及動物（40類，覆蓋了大量哺乳動物和鳥類）。

每一個關鍵點都用一個"元組"來描述：物體類別是什麼、涉及的概念是什麼、這個概念點在部件內的位置、這個部件在整個物體上的位置。比如，"公交車前左輪的中心點"這個關鍵點，就用（公交車，輪子，中心，前左）這四個要素來唯一確定。這種標註方式徹底消除了歧義，任何人按照這套規則標註，結果都應該是一致的。

贊助商廣告

四、4000張圖、100萬對應關係：數據是怎麼收集的

光有框架還不夠，還需要大量高質量的標註數據。研究團隊的數據收集工作相當紮實。

所有圖片都來自著名的ImageNet數據集，這是電腦視覺領域最重要的圖像庫之一，包含了海量日常物體的圖片。對於人造物體類別，研究團隊藉助ImageNet3D數據集已有的二維和三維標註資訊來輔助工作；對於動物類別，則利用了Animal3D數據集中已有的動物關鍵點標註。篩選標準很嚴格：圖片必須包含有效的姿態資訊，畫面中只能有一個主要物體，而且物體必須足夠大。

每個物體類別選取40張圖片，確保覆蓋不同的拍攝角度、不同的形態變化和不同的個體差異。100個類別乘以40張，一共4000張圖片。

人造物體的關鍵點標註工作通過亞馬遜的眾包平台（Amazon Mechanical Turk，AMT）進行，但設計了嚴格的質量控制流程。研究團隊專門開發了一個用戶友好的標註界面，裡面內置了關鍵點參考卡——告訴標註者這個關鍵點應該在哪裡，長什麼樣。每一張圖片由三位合格的標註者獨立完成，結果經過去除異常值後取中位數合併。所有標註都經過了人工覆核，確保一致性和準確性。

質量檢驗的結果相當令人滿意：標註者之間的差異，用圖像最大邊長的百分比來衡量，中位數只有0.85%——大約只有一兩個像素的誤差。在人工覆核階段，65.4%的標註只需要做細微調整，僅有6.8%需要較大修正（主要是因為某些標註者混淆了"左"和"右"的約定）。

最終，通過在同類別圖片之間配對（要求至少有三個共享關鍵點），研究團隊生成了約73000對"語義物體對應"圖像對，包含約56萬組關鍵點對應關係。跨類別配對則更加龐大，由於類別之間的配對組合數量巨大，最終生成了約130萬對跨類別對應關係。加上同樣圖像對生成的"概念對應"數據，整個數據集覆蓋超過100萬組對應關係。

每個關鍵點還配套了一句自然語言描述，比如"公交車前左輪的中心點"。這些描述按照統一模板生成，確保表述一致，也為後續測試語言-視覺模型奠定了基礎。

贊助商廣告

五、14個頂級AI模型一一接受"駕照考試"

有了這套完整的測試體系，研究團隊挑選了14個當前最具代表性的視覺基礎模型來參加這場"駕照考試"。評分標準叫做PCK（正確關鍵點百分比）：預測出來的關鍵點位置，如果落在真實位置方圓一定範圍（以物體包圍框最大邊長的10%為半徑）之內，就算答對了，最終計算答對比例。

這14個模型來自不同的技術路線。DINO家族（包括DINOv1、DINOv2、DINOv3）是用自監督學習訓練的，沒有人工標註的監督信號，只靠圖像自身的內在結構來學習特徵。iBOT和I-JEPA也是自監督模型，但訓練方式各有特點。C-RADIOv3和DUNE是從其他強大模型"蒸餾"出來的，學生模型繼承了老師模型的能力。SD 2.1是大名鼎鼎的Stable Diffusion擴散模型，最初是用來生成圖像的，這次被用來提取特徵。CroCov2是專門針對多視角重建任務訓練的。MAE是一種"遮住圖像的一部分，讓模型學著把它補全"的自監督方法。PIXIO是把這種補全式學習大規模擴展後的結果。CLIP則是用大量圖文對訓練的，學會把圖像和對應的文字描述對應起來。PE-Spatial是PerceptionEncoder的空間感知變體，用了非常大規模的對比學習數據。QWEN-L是多模態大語言模型Qwen2.5-VL的視覺編碼器部分。

測試在三種難度下進行，對應前面介紹的三個層次：概念對應（CC）、語義物體對應（SOC）和跨類別語義物體對應（Cross-SOC）。每種測試抽取固定的2萬對圖像進行評估，確保每個類別的比例均衡。

六、最強模型也過不了的關：被數據揭示的三大盲點

測試結果展現出了一幅相當清晰的圖景，可以用三條核心發現來概括。

第一條發現：強大的語義識別能力，不代表對物體幾何結構的理解。

這一點在所有模型上都表現得非常一致。以DINOv2為例，它在概念對應（CC）任務上的得分高達78.9分，算是相當強了。但切換到語義物體對應（SOC）之後，分數掉到了60.4分，直接跌了18.5分。這個跌幅說明，DINOv2能認出"這裡有一個輪子"，但經常搞不清楚這個輪子是前輪還是後輪、左邊還是右邊。

贊助商廣告

更有趣的是，這個跌幅隨著模型整體能力的增強而增大，而不是減小。換句話說，越聰明的模型，在這個問題上暴露出來的差距反而越大——因為它們在概念識別上爬得越高，幾何感知能力的短板就越明顯。

進入跨類別對應（Cross-SOC）測試之後，分數進一步下滑。DINOv2的跨類別得分是55.0，比概念對應低了近24分。排在第二位的DINOv3，CC得分69.7，SOC得分55.5，Cross-SOC得分49.4，同樣呈現出階梯狀下滑。

相比之下，像MAE和CroCov2這樣主要做圖像補全或重建的模型，無論在哪個層次上分數都很低（大約10分左右），接近隨機猜測。這些模型學到的是"怎麼把一張圖修好"，而不是"圖裡的物體部件叫什麼、在哪裡"。

反觀Stable Diffusion（SD 2.1），它的整體分數中等，但在專門測試幾何感知能力的SOC-geo（只看模型能不能區分同一概念的不同幾何實例，比如區分前輪和後輪）測試中，SD 2.1的得分高達66.96分，超過了DINOv2的60.97分。這說明圖像生成模型在某種程度上學到了比判別式模型更多的空間幾何資訊，因為生成圖像本身就需要準確理解物體各部件的空間位置。

第二條發現：不同物體類別對模型的挑戰程度差異懸殊。

四個大類在SOC測試上的表現很不一樣。家具類別對所有模型來說都是最難的，DINOv2在家具上的SOC得分只有45.5，但CC得分卻高達77.5，差距超過32分。這很容易理解——椅子有四條腿，桌子也有四條腿，這些腿在外觀上幾乎一模一樣，模型很難根據局部外觀來判斷這到底是哪一條腿。

交通工具類別的情況類似，因為車輛通常有左右對稱的多個相同部件（四個車輪、多個車門窗）。動物類別的跌幅相對小一些——畢竟動物不同部位的外形差異更明顯，頭和尾巴很難搞混。手持物品類別居中。

另外，在家具類別的SOC任務上，DINOv3（59.9分）明顯超過了DINOv2（45.5分），儘管DINOv2在整體上表現更好。這提示不同的訓練方式會帶來不同的優勢，綜合排名掩蓋了很多有價值的資訊。

贊助商廣告

第三條發現：密集的自監督學習目標比全局對齊的目標更有利於語義對應。

DINO家族的模型在概念對應任務上表現突出，說明它們的自監督目標促使模型學到了強健的局部語義特徵。與此對比鮮明的是CLIP——CLIP用大量圖文對進行對比學習，訓練目標是讓整張圖像的全局特徵和對應文字描述對齊，結果它在CC任務上只有24.9分，比DINOv2低了54分。

這個發現的含義是：為了認識"整張圖描述了什麼"（比如"這是一張草地上有一隻狗的圖片"）而訓練的模型，和為了精確定位"圖里某個具體部件在哪裡"而訓練的模型，學到的是不同類型的表示。前者擅長全局理解，後者擅長局部定位。

有意思的是I-JEPA，它只在ImageNet-1k這個相對較小的數據集上訓練，卻在SOC任務上取得了46.3分，表現出相當不錯的結果。這也許和SOCO數據集本身來自ImageNet有關——I-JEPA對這些圖像的"熟悉度"更高。

七、語言模型來參加視覺考試，結果如何

SOCO的另一個重要貢獻是系統性地測試了那些既能看圖又能理解文字的大型視覺-語言模型（LVLMs）。參與測試的模型包括LLaVA-OV-7B、InternVL3.5-8B、Qwen2.5-VL（3B和7B兩個版本）、Qwen3-VL（4B和8B兩個版本）以及GPT-4o。

測試形式被設計成四選一的選擇題：在目標圖像上標記四個候選關鍵點A/B/C/D，問模型"哪一個是正確的對應點"。為了防止模型靠猜答案的順序來作弊，每道題用四種不同的選項排列問四遍，只有四次都答對才算真正答對。這種嚴格的評分方式叫做CircularEval協議。隨機猜測的期望分數是25分。

測試分三種情境進行。第一種（Vis.）是純視覺模式：在來源圖像上用紅色箭頭標出查詢關鍵點，讓模型根據這個視覺提示找到目標圖像上對應的點。這是最直接的跨圖像視覺對應測試。第二種（Vis.+Desc.）在視覺提示的基礎上額外提供文字描述。第三種（Desc.）完全去掉來源圖像，只給文字描述，讓模型在目標圖像上找到被描述的關鍵點。

贊助商廣告

結果揭示了一個非常一致的規律：所有測試的模型，在純文字描述模式下的表現都明顯好於純視覺模式，而加了文字描述之後的表現也好於純視覺模式。Qwen2.5-VL-7B在純視覺模式下只有19.4分（僅比隨機猜測高出不到8分），切換到文字描述模式後跳升到39.1分。LLaVA-OV-7B在純視覺模式下只有可憐的2.9分，遠低於隨機猜測水平，這意味著它甚至在主動犯錯；但用文字描述之後，它能達到24.3分。Qwen3-VL-8B是所有測試語言模型中表現最好的，文字描述模式下達到54.0分。

這個規律的含義很深刻：當前的大型視覺-語言模型，更擅長的是"看到文字描述，在圖里找到對應的東西"，而不是"看著一張圖上標出的點，再在另一張圖上找出對應點"。前者是一種語言引導的定位能力，後者是一種純粹的視覺對應能力，兩者有本質區別。

然而，把語言模型和視覺模型放在同樣的四選一協議下比較時，對比更加觸目驚心：DINOv2適配成四選一模式後得分高達81.0分，比最強的語言模型Qwen3-VL-8B的54.0分還高出近27分。這說明，即便是不懂語言的純視覺模型，在精確的視覺特徵匹配上依然遠強於那些既能看圖又能說話的多模態模型。

研究團隊還額外測試了不同視覺提示標記（用什麼形狀、什麼顏色來標註關鍵點）對語言模型表現的影響。結果發現，紅色箭頭是最有效的組合，各種變體之間的差距在幾個百分點以內。

八、SOC得分能預測模型在其他任務上的表現嗎

研究團隊做了一個很有價值的擴展實驗：把SOC評分和多種其他下游任務的表現相關聯，看看誰更能預測一個模型的"綜合表現"。

參與這個橫向比較的一共有37個視覺模型。除了SOC測試，每個模型還在以下任務上進行了評估：語義分割（在ADE20K數據集上測量能否準確劃分圖像中不同物體的區域）、三維物體檢測（在ARKitScenes數據集上測量能否準確定位室內物體的三維位置）、三維姿態估計（在ImageNet3D數據集上測量能否準確推斷物體的三維朝向）、多視角幾何對應（在NAVI數據集上測量能否在不同視角的圖像之間建立精確的幾何對應）、零樣本跟蹤（在TAP-Vid-DAVIS數據集上測量能否在影片中準確追蹤指定點的運動）、深度估計和表面法線預測（在NYUv2數據集上測量對單張圖像的三維幾何理解）。還有一個對照指標：ImageNet k近鄰分類準確率，也就是傳統上用來衡量模型表現的"標準考試"。

贊助商廣告

用統計學中的皮爾遜相關係數來衡量SOC分數和各任務分數之間的相關程度，結果非常清晰。SOC分數和多視角幾何對應任務的相關係數高達0.943，和零樣本跟蹤的相關係數是0.907，和三維物體檢測的相關係數是0.892，和三維姿態估計的相關係數是0.692，和語義分割的相關係數是0.629，和深度估計的負相關係數是-0.798，和表面法線預測的負相關係數是-0.737（這兩個負相關很正常，因為這兩個任務的評分方式是誤差越低越好，所以和代表能力越強越好的SOC分數呈負相關）。

相比之下，ImageNet kNN分類準確率和這些任務的相關係數要低得多，比如和多視角幾何對應只有0.266，和零樣本跟蹤只有0.286，甚至95%置信區間都包含了0，說明對某些任務來說，ImageNet分類準確率根本不能可靠地預測表現。

這個發現對AI研究社區有很強的實踐意義：花大量計算資源在ImageNet上做評估，可能並不是最高效的評估方式。在零樣本（不需要額外訓練）的前提下做一次SOC測試，能以更低的成本對模型在密集視覺任務上的能力給出更準確的預測。

九、這一切對機器人和未來AI意味著什麼

說到底，這項研究為什麼值得關注？

機器人要在真實世界裡工作，就必須能夠可靠地理解物體的結構——不僅要認出"這是一把椅子"，還要能準確區分這把椅子的哪條腿是哪條腿，甚至能把之前處理過一把椅子時學到的知識，遷移到另一把形狀不同的椅子上。自動駕駛汽車需要精確理解道路上其他車輛的各個部件，才能準確預測它們的行為。醫療影像AI需要精確定位器官上的特定解剖位置，而不只是認出"這是心臟"。

SOCO揭示的問題，正是這些應用場景里最容易出錯的地方：模型認得概念，但定位不准；在同一類物體上表現不錯，但換一類相關物體就失效了；靠文字描述能找到目標，但靠視覺提示找不到。

歸根結底，這個數據集和基準測試體系的價值，不只在於給現有模型"評分"，更在於指明了改進的方向——哪些能力還欠缺，哪些測試更能預測實際表現，以及如何構建對物體結構真正具有理解力的下一代視覺模型。

贊助商廣告

當然，這項研究本身也有局限。數據只覆蓋了稀疏的關鍵點，無法評估密集的像素級對應能力。圖片全部來自ImageNet，對訓練過ImageNet的模型可能存在一定優勢偏差。關鍵點的文字描述是按模板生成的，更豐富的自然語言描述可能進一步提升語言模型的表現。跨類別對應也只限於該論文定義的層級體系內，更遙遠的類比遷移（比如"扳手的把手"和"水龍頭的把手"之間的遷移）還超出了當前框架的覆蓋範圍。這些都是未來繼續探索的空間。

有興趣深入了解這套測試體系的讀者，可以通過arXiv編號2605.31597查詢完整論文，數據集和代碼也已在genintel.github.io/SOCO/上公開。

Q&A

Q1：SOCO基準測試和SPair-71k等舊數據集的核心區別是什麼？

A：SOCO的核心區別在於引入了三層遞進的測試體系：概念對應、語義物體對應和跨類別語義物體對應，並為每個關鍵點提供了基於"物體類別+概念+幾何位置"的統一標註框架。舊數據集（如SPair-71k）往往把"認出同一部件"和"區分該部件的具體位置"混在一起評分，且不支持跨類別測試，也沒有自然語言描述，無法系統評估大型視覺-語言模型。

Q2：為什麼DINOv2這類自監督視覺模型在語義物體對應上比CLIP表現好很多？

A：因為兩類模型的訓練目標根本不同。CLIP的目標是讓整張圖像的全局特徵和對應文字對齊，擅長理解"這張圖整體描述了什麼"。DINOv2的自監督目標讓它去學習圖像局部區域的內在結構特徵，結果學到了更精準的局部語義表示，在精確定位物體部件時具備明顯優勢。CLIP在概念對應上得分24.9，DINOv2高達78.9，差距超過54分。

Q3：SOC評分為什麼能比ImageNet分類準確率更好地預測模型在跟蹤、分割等任務上的表現？

A：因為SOC測試的核心能力——在外觀、視角變化下精確定位和匹配物體部件——和跟蹤、分割、三維檢測等密集視覺任務所需的能力高度重疊。ImageNet分類準確率衡量的是全局語義識別，而大多數實際視覺任務需要的是局部、空間和結構層面的理解。在37個模型的橫向比較中，SOC與多視角幾何對應的相關係數高達0.943，而ImageNet kNN與該任務的相關係數僅有0.266。

贊助商廣告