當AI「看」工業產品說明書，阿里巴巴發現了一個令人尷尬的盲點——淘寶天貓多模態工業AI團隊的最新評測

這項由阿里巴巴集團旗下淘寶天貓多模態與工業AI團隊完成的研究，於2026年6月發布，論文編號為arXiv:2606.14383，感興趣的讀者可通過該編號查詢完整論文。

贊助商廣告

你有沒有想過，當一個工廠採購員拿到一台閥門或者斷路器時，他需要核對多少資訊？壓力等級、公稱直徑、適用溫度範圍、材質、額定電流……這些參數密密麻麻地分散在產品的各種圖片裡——有的印在銘牌上，有的藏在規格參數表里，有的甚至得從技術圖紙上量出來，還有的需要你懂行才能知道"DN20"其實是"公稱直徑20毫米"的行業代號。

現在，AI大模型越來越多地被部署在工業採購、倉儲管理和供應鏈匹配這些真實場景里。於是一個非常現實的問題擺在研究團隊面前：這些模型真的能把一個工業產品的所有技術參數從一堆圖片裡完整地找出來嗎？

答案，說實話，有點令人沮喪。

研究團隊構建了一個他們稱為"IndustryBench-MIPU"的評測基準——這是迄今為止第一個專門針對多圖工業產品理解能力的大型評測數據集。他們對九款主流大模型（包括Gemini、GPT、Qwen、Claude、Kimi等知名系列）進行了全面測試，最終發現：即便是表現最好的模型，在面對一個完整工業產品的多張圖片時，也只能找出不到一半的產品參數。精度高得驚人，完整性卻差得可憐。這個矛盾，正是這篇論文最核心的發現。

一、為什麼"看懂工業產品圖片"是一道難題

考慮這樣一個場景：你是一名理解力極強的助手，被要求從一摞產品圖片中整理出一份完整的參數清單。第一張是產品正面照，外觀漂亮但沒有任何文字；第二張是銘牌特寫，上面有一堆數字和字母，比如"304"和"DN50"；第三張是規格參數表，密密麻麻排了二三十行數據；第四張是一張技術安裝圖，裡面有箭頭、尺寸標註和結構示意；第五張是品牌宣傳圖，跟技術規格毫無關係。

你需要做的事情，遠不只是"看圖"這麼簡單。

贊助商廣告

研究團隊將這個任務拆解成了四層難度。第一層是文字識別，即從銘牌和參數表里準確讀出數字和文字，這聽起來簡單，但當參數表密密麻麻排了幾十個數值時，漏讀就成了常見問題。第二層是視覺推理，即從技術圖紙中理解箭頭指向什麼、標註對應哪個部件、尺寸數值屬於哪個方向，這需要模型具備真正的空間理解能力。第三層是領域知識，即知道"304"是不鏽鋼牌號，"DN20"是公稱直徑20毫米，"PN16"是公稱壓力1.6兆帕，這些工業縮略語和代碼系統，不是通用知識，得靠專業訓練。第四層也是最難的一層，是跨圖整合，即把分散在多張圖片裡的資訊片段，像拼圖一樣拼成一份完整的參數記錄，同時還要過濾掉那些跟產品無關的宣傳圖、工廠圖和配件圖。

過去的AI評測基準，要麼只考文字識別，要麼只考視覺推理，要麼只看單張圖片，從沒有人把這四重挑戰同時放進一個測試里。這就是IndustryBench-MIPU最獨特的地方。

二、這份"考卷"是怎麼出的

要出一份公平而有難度的考卷，本身就是一件複雜的工程。研究團隊面臨三個棘手問題：工業產品的公開標註數據極度稀缺；不同品類的產品需要完全不同的參數體系（閥門的關鍵參數和斷路器的關鍵參數幾乎毫無重疊）；很多參數是隱含的，需要專業知識才能提取，單靠人工標註成本高得不現實。

研究團隊的解決思路可以類比一種"集體智慧"機制。他們從國內一家大型工業電商平台採集了跨越18個頂級品類的產品數據，覆蓋五金工具、化工品、電氣設備、機械、安全防護和包裝等領域，通過分層隨機抽樣最終選定了4559個產品、27652張有效圖片。

接著，他們沒有讓一個模型來標註，而是讓五個頂級AI模型（GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Kimi-K2.5和Qwen 3.5 Plus）各自獨立完成同樣的標註任務，然後把五個模型的結果取並集——也就是說，只要有一個模型認為某個參數值是有效的，就把它納入標準答案。這種設計的用意很清晰：如果只用一個模型的標註結果來評測另一個模型，實際上只是在測兩個模型是否"想法相近"，而不是真正考察完整性。取並集，是為了讓標準答案儘可能接近真實的完整參數集。

贊助商廣告

每個模型的標註過程分三個步驟進行。第一步是實體識別：模型先確認這個產品到底是什麼（比如"不鏽鋼兩片式球閥"），以防它跑偏去提取旁邊配件或者安裝示意圖里其他產品的參數。第二步是圖片過濾：對每一張圖片判斷它是否包含有效的參數資訊，工廠照、營銷橫幅、無關產品全都標記為無效，大約有31%的候選圖片被過濾掉。第三步是逐圖參數提取：對每張有效圖片，按照產品專屬的參數模板提取屬性名-屬性值對。

標註完成後，還經過了三層質量把關。第一層由一個獨立的前沿模型（Qwen 3.6 Plus，它不在被評測的九個模型之列）審查所有候選標註，專門揪出四類錯誤：幻覺屬性（沒有視覺依據就捏造出來的參數）、實體誤歸屬（把圖里其他產品的參數張冠李戴）、屬性名與值類型不匹配（比如顏色欄位里填了型號編碼）以及語義上不合理的內容。這一輪過濾掉了24萬條候選標註中的23.9%，約5.7萬條。第二層是黃金標準核對：每個產品都有平台提供的經過核驗的標準屬性，凡是這些屬性覆蓋的欄位，就用經過人工核實的值直接替換AI生成的版本。第三層是人工抽檢：領域專家對隨機抽取的10%產品進行逐條核驗，通過率為96.7%，說明前兩層自動化質量控制已經相當有效。

最終，數據集包含103703條產品級標註，涵蓋3564個獨特的屬性名稱，這些標註同時支持單圖和多圖兩種評測場景。

三、九個AI模型的真實成績單

評測規則設計得相當嚴謹。預測出來的屬性名稱必須與標準答案完全匹配，屬性值則通過一套遞進式策略來判斷：先做規則化處理（統一格式、消除大小寫差異、規範單位和數字表達），再判斷精確匹配或字符級相似度是否達標，最後對於仍然模糊的情況，由Qwen 3.6 Plus擔任"裁判"來判斷語義是否等價。

評測結果分兩個維度呈現：精確率（模型輸出的答案里有多少是對的）和召回率（標準答案里有多少被模型找到了）。

贊助商廣告

在多圖評測中，Gemini 3.1 Pro以65.1%的F1綜合得分排名第一，召回率49.9%，精確率93.8%。Qwen 3.5-397B-A17B以62.7%的F1緊隨其後，GPT-5.4以60.5%排第三。所有模型呈現出一個高度一致的模式：精確率普遍在86%到94%之間，集中在一個很窄的區間裡，但召回率的差距就大了——從最高的49.9%到最低的11.7%，相差近40個百分點。

這意味著什麼？換個說法：模型說出來的話，十句里有八九句是對的；但它該說的話，有一半以上沒說出來。模型的問題不是"說錯了"，而是"說漏了"。

最有戲劇性的對比來自Qwen 3.5 Plus。在單圖評測中，它表現最佳，F1高達81.3%，召回率79.7%；但一旦切換到多圖場景，它的召回率驟降到45.4%，F1跌至59.9%，被擠到了第四名。這個成績差異說明，單張圖片處理得再好，並不代表能處理好多張圖片拼在一起的場景。

從單圖到多圖，召回率的下降幅度相當觸目驚心。Qwen 3.5-35B-A3B的召回率從63.3%跌至11.7%，幾乎完全崩潰，下降了51.6個百分點。其他模型的下降幅度也普遍在15到34個百分點之間。而在整個下降過程中，精確率不降反升——模型沒有變得更不準確，它們只是變得更不完整。

四、問題出在哪裡：用圖片數量和參數密度來解剖

研究團隊進一步追問：召回率隨著什麼因素下降？他們按照兩個維度對測試產品進行了分組：輸入圖片數量和標準參數數量，然後分別統計各組的召回率。

以Gemini 3.1 Pro為例，當產品只有1到3張圖片時，召回率是60.3%，F1是73.0%；當圖片數量超過15張時，召回率跌到38.7%，F1跌到55.1%。圖片越多，模型漏掉的就越多。更能說明問題的是一個細節：圖片超過15張的產品，平均有60.1個標準參數，而Gemini只輸出了25.6個預測結果，還不到標準答案數量的一半。模型確實會隨著圖片增多而輸出更多參數，但增加的速度遠跟不上實際資訊量的增加。

參數密度同樣如此。對於標準參數超過40個的高密度產品，Gemini平均只輸出33個預測值，而標準答案有65.9個，只恢復了45.1%。無論是圖片變多還是參數變密，精確率都保持穩定，下降的始終只有召回率。模型並不是因為更多的資訊而變得更混亂，它只是更早地"停下來"了。

贊助商廣告

五、哪種參數最難被找到

研究團隊還對測試中涉及的753種屬性類型按照認知難度進行了分類，從而得出了一個關於"什麼樣的參數更難被模型捕捉"的清晰圖譜。

第一類是直接標準型，指那些可以直接通過OCR讀出或按固定格式提取的單值欄位，比如產品名稱、品牌，認知門檻最低。這類屬性的召回率是45.9%。第二類是領域知識型，指需要解碼工業術語、材料標準代號和認證標準的屬性，比如"304"代表鋼材牌號，"IP68"代表防護等級，需要專業背景知識。這類屬性的召回率降到44.1%。第三類是多值複合型，指那些有值域範圍、列表形式或組合尺寸的屬性，比如"工作溫度：-40°C至+70°C"或"適配倍率：0.7X、1X、1.5X、2X、2.5X……"，需要模型把所有數值都列出來。這類屬性的召回率是42.8%。第四類是視覺推理型，指需要從技術圖紙、外觀特徵或空間結構中推斷出來的屬性，比如安裝方式、流向、整體結構形式。這類屬性的召回率最低，只有36.6%。

四類屬性之間有9.3個百分點的差距，而且每個模型都呈現出相同的排序：視覺推理最難，領域知識和多值複合居中，直接標準最容易。更有意思的是，各模型在視覺推理這一類的得分差距最小，僅有5.4個百分點，說明視覺推理能力是目前所有模型共同面對的"天花板"，能力差異在這裡反而被抹平了；而在多值複合和領域知識類屬性上，強弱模型之間的差距更為明顯。

六、規模對模型能力的影響：一個有趣的雙速現象

研究團隊還利用Qwen 3.5系列模型（包括35B-A3B、122B-A10B、27B Dense、397B-A17B以及Qwen 3.5 Plus這五個規格）做了一組規模對比實驗。

在單圖場景下，模型規模的提升帶來穩定但有限的收益：F1從35B-A3B的68.7%穩步升到397B-A17B的76.0%，Qwen 3.5 Plus則達到81.3%。整個範圍約為13個百分點。值得注意的是，27B的全量參數Dense模型，比122B-A10B的混合專家模型（實際激活參數只有10B）表現更好，這說明在單圖場景下，起作用的是實際激活的參數量，而不是總參數量。

贊助商廣告

多圖場景則完全是另一回事。規模最小的35B-A3B（3B激活參數）的多圖F1隻有20.6%，而397B-A17B（17B激活參數）達到62.7%，兩者相差42個百分點。單圖場景的差距只有7.3個百分點，多圖場景的差距足足是它的五倍多。最明顯的躍升發生在激活參數從10B增加到17B的那一步，多圖F1一次性提升了12.6個百分點，而單圖F1在同一步只提升了5.5個百分點。

這組數據的含義相當清晰：跨圖整合、維持多圖注意力、從分散的圖片中找到並拼合完整參數，這些能力對模型規模的要求，遠比處理單張圖片要敏感得多。小模型在單圖上湊合，到了多圖就徹底力不從心。

七、調整提示詞和推理模式能改變多少

研究團隊還用Qwen 3.5 Plus做了兩組消融實驗：一是關閉"深度思考"模式（讓模型直接輸出答案而不經過鏈式推理），二是把複雜的提示詞簡化為一個簡潔指令。

關閉深度思考模式後，多圖召回率微升1.1個百分點，精確率略降，整體變化不大。使用簡化提示詞的效果明顯強得多：召回率從45.4%升到52.6%，F1從59.9%升到62.6%，但精確率從88.1%跌到77.3%。簡化提示詞讓模型去掉了原本對參數模板的約束，於是它輸出了更多的預測（從5萬條增加到7.4萬條），覆蓋面更廣，但"說錯"的也更多，本質上是以精度換取覆蓋面。

值得對比的是，在單圖場景下，深度思考模式的效果截然不同：開啟思考時召回率為79.7%，關閉後跌至70.5%，下降了9.2個百分點。這說明深度思考模式在單圖場景下對於窮舉參數很有幫助，但在多圖場景下，它面對的問題不是"怎麼想清楚"，而是"怎麼找全圖片"，推理能力在這裡發揮不了決定性作用。

無論如何調整，在最寬鬆的設置下，模型也還是漏掉了將近一半的參數。提示詞工程改變的是精度和覆蓋面之間的平衡點，並不能根本性地解決完整性不足的問題。

八、一個真實產品案例揭示的細節

研究團隊選了一個同軸光顯微鏡物鏡（屬於儀器儀表品類）來深入解剖失敗模式。這個產品有7張有效圖片，對應69個標準參數。表現最好的模型在多圖場景下精確率100%，召回率只有45%——每一個說出來的值都是對的，但超過一半的可見參數被漏掉了。

贊助商廣告

逐張圖片來看，規律非常清晰。品牌logo圖：2個標準參數，全部找到，召回率100%。應用場景圖（一個9格圖標矩陣）：13個標準參數，全部找到，召回率100%。產品主圖（展示外觀和特徵）：9個標準參數，找到7個，召回率78%。近景特寫：7個標準參數，找到5個，召回率71%。而到了兩張資訊密集的圖片，問題就來了：物鏡規格參數表有20個標準參數，只找到7個，召回率35%；倍率矩陣表（一張9列的表格，縱橫交叉列出了各種物鏡和總倍率的組合）有27個標準參數，只找到5個，召回率19%。

失敗的根源並不是多張圖片同時存在造成的困難，而是當一張圖片裡有大量結構化、列表化的數據時，模型只處理了開頭幾行就停下來了。

把這個現象落到具體參數上，規律更加觸目驚心。"應用場景"這個屬性，標準答案有13個值，模型輸出了13個，全部匹配。"品牌"這個屬性，2個值，全部找到。但"物鏡倍率"這個屬性，標準答案有14個值（0.7X、1X、1.5X、2X、2.5X等），模型只輸出了4個。"總倍率"這個屬性，標準答案有15個值（160X、230X、350X、460X、580X等），模型只輸出了5個。"型號編碼"這個屬性，4個值，模型一個都沒有輸出。

模型知道這些屬性的存在，也正確識別了頭幾個值，然後就早早停手，沒有繼續列舉完整的值域。這不是幻覺錯誤，也不是OCR失誤，而是一種"提前收工"的行為，正好解釋了為什麼精確率和召回率會出現如此強烈的反差。

說到底，這篇論文做的事情，是給AI模型出了一份更接近真實工作場景的考卷，而模型們的成績讓人清醒：它們擅長"說對了什麼"，但還沒學會"把該說的全說完"。

這個結論對於真正想在工業供應鏈里用AI做自動化採購、產品匹配或規格校驗的人來說，是一個務實的警示——現階段的AI可以作為輔助工具幫助縮小資訊查找的範圍，但如果把它當成可以替代人工的"完整性保障"，遺漏關鍵參數的概率依然相當高。

贊助商廣告

更值得思考的是，這個"精準但不完整"的問題，並不因為模型更大或者提示詞更精心就徹底消失。它更像是當前多模態大模型當AI看工業產品說明書阿里巴巴發現了一個令人尷尬的盲點淘寶天貓多模態工業AI團隊的最新評測在面對資訊密集、分布分散場景時的一種結構性局限，需要專門針對這類任務的改進，而不僅僅是通用能力的提升。IndustryBench-MIPU這個評測集現已公開發布，期待它能成為推動這方面進步的試金石。有興趣深入了解的讀者，可以通過論文編號arXiv:2606.14383查閱完整研究報告。

Q&A

Q1：IndustryBench-MIPU評測集涵蓋哪些工業品類？

A：IndustryBench-MIPU覆蓋18個頂級工業品類，包括五金工具、化工品、電氣設備、機械、安全防護、橡塑製品、鋼鐵、電子元器件、儀器儀表、建築材料、包裝、紡織皮革等，共4559個產品、27652張有效圖片、103703條產品級標註。

Q2：大模型在工業產品多圖參數提取中最常見的錯誤是什麼？

A：最主要的錯誤不是說錯，而是漏說。評測顯示所有模型的精確率普遍在86%到94%之間，也就是說輸出的內容大多是對的，但召回率普遍偏低，最好的模型也只找出了不到50%的參數。尤其是當一張圖片裡有密集的列表或矩陣型規格表時，模型往往只提取開頭幾條就停下來，把後面的值全部漏掉。

Q3：模型規模對多圖工業參數提取能力有多大影響？

A：影響遠大於單圖場景。在Qwen 3.5系列的對比中，單圖F1從最小到最大模型只差約7個百分點，而多圖F1則相差高達42個百分點。激活參數從10B增加到17B時，多圖F1一次性提升了12.6個百分點，說明跨圖整合能力對模型規模的要求比單圖識別敏感得多。