這項由加拿大滑鐵盧大學、澳大利亞雪梨大學、香港中文大學(深圳)、新加坡管理大學、南洋理工大學、香港城市大學等十餘所高校及研究機構聯合開展的研究,以預印本形式於2026年4月發布,論文編號為arXiv:2604.07413。感興趣的讀者可通過該編號在arXiv平台檢索到完整論文。
**一個你可能從沒想過的問題**
每天,全球數以億計的工廠流水線在運轉。一顆螺絲型號裝錯了,一個零件表面裂了,一套組件少了墊圈——這些看起來微不足道的差錯,放在航空發動機、醫療設備或者汽車底盤上,輕則產品召回,重則事故頻發。
傳統上,工廠靠的是經驗豐富的質檢工人,靠眼睛和手感來把關。後來,機器視覺系統出現了,能認出零件在哪兒、有沒有裂紋,但它只是個"眼睛",不會思考,無法理解"這顆M10的螺栓為什麼不能和M16的螺母配套",更無法自主判斷"這套夾具的裝配是否符合今天這批零件的規格"。
近年來,一種新技術開始引發工廠管理者的遐想——多模態大語言模型,也就是那些既能看圖又能對話的大型AI,比如GPT、Gemini、Kimi這類。這些模型在日常問答、寫代碼、分析文件上表現出驚人的能力,有人開始問:它們能不能也幫工廠"看"零件、"懂"規格、"判斷"裝配?
為了回答這個問題,這批來自十餘所頂尖高校的研究者們做了一件在學界頗具開創性的事:他們沒有停留在泛泛的討論層面,而是真刀真槍地構建了一套名為FORGE的評測基準,專門用來測量這些大模型在製造業場景下的真實能力。他們用真實工廠零件建起數據集,設計了三類核心任務,找來18個當下最先進的多模態大模型
逐一"應試",並深入分析了這些模型究竟在哪裡卡殼、為什麼卡殼。結果既讓人耳目一新,也讓人若有所思。
**一、從流水線到考場:FORGE是什麼,為什麼它與眾不同**
在此之前,學界並非沒有針對工業場景的AI評測。現有的一些基準數據集,比如MMAD專注於視覺異常檢測,MME-Industry涵蓋工業認知和安全規程,還有DesignQA聚焦於技術藍圖的理解。但研究團隊發現,這些評測有一個共同的短板:它們把工廠里的零件當作普通的視覺對象來處理,只需要模型說出"這是一顆螺絲"就算過關了。
這就好比讓一名醫學生用病人照片診斷疾病,卻只要求他說出"這個人病了",而不要求他判斷究竟是M型還是B型病變、用哪種藥、劑量多少。現實的工廠要求的精度,遠不止於此。
以螺母為例,工廠里的螺母分M10、M12、M14、M16、M18……各種型號,直徑相差幾毫米,但配套關係截然不同。如果你把一顆M16的螺母和M10的螺栓配在一起,零件會鬆動報廢。因此,FORGE的核心設計理念是**型號級別(model-number level)的細粒度語義理解**——不僅要認出這是螺母,還要認出它是哪個型號的螺母,以及它和同批次其他零件的兼容關係。
為了支撐這套高精度評測,研究團隊先構建了一批高質量的多模態數據。他們用精度達0.02毫米的手持3D掃描儀,對14類真實工廠零件(包括角支架、沉頭螺絲、杯頭螺絲、眼形螺栓、平墊圈、六角螺母、鉚釘螺母、自攻螺絲、彈簧墊圈、T型螺栓、T型螺母、T型螺絲、翼形螺母、翼形螺絲)進行了全面的3D點雲掃描,涵蓋90個不同型號,共585個樣本。與此同時,他們還拍攝了約3000張來自四種真實裝配場景的圖像。所有數據都配有精細標註,不只是"這是什麼零件",還包括"這是哪個型號"、"有沒有缺陷"、"裝配是否合規"。
僅在數據規模和標註深度上,FORGE就已經和此前的同類工作拉開了明顯差距:12972個評測樣本,橫跨圖像和3D點雲兩種模態,是目前製造業領域最全面的多模態基準之一。
**二、三場"考試":模型到底需要懂什麼**
評測設計了三類任務,分別對應工廠自動化中最關鍵的三個環節。
第一類叫做零件核驗(WORKVERI),本質上是材料分揀能力的考核。給模型一批零件的圖像或3D渲染圖,告訴它"這批貨應該全是M18杯頭螺絲",然後在其中混入一顆M10的螺絲,或者換成了一顆自攻螺絲,讓模型指出哪顆不對。這一任務分為三個場景:來自圖像子集的氣動連接件(PCS SCENARIO)、來自點雲子集的杯頭螺絲(CHS SCENARIO)和螺母(NUTS SCENARIO)。
第二類叫做表面缺陷檢測(SURFINSP),也就是質量檢查。給模型一個零件的三視圖點雲渲染,讓它先判斷這個零件是否正常,如果不正常,再從裂紋、切痕、變形、凹痕四種類型中指出是哪種缺陷。這項任務橫跨上述全部14種零件類型。
第三類叫做裝配核驗(ASSYVERI),是三類任務里最複雜的。這裡不只是認零件,而是要理解裝配規則。比如,一套標準的金屬膨脹螺栓由螺栓、螺母、平墊圈、彈簧墊圈、套管五個部件組成。給模型看一張裝配好的組件圖,如果混入了一顆不對型號的平墊圈,或者多了一個彈簧墊圈,模型需要找出那個"異類"。四個裝配場景分別是金屬膨脹螺絲(MES SCENARIO)、塑料膨脹螺絲(PES SCENARIO)、數控夾具(CNC SCENARIO)和金屬螺絲墊圈螺母組合(SWN SCENARIO)。
所有任務都以多選題的形式呈現,每道題給出若干候選部件的位置,模型選出那個"有問題的"。每類任務都在三種不同"難度設定"下評測:零樣本(模型只看題目圖片)、參考條件(同時提供標準正確樣品的圖片作為參考)、以及上下文示範(在參考圖基礎上,額外提供一道完整的示例題和答案)。
**三、18個"考生"亮相:有人超常發揮,有人穩定發揮,有人令人大跌眼鏡**
研究團隊把當下最具代表性的18個多模態大模型全都拉來測了一遍,既有可以直接調用API的閉源模型(GPT-5、GPT-5.2、GPT-5 Mini、O3、Gemini-2.5-Flash、Gemini-3-Flash、Claude-4.5-Opus、Seed-1.6),也有開源可部署的模型(Gemma-3-27B、InternVL3-78B、Llama-4-Maverick、Mistral-3-8B/14B/Large、Qwen3-VL-8B/235B、GLM-4.6V、Kimi-K2.5)。
評測用的指標很簡單:精確匹配準確率,也就是模型選對了幾題。同時設置了隨機猜測基線作為參照——在WORKVERI和ASSYVERI中,每題4到6個選項,隨機猜對率約25%到33%。
總體來看,閉源模型普遍優於開源模型。其中Gemini-3-Flash和GPT-5系列在零件核驗和裝配核驗任務上表現領先,而開源陣營里,Kimi-K2.5和Qwen3-VL-235B相對突出。
然而最令人意外的是表面缺陷檢測任務(SURFINSP)。這道"簡單題"——畢竟只需要從五個類別里選一個——偏偏成了全場最低分的任務。即便是最強的模型,也幾乎無法超過50%的準確率,部分模型甚至接近隨機猜測水平。這種差距說明,大模型對零件的宏觀外形識別("這是顆螺絲")和對微觀表面形態的感知("這條紋路是裂紋還是切痕")是兩種截然不同的能力,前者相對成熟,後者目前還是一塊未被開墾的荒地。
**四、奇怪的發現:參考圖有時反而幫了倒忙**
評測結果里藏著一個讓人撓頭的現象。
正常的直覺是:給模型看"正確答案長什麼樣",應該讓它表現更好。但數據顯示,對於基於三視圖點雲渲染的任務,從零樣本切換到參考條件設置之後,很多模型的準確率反而下降了,有些模型甚至下降了十幾個百分點。進一步加入完整示範題之後,情況也沒有明顯改善。
這是為什麼?研究者的解釋是:三視圖渲染是從三個正交方向(前視、側視、俯視)拍攝的平面投影,不同角度下同一個零件看起來差異很大。當模型面對參考圖時,它試圖把參考圖裡的零件和測試圖裡的零件做空間匹配,但因為視角差異和空間感知能力不足,這種比較反而引入了混亂,讓模型越看越糊塗。
相比之下,對於需要型號級別精度的任務(比如判斷這顆螺絲是M16還是M18),空間視覺特徵的權重本來就比較低,主要靠的是對形狀細節的語義理解,所以受這種"空間困惑"的影響相對較小。而對於需要直接辨認零件類型的任務(比如判斷這個是螺母還是翼形螺母),視覺特徵極為重要,三視圖的角度變換就造成了更明顯的干擾。
簡而言之:給大模型看更多參考圖,有時候不僅沒幫上忙,反而讓它更困惑了。
**五、解剖瓶頸:問題出在"看不清"還是"不懂行"**
光知道模型表現不好還不夠,研究者更想搞清楚:模型究竟是"眼睛不好使",還是"大腦沒經驗"?
為了回答這個問題,他們設計了三項專門的"瓶頸分析"實驗,像一個外科醫生逐層切開,找出病灶所在。
第一項實驗測的是視覺定位能力。在所有裝配圖像里,每個零件都被標上了字母標籤(A、B、C……)。研究者專門出題:給你坐標[0.70, 0.44],對應的是哪個字母?或者,字母B對應的是哪個坐標?結果發現,在500道單圖定位題中,Gemini-3-Flash平均準確率高達98.9%,四個最強模型在字母→坐標方向的準確率全部超過97.6%。這個結果非常清楚:大模型的視覺定位能力本身是過關的,它們確實能"看清"圖里哪個零件在哪兒。
第二項實驗測的是零件功能知識。研究者給模型提供了完整的裝配規格說明(每個部件叫什麼名字、有幾個、功能是什麼),然後讓模型判斷哪個部件缺失了。這類題對"看圖認位置"的要求極低,主要考的是"知不知道這套裝配應該有什麼"。結果顯示,四個頂尖模型在240道圖像題上的整體準確率達到74.9%到90.7%,遠高於23.3%的隨機猜測基線。絕大多數零件類型(螺絲、螺母、錨固件、楔塊)幾乎都能判斷正確。但有一類零件——平墊圈——出現了系統性失敗:準確率僅23.3%到60.0%(圖像),三視圖模式下更是低至8.3%到74.5%。
錯誤分析揭示了一個精妙的細節:模型能很好地檢測到"少了一個墊圈",但無法判斷缺少的是平墊圈還是彈簧墊圈。這兩種墊圈的外形確實很相似,但功能和規格截然不同。既然視覺定位沒問題,那這種混淆就只能歸結為"對零件功能和形態區別的專業知識不足",也就是說,模型的知識庫里對工廠零件的了解太淺了。
第三項實驗則更極端:研究者把3D點雲數據直接轉成文本坐標表格,餵給模型,看它能不能從一堆數字里分析出零件形狀。結果相當清晰:在表面缺陷檢測任務上,兩個被測模型的表現都接近隨機猜測水平,幾乎無法區分缺陷類型。僅在零件核驗任務上,模型靠著比對坐標範圍來估算零件尺寸大小,獲得了勉強高於隨機的表現(Gemini-3-Flash零樣本53.6%)。這說明,對於通用大語言模型而言,視覺渲染是處理3D製造數據的必要手段,純文本坐標流遠遠不夠。
三項分析的結論匯聚成一個清晰的結論:當前大模型在製造業場景下失敗的根本原因,不是"看不清",而是"不懂行"——缺乏製造業領域的細粒度專業知識。
**六、錯誤案例里的意外驚喜:模型的"歪打正著"**
研究者還做了定性錯誤分析,逐字拆解了模型答錯時的推理過程,發現了兩類有趣的失敗模式。
第一類叫做"材料幻覺"。在金屬膨脹螺栓裝配場景(MES SCENARIO)中,某模型被問到哪個零件規格不對,結果它盯著一個金屬平墊圈,硬說那是"塑料/尼龍材質",然後以"膨脹螺栓組件中不應該用塑料墊圈,會降低強度"為理由,選擇了那個墊圈作為答案——答錯了。但研究者注意到,這個模型的推理過程本身其實很有價值:它在沒有被明確要求的情況下,自發地嘗試推斷零件材質,並把材質因素納入了裝配合規性的判斷中。雖然這次判斷出錯了,但這種"自主推斷材質並用於決策"的能力,正是真正實用的工廠AI所需要的。
第二類叫做"服役狀態感知"。在數控夾具場景(CNC SCENARIO)中,某模型雖然判斷錯了哪個零件的型號不對(它認為螺母太小,實際上是墊塊太大),但在推理過程中,它隨手指出了"壓板A端部嚴重磨損/崩缺"、"墊塊D也有磨損痕跡"。這種順帶識別出"零件磨損程度"的能力,與工廠里的預測性維護需求高度吻合——如果模型能在做質檢的同時順手給出磨損評級,那對工廠的價值遠不止於合格與不合格的二元判斷。
這兩類"歪打正著"的案例說明,大模型在製造業中的潛力,可能比一道標準化測題所能衡量的要大得多。
**七、一個小模型的逆襲:專業微調的力量**
前面所有的分析都聚焦於"現有大模型的局限",但研究者還進了一步:既然領域知識是瓶頸,那用製造業數據專門訓練一個模型,效果會怎樣?
他們挑了一個只有30億參數的小模型——Qwen2.5-VL-3B,這在大模型圈裡屬於"迷你"級別,連很多普通電腦都能跑起來。然後用FORGE數據集裡的訓練數據對它進行了全參數微調。
微調的邏輯很有講究:他們用CHS SCENARIO(杯頭螺絲場景)的數據訓練模型,然後在它從未見過的NUTS SCENARIO(螺母場景)上評測;用MES和PES場景數據訓練,在CNC夾具場景上評測。這樣的"跨場景"測試,才能真正檢驗模型有沒有學到可遷移的製造業推理能力,而不只是死記硬背了訓練數據里的具體零件。
結果非常顯眼:在零件核驗三視圖任務上,這個30億參數的小模型從28.2%跳升到了53.8%,提升幅度達90.8%,直接達到了參數量是它78倍的Qwen3-VL-235B的水平。在裝配核驗圖像任務上,準確率從24.0%提升到30.5%,相對提升27.1%,表現超過了Seed-1.6、Qwen3-VL-235B、Mistral-3-8B等多個大得多的模型,僅次於Gemini-3-Flash和GPT-5.2。
進一步拆解來看,微調之後,小模型對"正常裝配"的判斷準確率從24.3%猛升到74.8%,以前它總是覺得"哪裡都有問題",現在知道什麼是正常了。型號識別的準確率雖然從33.8%小幅降至23.8%,但整體上,由於正常案例在評測集裡占多數,綜合表現大幅提升。
這個結果傳達了一個直接且實用的信號:哪怕是非常有限的專業領域數據(訓練數據只有8337條),也能讓一個小巧的模型在特定製造業任務上迅速成長,逼近頂級閉源大模型的水準。不需要等GPT出個新版本,自己用FORGE這樣的數據微調,是一條更現實的路徑。
**說到底,這意味著什麼**
歸根結底,這項研究做了一件很務實的事:它把那些在對話、寫作、編程上叱吒風雲的大模型,拉到了工廠這個它們不太熟悉的考場上,如實記錄了它們的成績單。成績單說明了幾件事。
大模型不是萬能的。在製造業這種對精度要求極高的場景里,"認出這是螺絲"和"判斷這顆螺絲該不該在這裡"是兩種截然不同的能力。前者當前AI已經做得不錯,後者還差得遠。表面缺陷檢測尤其困難,微觀形態識別是目前整個領域的硬骨頭。
然而,失敗的原因並不是模型"眼睛不好",而是"經驗不足"。視覺定位能力是夠的,卡殼的地方是細粒度的領域專業知識——哪種墊圈該搭哪種螺栓,哪種紋理是裂紋哪種是加工痕跡,這些需要專業數據來填補。
更積極的發現是,這個知識缺口是可以彌補的,而且成本並不像想像中那麼高。用專門構建的製造業數據集微調一個小模型,就能帶來非常可觀的提升。這對於真正想把AI引入工廠的企業來說,意味著不必非得等待更大更貴的通用模型,而是可以按照自己的場景定製訓練。
當然,這項工作也有它目前的邊界。評測數據集的規模和零件種類,相比真實工廠的多樣性還遠遠不夠。現實中的生產線零件種類成千上萬,光靠研究者收集的585個原始樣本還是太少。模型在極端光照、遮擋、污損等真實生產條件下的表現也有待驗證。三視圖渲染代替真實3D輸入,是一種實用的妥協,但不是終點。
如果你對這個方向感到好奇,不妨思考一個問題:如果工廠里的AI不只是質檢工人,而是同時能估算零件磨損狀態、預測下次維護時間、甚至理解上下游工序的邏輯,那它應該學什麼、怎麼學?這正是FORGE這類基準工作試圖推動的方向——先把問題說清楚,再談如何解決。有興趣深入了解的讀者可以通過arXiv:2604.07413查閱完整論文。
---
Q&A
Q1:FORGE評測基準和之前的製造業AI評測有什麼不同?
A:之前的評測主要把工廠零件當普通視覺對象處理,比如認出"這是螺絲"就算過關。FORGE要求細粒度到型號級別,比如要判斷這顆螺絲是M10還是M16、和同批零件是否兼容。同時,FORGE結合了真實2D圖像和3D點雲兩種數據模態,並覆蓋零件核驗、表面缺陷檢測、裝配核驗三類實際工廠任務,在數據精度和任務設計上均大幅超越以往同類工作。
Q2:大模型在製造業場景下表現差的主要原因是什麼?
A:研究通過三項專門的瓶頸分析實驗證明,主要原因不是視覺定位能力弱,因為測試顯示模型能準確找到圖中零件的位置。真正的瓶頸是缺乏細粒度的製造業專業知識,比如分不清平墊圈和彈簧墊圈的具體形態差異,不知道不同型號零件之間的裝配兼容規則,以及無法分析微觀表面形態來判斷缺陷類型。
Q3:微調小模型的效果真的能媲美大模型嗎?
A:在特定製造業任務上可以。研究用FORGE數據對只有30億參數的Qwen2.5-VL-3B進行專業微調後,在零件核驗三視圖任務上準確率提升了90.8%,達到參數量是它78倍的Qwen3-VL-235B的相同水平。在裝配核驗任務上也超越了多個規模更大的模型。這說明用專業領域數據定向微調小模型,是一條在製造業落地AI的實際可行路徑。






