北京人工智慧研究院聯合高校，打造首個機械工程圖紙專業AI理解基準

這項由北京人工智慧研究院（BAAI）、中國科學院資訊工程研究所以及北京工業大學聯合開展的研究，發表於2026年第43屆國際機器學習會議（ICML 2026），論文編號為arXiv:2605.30794。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

一、一張圖紙，難倒了全世界最聰明的AI

工廠里的老師傅看一眼機械圖紙，就能知道這個零件該怎麼加工、哪裡有公差要求、裝配時哪兩個零件會相互咬合。這種能力是幾十年積累下來的專業經驗，外行人根本看不懂那密密麻麻的線條、符號和數字。

然而現在，各種多模態大語言模型（也就是能同時理解圖片和文字的AI系統）已經能看懂照片、回答問題，甚至能幫你分析醫學影像。這些AI越來越聰明，但碰上機械工程圖紙，卻像一個聰明的高中生突然面對專業工程師考試——束手無策，頻頻出錯。

這背後有三個核心難點，就像給AI設置的三道關卡。第一道關卡是高密度資訊識別：一張機械圖紙上密密麻麻地標註著尺寸、公差、粗糙度、基準符號等各種專業標記，哪怕漏看了一個細節，整個判斷就可能錯得離譜。第二道關卡是多視圖空間理解：機械圖紙通常用正視圖、側視圖、俯視圖三個角度來描述同一個零件，就像從前、左、上三個方向拍下來的三張照片，AI需要把這三張照片裡的資訊對應起來，理解這個零件真正長什麼樣。第三道關卡是專業領域知識：圖紙上的各種符號和規範都有特定含義，比如幾何公差符號、剖視線、技術要求等，沒有專業訓練根本不知道這些符號意味著什麼。

正是為了系統性地解決這個問題，研究團隊決定做兩件事：第一，建立一個專門用來評測AI理解機械圖紙能力的基準數據集，給AI出一套全面的考題；第二，基於這套考題，訓練出一個能真正看懂機械圖紙的專用AI模型。這就是MechVQA和MechVL項目的由來。

二、出一套考題：MechVQA數據集是怎麼煉成的

贊助商廣告

建立考題的第一步，是找到足夠好的"考試材料"。研究團隊從公開的機械工程教材、專業手冊和設計平台上收集圖紙，這些來源都是正規的教育和職業資料，覆蓋面廣、質量有保障。圖紙既包括單個零件的圖紙，也包括多個零件組裝在一起的裝配圖；既有只用二維視圖表達的標準圖紙，也有配備了立體示意圖的圖紙，儘可能反映真實機械設計工作中會碰到的各種情況。

圖紙收集回來之後，要先過一道質量關。專業人員手動篩掉了那些模糊、殘缺或者掃描質量太差的圖紙，最終保留了3281張高質量圖片作為數據基礎。接下來，團隊用先進的文字識別系統（OCR）從圖紙上提取文字資訊，比如表格里的參數，同時藉助GPT-4o、Gemini、Claude這些頂尖的商業AI來推斷圖紙的其他基本資訊，比如零件名稱、視圖數量、特殊視圖類型等。這些自動提取的資訊隨後交給具有機械專業背景的研究生進行人工覆核和修正，整個流程就像質檢流水線一樣，層層把關。

人工覆核到底有多重要？研究團隊做了統計，結果相當說明問題。在視圖數量的識別上，AI提取的數據有41.6%需要修正，而且AI通常是少算了，專家往往要把數量往上調。在剖視圖的識別上，AI有37.8%的錯誤率，經常把局部剖面或方向視圖誤認為是獨立的剖視圖。在側視圖和俯視圖的識別上，錯誤率也分別高達33%和31.8%，AI會把局部區域誤當成主視圖。技術要求部分的文字描述錯誤率更高達43.7%，主要出在熱處理參數、表面處理描述等專業描述上。相對而言，零件類別的判斷最穩定，錯誤率不到1%。這組數據充分說明，人工專業審核在這類專業領域數據構建中不可或缺。

有了可靠的圖紙和配套的結構化資訊，接下來就要出題了。研究團隊設計了一套考題分類框架，把AI應該具備的能力分成三個層次，就像考試從簡單到複雜分了三檔。

第一個層次叫"識別"，考的是最基礎的資訊提取能力，相當於看圖回答"圖上寫了什麼"。這個層次下面有四類子任務：辨識與計數（比如數一數這張圖上有幾個孔）、尺寸與標註（讀出某個特徵的尺寸值或公差）、文字與表格（從標題欄或參數表里找出特定資訊）、以及位置定位（說出某個標註出現在圖紙的哪個位置）。

贊助商廣告

第二個層次叫"推理"，考的是多步驟的推斷能力，不是直接讀出來，而是要動腦子算出來或者分析出來。這個層次同樣有四類子任務：結構理解（理解剖視圖揭示的內部結構）、幾何計算（通過尺寸鏈算出圖上沒有直接標註的尺寸）、裝配關係（判斷哪兩個零件相互配合、如何配合）、以及投影與多視圖（在不同視圖之間找到對應關係）。

第三個層次叫"判斷"，考的是工程合理性評估，需要AI像經驗豐富的工程師一樣，發現圖紙里的問題。這個層次有兩類子任務：異常檢測（找出缺少的標註或互相矛盾的資訊）、以及一致性判斷（判斷圖紙是否符合製圖標準，或者二維圖紙和立體圖是否表示同一個零件）。

出題的過程本身也頗為講究。團隊採用了三種生成途徑，形成一套互補的題目來源體系。第一種是讓多個頂尖AI自由發揮，給定圖紙和基本資訊，讓AI生成候選題目，然後用另一個AI交叉檢驗題目質量，再用多個AI分別作答，只保留回答結果高度一致的題目，這相當於出題、閱卷、裁判三方互相校驗。第二種是基於模板批量生成沒有現成答案的題目，比如先讓AI找出圖上的五處尺寸標註，然後按模板生成"X處的尺寸是多少"這樣的問題，再經過同樣的多AI驗證流程確定答案。第三種是利用已經人工核實過的結構化資訊來生成有確定答案的題目，比如直接問視圖數量，答案就來自專家審核過的元數據；以及由專家手工製作的特殊題目，比如用CAD軟體故意去掉某個必要標註、或者刻意把圖紙和立體圖配成不匹配的組合，來生成異常檢測和一致性判斷類的題目。

所有題目的答案都要求包含完整的推理過程加上簡潔的最終答案，這個設計是為了後續訓練AI時能讓它學會逐步推理，而不只是猜答案。經過這套流程，最終產出了20778對問答，覆蓋10個子任務和簡單、中等、困難三個難度等級，形成了MechVQA這套全面的考題庫。

贊助商廣告

三、考題的面貌：每道題長什麼樣

在20778道題目中，"尺寸與標註"類題目占比最高，達到30.9%，因為讀懂尺寸標註是機械圖紙理解中最基本也最高頻的需求。"異常檢測"題目占26%，排在第二，說明檢測圖紙錯誤是實際工作中非常重要的技能。"一致性判斷"題占16.3%。往下依次是幾何計算、位置定位、投影與多視圖、結構理解、裝配關係，最少的是辨識與計數和文字與表格各只占1%多一點。

從難度分布來看，簡單題目有8138道，中等題目7118道，困難題目5522道，比例大致是4:3.5:2.7，保證了考題既有基礎測試也有高階挑戰。

所有20778道題按照圖紙粒度，以8:1:1的比例劃分成訓練集、驗證集和測試集。劃分的關鍵原則是：同一張圖紙上產生的所有題目，必須全部歸入同一個數據集，不能一部分用於訓練、一部分用於測試，這樣才能防止AI通過"記住"某張圖的樣子來刷高分。為了讓三個數據集的分布儘量均勻，團隊還用CLIP這樣的圖文嵌入模型把圖紙在特徵空間裡做聚類，然後按簇分配，確保訓練集和測試集在來源類型、子任務分布、難度分布上都保持一致。用t-SNE降維後可以直觀地看到，三個數據集的特徵點在分布圖上高度重疊，沒有明顯分離，說明劃分做到了相對的分布均衡。

四、教出一個懂機械圖紙的AI：MechVL的訓練之路

有了考題，接下來就是訓練選手了。研究團隊以Qwen3-VL-4B-Instruct這個開源多模態模型作為起點，然後對它進行專項訓練，最終產出的模型叫做MechVL。

訓練分兩大階段，就像培養一個實習工程師先要教他基礎技能，然後再通過大量項目實踐來打磨判斷力。

第一階段叫監督微調（SFT），可以理解為"照著答案學"。訓練時，給模型一張圖加一個問題，要求它輸出一段包含推理過程的答案，然後把它的輸出和標準答案比對，通過反覆糾錯讓模型學會機械圖紙領域的基礎語言和規範。這個階段只訓練語言模型部分，視覺編碼器和視覺-語言連接層保持不動，讓模型把注意力集中在學習機械工程的專業語義上。完成這一階段之後，模型就有了一個基本靠譜的初始能力，但還會犯各種細節錯誤。

贊助商廣告

第二階段叫強化學習（RL），可以理解為"通過做題積累經驗"。這裡用到了一種叫DAPO的優化算法，它的工作方式類似於這樣：給模型出題，讓它自己生成多個答案，然後根據答案的質量給予不同程度的獎勵，好的答案多鼓勵，差的答案少鼓勵，模型從對比中學會什麼樣的回答才是真正正確的。DAPO相比同類算法有幾個改進，包括用非對稱的裁剪範圍來控制更新步長、動態過濾掉那些全對或全錯的"沒有學習價值"的題目組、以及在生成過長時進行獎勵懲罰避免答案越來越冗長。

這套訓練機制之所以有效，很大程度上來自於獎勵信號的設計。獎勵由三部分組成，三者協同工作，形成一個完整的評分體系。

答案準確性獎勵是核心，衡量模型的最終答案是否和標準答案在語義上一致。這裡用的不是簡單的字符串匹配，而是再請一個大語言模型來當裁判，判斷兩個答案是否表達了相同的意思——因為"Φ72毫米"和"直徑72mm"說的是同一件事，純粹的文字比對會漏掉這種等價關係。

格式規範性獎勵是次要但不可缺少的部分，強制要求模型的回答必須包含一段推理過程（用特定標籤包裹）和一段最終答案（用另一個標籤包裹），兩者缺一不可。這個設計防止模型偷懶，只給答案不給推理，或者把推理和答案混在一起難以自動解析。

回答質量獎勵則是更高層次的評價，同樣請大語言模型當裁判，從邏輯性、專業性和簡潔性三個維度為回答評分。邏輯性看推理過程是否自洽、有沒有矛盾；專業性看有沒有正確使用機械製圖的術語和規範；簡潔性看有沒有廢話或跑題的內容。三個維度的分數取平均。

強化學習分兩個自我對弈輪次進行。第一輪在全部訓練數據上訓練，讓模型全面提升；第二輪有針對性地加大那些模型還沒學好的子任務的比例，集中攻剋薄弱環節。這種"有的放矢"的第二輪訓練效果非常明顯，推理類子任務的分數有了額外的大幅提升。

贊助商廣告

五、上考場：MechVL和各路AI的表現如何

研究團隊把MechVL和一大堆業界知名的AI模型都拿來測試，包括開源的Qwen3-VL系列（從最小的4B參數版到最大的32B參數版）、GLM-4.6V、InternVL3.5、MiniCPM-V、MiMo-VL、Llama 3.2視覺版、Gemma等，以及商業閉源的GPT-4o、GPT-5、Gemini 3 Pro Preview、Claude Sonnet 4.5和Qwen3-VL-Plus，一共十幾個模型同台競技，都在MechVQA測試集上用完全相同的規則評測，不使用任何外部工具或額外的領域適配。

最終成績揭曉：經過完整訓練的MechVL-4B-RL模型以84.85的總分拿下第一，比所有開源模型中最強的GLM-4.6V（78.91分）高出5.94分，比商業閉源模型中最強的Gemini 3 Pro Preview（77.28分）高出7.57分。這意味著一個只有40億參數（屬於中等規模）的專用模型，經過專項訓練之後，在這個領域的綜合表現超越了參數規模遠大於它的通用大模型。

從各個子任務來看，MechVL-4B-RL在"尺寸與標註"上拿到90.70分，在"位置定位"上拿到82.01分，在"結構理解"上83.33分，"裝配關係"84分，"投影與多視圖"64分，"異常檢測"86.94分，這些子任務的成績都是所有參與測試模型中最高的。

從不同難度等級看，MechVL-4B-RL在簡單題上準確率達到94%，中等題79%，困難題75%，難度分布最均衡。相比之下，僅做了監督微調的MechVL-4B-SFT版本，簡單題92%，中等題70%，困難題只有53%——強化學習帶來的最大提升正是在中等和困難題上，說明RL主要幫助模型攻克了那些需要更複雜推理和更強約束滿足能力的題目。

從三大能力維度看，MechVL-4B-RL在"識別"類子任務均分89.70，在"推理"類均分77.04，在"判斷"類均分82.81。與GLM-4.6V相比，MechVL-4B-RL在這三個維度分別高出5.68分、6.54分和11分；與Gemini 3 Pro Preview相比，分別高出8.14分、19.62分和2.29分——推理類的差距最驚人，說明專項訓練對跨視圖推理和約束推斷能力的提升最為顯著。

值得關注的是，未經任何專項訓練的基礎版Qwen3-VL-4B-Instruct總分只有60.23分，而經過監督微調後提升到76.36分，再加上強化學習之後進一步躍升到84.85分。這三步走的軌跡清晰地展示了，每一階段訓練都在為最終性能作出實質貢獻，缺少任何一步都會明顯影響結果。

贊助商廣告

六、做了哪些"換一換看效果"的實驗

為了搞清楚每一個設計選擇到底有沒有意義，研究團隊做了一系列"改變一個條件，其他保持不變"的對照實驗。

第一組實驗比較了不同訓練階段的效果。只做監督微調時總分76.36，加上全數據強化學習後升至81.95，再加上有針對性的第二輪強化學習後達到84.85。推理類子任務的分數從54.40一路漲到77.04，漲幅超過22分，最為顯著，說明強化學習對需要多步驟推斷的任務幫助最大。

第二組實驗比較了三種強化學習算法：GRPO、GSPO和DAPO。在相同的初始模型和訓練設置下，DAPO總分81.95，GRPO總分80.47，GSPO總分78.77。三者差距最明顯的地方同樣是推理類，DAPO達到70.75，而GRPO只有64.49，GSPO只有61.29。DAPO在長文本推理場景下更穩定的優化特性，讓它在這個需要複雜分析的領域中脫穎而出。

第三組實驗比較了不同的獎勵設計。只用最基礎的二進制準確性獎勵（答對得1分，答錯得0分）時，總分82.24；改用基於詞彙重疊的F1評分時，總分反而只有80.33；去掉質量獎勵只保留準確性和格式獎勵時，總分83.44；三種獎勵全部組合的完整方案，總分84.85。這說明三種獎勵缺一不可，語義判斷比字符匹配更合理，質量獎勵對最終性能也有真實的貢獻。

從訓練過程中響應長度的變化也能看出各種獎勵設計的副作用。只用詞彙重疊F1評分時，模型的響應長度從大約1100個詞迅速縮水到800詞以下，說明這種獎勵會誤導模型學會簡短但表面相似的回答，而不是真正理解題目。去掉質量獎勵後，模型響應越來越長，最終膨脹到1300詞左右，說明沒有簡潔性約束時模型會堆砌無關內容。只用二進制準確性獎勵時，訓練過程不夠穩定。完整方案把響應長度穩定維持在1200到1250詞之間，既不過短也不過長，體現了充分推理和簡潔表達之間的良好平衡。

七、這項研究的局限性和它能改變什麼

贊助商廣告

任何研究都有邊界，這項工作的主要局限性包括以下幾點。MechVQA的圖紙來源是公開的教育和職業資料，可能無法完全代表真實工廠里的圖紙，特別是一些有歷史遺留風格的老圖紙，以及各公司內部特有的製圖習慣，暫時不在覆蓋範圍內。MechVQA聚焦於理解已有的二維圖紙，並不打算解決從圖紙重建三維CAD模型這樣的任務。基於公開數據構建的數據集，無法完全排除現有大模型在預訓練時已經接觸過部分來源內容的可能性，儘管研究團隊已經在圖紙層面做了嚴格的相似性分層。目前也還沒有用人類專家作答同一套題目來提供一個上限參考，人類專家水平和最好AI水平之間的差距還有待量化。

儘管如此，這項研究的意義是相當具體的。在工業效率層面，機械圖紙的審核和資訊提取目前嚴重依賴人工，需要專業人員花大量時間核實尺寸、公差、符號是否合規。一個能可靠理解機械圖紙的AI助手，可以大幅縮短這個流程，減少遺漏和疏誤。在工程教育層面，機械製圖是工程專業里公認的難點，大量學生在學習識圖和讀圖時困難重重。MechVL這類工具如果能作為學習輔助，幫助學生理解圖紙的邏輯，會有實際價值。在製造質量控制層面，裝配錯誤和尺寸不合格往往在成品檢驗階段才被發現，而這時修復成本極高。如果AI能在圖紙設計階段提前發現尺寸鏈矛盾或標註遺漏，可以把質量問題消滅在萌芽狀態。

當然，研究團隊也明確指出：MechVL的定位是輔助工程師做決策，而不是替代工程師做最終決定。機械結構的安全性至關重要，任何AI的判斷都應該由專業人員二次確認，不能盲目信賴。

說到底，這項研究回答了一個非常實際的問題：通用AI理解不了機械圖紙這件事，是因為缺少合適的訓練數據和訓練方式，而不是因為這件事本質上超出了AI的能力範圍。通過建立MechVQA這套全面的評測體系和MechVL這套專項訓練流程，研究團隊證明了：只要給AI"上專業課"，一個中等規模的模型可以在這個領域顯著超越體量大得多的通用大模型。這對那些需要AI助力但長期苦於AI在本領域表現不佳的專業工程場景，提供了一條很有參考價值的路徑。至於下一步，彌補人類專家和最好AI之間的差距，以及擴展到工業級真實圖紙，或許正是這條路上接下來的挑戰。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2605.30794查閱完整原文。

贊助商廣告

Q&A

Q1：MechVQA數據集包含哪些類型的題目？

A：MechVQA共有20778道題目，分為識別、推理和判斷三大能力層次，下設10個子任務。識別類包括尺寸標註讀取、辨識計數、文字表格理解和位置定位；推理類包括結構理解、幾何計算、裝配關係分析和投影多視圖對應；判斷類包括異常檢測和一致性判斷。題目還按簡單、中等、困難三檔難度劃分。

Q2：MechVL模型是怎麼訓練出來的？

A：MechVL基於Qwen3-VL-4B-Instruct模型，經過兩階段訓練。第一階段用MechVQA訓練集做監督微調，讓模型學會機械圖紙領域的基礎知識和答題規範。第二階段用DAPO強化學習算法做進一步優化，獎勵信號由答案準確性、格式規範性和回答質量三部分組成，其中第二輪專門加大了薄弱子任務的訓練比例。

Q3：MechVQA和通用視覺問答數據集有什麼不同？

A：通用視覺問答數據集主要針對日常照片，考察基本的物體識別和常識推理。MechVQA專門針對機械工程圖紙這一高度專業化場景，要求理解投影規則、製圖符號、公差標註、多視圖對應等專業知識，並包含需要工程判斷力的異常檢測和標準合規性判斷類題目，這些都是通用數據集無法覆蓋的內容。