AI數學競賽的「阿喀琉斯之踵」：上海人工智慧實驗室聯合多所高校揭示頂尖大模型在奧林匹克組合數學中的真實瓶頸

這項研究由上海人工智慧實驗室聯合北京大學、上海交通大學、清華大學、香港中文大學共同完成，論文以預印本形式於2026年6月9日發布，論文編號為arXiv:2606.10479。

贊助商廣告

每隔一段時間，就會有新聞報道說某個AI系統在數學競賽中擊敗了頂尖的人類選手。2025年，谷歌的Gemini Deep Think和深度求索的DeepSeekMath-V2在國際數學奧林匹克競賽中拿到了金牌水準的成績，六道題做出了五道。看到這裡，你可能會問：那剩下那道題是什麼攔路虎？

答案是第六題——一道關於組合數學的題目，要求參賽者找到在2025×2025的方格紙上鋪方形瓷磚的最優方案，不僅要給出確切的答案，還要真正畫出那個最優鋪法。所有被測試的AI模型在這道題上無一得分。這個細節揭示了一個重要的問題：AI在數學領域的進步並非均勻的，它有一個特別薄弱的地方，那就是"組合數學"——尤其是那種需要你不僅想清楚道理，還要親手造出具體方案的題目。

正是為了系統性地研究這個薄弱環節，研究團隊構建了一個名為ComBench的測試基準，專門用來評估大型語言模型在奧林匹克級別組合數學問題上的真實能力。這個基準包含100道精心挑選的競賽級難題，來源涵蓋國際數學奧林匹克、美國數學奧林匹克、各國代表隊選拔賽以及國際數學奧林匹克備選題庫，時間跨度從2000年到2025年。它的評測方式比以往任何數學AI基準都更嚴格、更細緻：不僅要看模型寫的證明像不像樣，還要用程序自動檢驗模型給出的具體構造方案是否真的正確無誤。

一、為什麼"組合數學"特別難為AI？

要理解這個研究解決的問題，先得明白什麼是組合數學，以及為什麼AI在這裡表現得格外尷尬。

組合數學大致處理的是"怎麼數""怎麼排""怎麼搭"的問題。比如，把一堆棋子塗色使得相鄰的顏色不同；在棋盤上放置最多的互不攻擊的車；或者在一張圖上找出滿足某種條件的路徑。這類問題的共同特點是：答案往往是一個具體的"東西"——一種顏色方案、一種擺放方式、一種策略——而不僅僅是一個數字或一段文字推導。

贊助商廣告

對於人類數學家來說，這需要兩種截然不同但相互依存的能力。第一種是"證明的能力"：你能嚴密地論證為什麼某個值是上限或下限，為什麼某個結論必然成立。第二種是"構造的能力"：你能真正造出那個滿足所有條件的對象，不是描述它大致長什麼樣，而是把它一磚一瓦地搭建出來，讓任何人都能驗證它的正確性。

現有的AI數學評測體系大多只測第一種能力，或者乾脆只看最終答案是不是正確的數字。這就好像考廚師時只問"這道菜需要用什麼原料、烹飪多少分鐘"，而不是真正要他做出一道菜來嘗一嘗。ComBench的創新之處，正是在於同時考察這兩種能力，並用一種客觀、自動的方式驗證"菜有沒有真的做出來"。

二、ComBench是怎麼設計這場考試的？

這100道題被分成兩大類，各占一半。第一類叫"分析型題目"，這類題目主要考的是數學證明的質量，評分標準參照真實奧林匹克競賽的評卷方式，按照0分、1分、6分、7分四檔來評分，分別對應沒有進展、有一點點初步想法、幾乎完整但有小瑕疵、完全正確這四種情況。

第二類叫"構造型題目"，這類題目在要求完整證明的同時，還額外要求模型給出一個具體的構造方案——也就是那個"親手造出來的東西"。這個方案必須用規定的格式輸出，然後由一個專門為這道題編寫的Python程序自動檢驗它是否滿足所有數學條件。比如，要求輸出一個圖的邊集合，程序就會驗證這些邊是否真的構成了題目要求的圖；要求輸出一個顏色方案，程序就會逐一檢查每對相鄰格子的顏色是否滿足約束。

這個自動驗證機制是整個基準的核心創新。它解決了一個長期困擾數學AI評測的問題：AI寫出來的構造描述常常讀起來頭頭是道，但實際上包含錯誤或遺漏，只有讓程序真正跑一遍才能發現問題。

五個主要題目類別將這100道題組織起來。極值問題關注在某種約束下求最大值或最小值，這類題目往往既需要證明上界又需要給出達到上界的具體方案。存在與構造問題關注某種對象是否存在，以及如果存在如何顯式地造出來。運算與策略問題涉及博弈、操作序列和不變量的維持。圖論問題處理節點和邊構成的網路結構。計數問題要求枚舉和計算滿足條件的方案數量。

贊助商廣告

三、這場考試是怎麼一步步搭建起來的？

構建ComBench的過程本身就是一項精細的工程。對於每一道構造型題目，研究團隊經歷了三個階段。

第一階段是規格說明和評分標準構建。團隊從原始題目出發，結合數學專家對構造意圖的理解，讓大語言模型起草一份專門的構造指令、一份標準化的參考方案，以及一份符合奧林匹克評分風格的評分細則。數學專家隨後檢查構造指令是否忠實於原題意、參考方案是否真正滿足要求、評分細則是否能區分有意義的部分分進展。

第二階段是驗證程序生成和語義審計。通過了人工審查的題目，進入自動生成Python驗證代碼的流程。這段代碼只讀取模型提交的構造方案，不看任何文字解釋，然後逐項檢查格式是否合規、結構是否滿足要求、全局數學條件是否成立。生成驗證代碼之後，還要用大語言模型輔助進行語義審計，檢查從原始題目到最終驗證程序的整個鏈條是否語義一致，中間有沒有出現偷換概念或弱化要求的情況。

第三階段是記錄組裝和可執行參考檢驗。通過語義審計的記錄被整合成標準格式，然後用參考方案實際運行一遍驗證程序，只有程序接受參考方案的記錄才會最終被納入數據集。之後還要有人工進行最終檢查，確認驗證程序確實在檢查實質性的數學約束，而不僅僅是表面的格式。

整個流程構建了一道嚴密的質量防線，確保每道題的構造任務定義清晰、驗證標準嚴格、參考方案可靠。

四、當證明分數遇上構造驗證，會發生什麼？

這是ComBench最具洞察力的一個設計：對於構造型題目，最終得分不是單純的證明分數，而是經過"驗證程序把關"之後的分數。

具體規則是這樣的：如果模型既寫出了高分證明，又通過了構造驗證，那就保留原來的證明分數；但如果證明分數很高，構造卻沒通過驗證，那麼分數會被降級——原本7分的降為6分，原本6分的降為1分；如果證明分數本來就低（0分或1分），構造失敗不再進一步扣分。

贊助商廣告

這個設計背後有明確的數學直覺。當一個聲稱幾乎完整的證明無法支撐出一個可驗證的具體構造時，往往意味著那個證明在關鍵步驟上存在隱蔽的漏洞——它可能用了"存在這樣一個對象"這樣的斷言，卻沒有真正說明如何找到它。把分數降級，就是在獎勵那些真正做到言行一致的證明，而不是允許模型用漂亮的文字掩蓋實質性的缺口。

五、十大頂尖模型接受考驗，成績如何？

研究團隊測試了十個前沿模型，包括GPT-5.5、Gemini-3.1-Pro、Kimi-K2.6、DeepSeek-V4-Pro、Qwen3.6-Max、SU-01、GLM-5.1、Qwen3.6-35B、Nemotron-Cascade-2以及Gemma-4-31B-IT。每道題對每個模型各採樣四次，用0.6的溫度參數，評測指標包括平均分（所有採樣的平均）和Best@4（每道題四次採樣中最高分的平均）。

排名最前的GPT-5.5，平均分只有65.4%，Best@4達到75.3%。換句話說，即使給它四次機會，也有將近四分之一的題無法完全解決。Gemini-3.1-Pro緊隨其後，Best@4為74.0%。這兩個數字清楚地表明，ComBench遠未被飽和——頂尖模型距離滿分還有相當大的距離。

更有意思的發現是不同模型在兩種能力上的表現差異。Kimi-K2.6在分析型題目的證明分數上明顯弱於GPT-5.5，但在構造型題目的Best@4上卻超過了GPT-5.5，達到83.7%。這說明"寫出嚴密證明"和"造出正確構造"這兩種能力並非完全正相關——一個模型可以在一種能力上出眾，在另一種上相對平庸。研究團隊把這兩種能力分別命名為"嚴格證明推理"和"構造性實現"，並認為它們是相關但本質上不同的數學能力。

DeepSeek-V4-Pro構成了第二梯隊，整體平均分45.2%，Best@4為62.1%。其餘六個模型的得分則大幅下滑，普遍在20%到36%的區間，Gemma-4-31B-IT墊底，平均分只有16.8%。

六、哪類題目最難，模型都在哪裡犯錯？

從題目類別來看，"存在與構造"類問題是最難的一類，四個代表性前沿模型在這類題上的得分都是五類中最低的。這並不令人意外——這類題目要求模型不僅要論證某種對象的存在性，還要真正把這個對象造出來，是兩種能力的雙重考驗。

贊助商廣告

相比之下，計數題和圖論題的得分相對較高，說明當解題過程可以組織成枚舉、圖結構重構或局部約束推理時，現有模型表現得更加可靠。極值問題和運算策略問題則介於兩者之間，這兩類問題往往要求選擇正確的全局目標或者在一個動態過程中維持某種不變量，對整體規劃能力要求較高。

研究團隊還對所有低於滿分的證明樣本進行了系統性的錯誤分類。最常見的錯誤類型是"缺少核心機制"，占所有失分樣本的41.2%。這意味著模型寫出了一些局部觀察和推導，但從未找到解題所需的關鍵思路——可能是那個關鍵的不變量、那個正確的極值結構，或者那個將整個論證連接起來的主幹想法。

第二常見的錯誤是"錯誤的數學目標"，占20.0%。模型解決的不是題目真正要問的問題，而是一個相近但不同的命題，或者計算了一個錯誤的量。格式錯誤或無法評分的情況占11.0%，這類問題主要集中在一些特定模型上，比如SU-01因為格式和指令遵循問題損失了不少分數。其餘約25%的失分樣本分布在錯誤引理、有缺陷的歸納、未經論證的跳躍以及不完整的分類討論等錯誤類型上。

這些錯誤模式共同指向一個核心缺陷：模型在全局規劃上的薄弱。它們擅長在給定框架內進行局部推導，但在面對一道全新的難題時，往往難以從頭確定正確的大方向，無法選擇合適的不變量或構造目標，也無法在推理的最後關頭完成證明的閉合。

七、從具體案例看兩種能力如何分離

研究團隊提供了幾個具體案例，非常生動地展示了證明質量和構造能力如何在同一道題上出現分離。

以2022年國際數學奧林匹克第六題為例，這道題關於"北歐方塊"的上坡路徑計數。GPT-5.5在證明部分得到了6分（接近滿分），因為它給出了正確的下界論證和構造思路框架——它描述了如何用"之字形刪除"的方式找到滿足條件的獨立集，再利用生成樹來構造達到下界的填數方案。證明看起來邏輯連貫。

贊助商廣告

但是，當要求它在規定格式中提交一個具體的填數方案時，它提交的構造沒有通過程序驗證。原因在於，它對那個"之字形刪除模式"的描述停留在高層次，從未真正將其轉化為可以逐格檢驗的具體填法。最終，6分的證明分數被降級到1分。

相反，2020年國際數學奧林匹克第四題關於纜車公司的案例則展示了兩種能力同時成功的情形。Gemini-3.1-Pro不僅寫出了完整的證明——把每家公司的纜車網路建模為路徑分解的有向圖，用組件數量推導出鴿巢原理的應用——還提交了一個具體的構造方案，用n乘n的網格對角線和列構造出兩家公司各自的纜車線路，使得任意一行和任意一列恰好共享一個站點。程序驗證通過，最終得分7分滿分。

還有一個特別有趣的案例來自2021年美國數學奧林匹克第三題，關於L型骨牌填充棋盤的問題。Kimi-K2.6在證明部分只拿到1分，因為不可能方向的論證在最後變得含糊，未能嚴密建立對所有3不整除n的情況的阻塞。但它提交的構造方案——針對n為3的倍數的情況，給出了完整的操作序列——卻通過了驗證。這說明，成功實現一個構造並不能彌補不完整證明的缺陷；兩種能力必須同時到位，才能在構造型題目上拿到高分。

八、這場考試對AI數學研究意味著什麼？

說到底，ComBench揭示的不只是某幾個模型的分數高低，而是關於當前AI數學能力的一幅更立體的圖景。

現有的前沿大語言模型確實已經掌握了相當水平的數學推理能力，它們能夠處理許多中等難度的奧林匹克題目，在計數和圖論這樣有較清晰局部結構的問題上尤其不錯。但當題目要求從零選擇正確的全局策略、發現關鍵不變量、完成證明的最後一步閉合，或者把一個存在性論斷轉化為可以逐項檢驗的具體對象時，當前最強的模型仍然頻繁失手。

這個發現對AI數學研究的方向有明確的指向意義。單純提升證明流暢度或訓練更多數學文本，可能不足以突破這一瓶頸。真正需要的進步，是在全局規劃能力、目標識別、不變量發現，以及將抽象論證轉化為具體可驗證對象這幾個方向上的實質性提升。

贊助商廣告

ComBench本身也有一些公開承認的局限。驗證程序只能檢查預先定義好格式的構造，如果模型給出了一個數學上同樣正確但格式不同的方案，程序無法識別。此外，這個基準專注於組合數學，不能代表代數、幾何、數論等其他數學分支的能力。基準中有14%的題目與另一個知名的IMO-Bench存在重疊，研究團隊對此做了詳細記錄，建議在解讀結果時保持謹慎。

對那些關心AI能力邊界的人來說，ComBench提供了一面更精確的鏡子。它告訴我們，AI數學能力的進步是真實的，但也是不均勻的；在最需要創造性離散推理的地方，今天最強的系統離真正的奧林匹克選手仍然有一段不短的距離。下次看到"AI數學競賽奪金"的新聞時，不妨也想想那道沒有解出來的第六題。

對這項研究感興趣的讀者，可以通過arXiv編號2606.10479檢索完整論文，深入了解100道題目的完整設計、評分細則和所有模型的詳細得分數據。

Q&A

Q1：ComBench和以往的AI數學測試有什麼本質區別？

A：以往的測試大多只檢查最終答案是否正確，或者用語言模型評分來評估證明質量。ComBench最大的不同在於，它對構造型題目額外配備了專門編寫的Python驗證程序，自動逐項檢查模型提交的具體方案是否滿足所有數學約束條件，完全不依賴人工判斷或語言模型評估。這就避免了模型用聽起來合理的描述掩蓋實際錯誤的情況。

Q2：GPT-5.5在ComBench上排名第一，說明它的數學能力已經很強了嗎？

A：GPT-5.5確實是測試的十個模型中綜合表現最好的，但它的平均分只有65.4%，即使給四次機會也只能達到75.3%。這意味著有將近四分之一的奧林匹克組合數學題，即使反覆嘗試也無法完整解決。ComBench的這個飽和度水平說明，當前最強的模型距離真正掌握奧林匹克級別的組合數學，仍然有相當明顯的差距。

Q3：為什麼存在與構造類題目對AI來說比其他類別難那麼多？

贊助商廣告

A：這類題目要求模型同時完成兩件截然不同的事：一是從理論上論證某種對象的存在性，二是真正造出那個滿足所有條件的具體對象。現有模型在局部推導上已經比較熟練，但在面對新題時確定正確的全局目標、選擇合適的構造策略，以及將抽象論證落實為可逐項驗證的具體方案，這三個環節都容易出現問題。任何一個環節出錯都會導致失分，這使得存在與構造題成為對AI能力要求最高的題目類型。