馬里蘭大學出了個「免培訓」數學AI方案：讓大模型當「考官」，小模型邊寫邊被糾錯

這項由馬里蘭大學電腦科學系主導的研究於2026年6月1日發布，論文編號為arXiv:2606.01682，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**研究概要：一道讓AI更聰明的"分步批改"難題**

假設你是一位數學老師，手裡有一批學生——其中有幾個"學霸"，也有幾個"普通學生"。現在有一道複雜的數學題，你讓普通學生各自寫出解題過程，然後讓學霸來判斷哪個普通學生的答案最好。這是目前AI數學推理領域最常見的做法：讓小型AI模型生成多個答案，再用大型AI模型從中挑選最佳的一個。

然而，這種"事後挑選"的方式有一個根本性的缺陷——普通學生在寫題的過程中可能早早就走錯了方向，等到學霸來評判的時候，所有人的答案都已經"歪了"，學霸只能從一堆錯誤答案里選個"最不差"的，而無法真正幫到任何人。

馬里蘭大學的研究團隊正是發現了這個問題，並提出了一個截然不同的解法：與其讓學霸在最後"評卷"，不如讓學霸在普通學生"寫題的過程中"就不斷介入——每寫一小段，就由學霸來判斷哪個方向最好，然後繼續沿這個方向寫下去。

更巧妙的是，這位"學霸大模型"壓根兒不需要自己提筆寫字，它只需要"看"，看普通學生寫的每一小段，然後給出自己的評分。這樣一來，既利用了大模型的判斷力，又不需要為此做任何專門的訓練，也不需要購置昂貴的"專業評分模型"。研究團隊將這套方案命名為"分塊引導生成馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯 "（Chunk-Level Guided Generation），並在五個主流數學推理測試集上驗證了它的效果，結果頗為亮眼。

---

**一、"事後諸葛亮"為什麼不夠用**

在AI數學推理這個領域，最直觀的思路是"多寫幾份，選最好的"。這就像讓一個班的學生同時做一道題，然後從所有答卷里挑出那份最正確的。這種方法叫做"多數投票"（Majority Voting），它的邏輯是：即便每個學生都有犯錯的可能，只要大多數人得出同一個答案，那這個答案很可能是對的。

贊助商廣告

在這個思路的基礎上，還有一種更精細的做法：不只是投票，而是讓一個更強的"評委"來給每份答卷評分，然後選出評委認為最好的那一份。這叫做"Best-of-N選擇"，相當於把投票換成了專家評審。

然而，馬里蘭大學的研究者發現，這兩種方法都有一個共同的致命弱點——它們都是在學生"交卷之後"才開始評判的。換句話說，等評委拿到答卷的時候，學生已經把整道題從頭到尾寫完了。如果某個學生在第二步就走錯了方向，後續所有的推理都是建立在錯誤基礎上的，這份答卷從根本上就救不回來了。就算評委再厲害，也只能在一堆"歪樓"的答案里選個稍微不那麼歪的。

研究團隊用實驗數據印證了這一點。在MATH這個數學難題測試集上，用大模型來給小模型的完整答案評分再挑選（Best-of-N），隨著備選答案數量從8個增加到32個，準確率不升反降，從55.8%跌到了52.6%。與此同時，簡單的多數投票反而從56.6%穩步爬升到63.0%。這說明問題不在於評委的眼光，而在於它被請來的時機太晚了——所有學生都已經"交卷"，錯誤早已無法挽回。

正因如此，研究團隊意識到，要真正解決問題，必須把大模型的介入時機從"交卷後"提前到"寫題中"。

---

**二、邊寫邊糾：分塊引導生成的核心思路**

既然"事後批改"行不通，研究團隊設計了一種"隨堂督導"機制。這個機制的運作方式可以用一個課堂場景來描述：

普通學生（小模型）在草稿紙上寫題，但不是一口氣寫完，而是每寫一小段——比如20個字——就先停下來。與此同時，這名學生同時寫出八份不同的"接下來這20個字"，就像在岔路口面前列出了八條不同的路。然後，坐在一旁的學霸（大模型）不用自己寫任何東西，只需要讀一讀這八段文字，判斷哪一段最符合它的"口味"——也就是說，哪一段在它看來最像是正確推理的延續。學霸選出最好的那一段之後，普通學生就把這一段寫進正式答卷，然後繼續進行下一個"寫20個字、停下來、讓學霸評判"的循環，直到答案寫完為止。

贊助商廣告

在這個過程中，大模型始終處於"只讀不寫"的狀態，它的工作是給每一段候選文字計算一個"似然分數"（log-probability），也就是"這段文字在我看來有多像正確的推理"。這個分數越高，說明大模型越認可這段文字。

研究團隊把這個"寫一小段、停下來、讓大模型評判"的操作單元稱為"塊"（Chunk），整套方法因此得名"分塊引導生成"。

在評分方式上，研究團隊設計了兩種策略。第一種叫做"似然引導選擇馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯 "（LGS），直接選擇大模型評分最高的那段文字——也就是大模型自己最喜歡的那段。第二種叫做"對比引導選擇"（CGS），評分方式是用大模型的評分減去小模型的評分，選擇這個差值最大的那段——也就是大模型覺得好、但小模型自己覺得沒那麼好的那段。CGS的邏輯在於，如果小模型和大模型都同樣喜歡某段文字，那大模型在這裡其實沒有提供什麼額外資訊；而當大模型的偏好與小模型明顯不同時，大模型才真正發揮了"糾偏"的作用。

這個對比策略的靈感來自於自然語言處理領域的"對比解碼馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯 "技術——核心思想是放大兩個模型之間的差異，讓更聰明的那個模型的獨特判斷力得以充分體現。

---

**三、為什麼必須用"固定長度的塊"，而不是"自然推理步驟"**

讀到這裡，你可能會有一個疑問：為什麼要用固定長度的"塊"（比如固定20個字），而不是按照解題的自然節奏來劃分——比如每完成一個推理步驟就停下來評判一次？畢竟，按推理步驟來劃分在直覺上更合理，也確實有其他研究（比如過程獎勵模型馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯，PRM）是這樣做的。

研究團隊對這個問題做了專門的實驗，結論令人意外：大模型在評分時，會系統性地偏愛更長的推理步驟，哪怕已經對分數進行了"長度歸一化馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯 "（也就是除以步驟的字數，儘量排除長度的影響），這個偏見依然存在。

研究團隊把這個現象畫成了圖表：橫軸是推理步驟的長度（字數），縱軸是大模型給這個步驟打的平均分。結果發現，在GSM8K、MATH和Minerva Math三個數據集上，無論是第一步還是第二步推理，步驟越長，大模型給的分就越高，而且這個趨勢在歸一化之後依然顯著。

贊助商廣告

這意味著什麼？如果用自然推理步驟來作為評分單元，大模型會傾向於選擇"寫得更長"的步驟，而不一定是"推理更正確"的步驟。這就像讓一個老師來評選最佳作文，結果老師總是傾向於選字數更多的那篇，不管內容好不好——這顯然不是我們想要的。

固定長度的塊則完全解決了這個問題：在每一個決策點上，所有候選的塊都有完全相同的字數，因此大模型的評分就純粹反映了它對內容質量的判斷，而不會受到長度的干擾。

---

**四、塊的長度選多少最合適？實驗給出了答案**

固定長度的塊是個好主意，但具體應該固定多少個字（或說多少個"詞元"，token）呢？研究團隊對此進行了系統的消融實驗，測試了10、20、50、100個詞元四種長度，並把2048個詞元（足夠包含整個答案）作為最極端的對比——2048詞元的情況本質上就等於讓大模型對整個完整答案評分，也就是前面提到的"事後批改"模式。

實驗結果呈現出清晰的規律：對於GSM8K和Minerva Math這兩個數據集，塊長度在10到20詞元範圍內表現最穩定，從50詞元開始準確率就開始下滑；MATH這個數據集對塊長度不那麼敏感，在50詞元時甚至能達到最高峰，但從100詞元開始也明顯下降。當塊長度拉大到2048詞元時，所有數據集、所有模型組合的準確率都出現了大幅下跌，印證了"事後批改"的失效。

基於這些發現，研究團隊最終選定20詞元作為默認塊長度，因為它在所有數據集和所有模型組合中都表現穩定，不需要針對每個數據集單獨調參。

---

**五、和"專業評分模型"比賽，不需要訓練的方案勝出了**

目前AI數學推理領域有一種主流的"隨寫隨評"方案，叫做"過程獎勵模型引導搜索"（PRM Guided Search）。它的思路和分塊引導生成很像——也是邊寫邊評、邊評邊選，但有一個關鍵區別：它使用的評分工具是專門為數學推理步驟評分而訓練的"過程獎勵模型"（PRM），這類模型的訓練需要大量帶有步驟級別標註的數據，成本極高。研究團隊在實驗中使用的是Qwen2.5-Math-PRM-72B，這是一個有720億參數、專門為數學推理設計的獎勵模型。

贊助商廣告

為了公平比較，研究團隊把"分塊引導生成"和"PRM引導搜索"的介入次數對齊——也就是說，兩種方法在生成一個答案的過程中，大模型介入評分的次數大體相當。在這個前提下，對比結果相當有力。

在Qwen2.5-1.5B（小模型）由Qwen2.5-32B（大模型）引導的組合上，CGS在GSM8K和MATH這兩個數據集上與PRM引導搜索打成平手，差距不超過0.3個百分點；而在Minerva Math（更難的競賽類題目）上，CGS平均領先PRM高達7.6個百分點；在AMC23（美國數學競賽題）上領先2.2個百分點；在AIME24（美國數學邀請賽題）上領先1.1個百分點。

在Llama-3.2-1B（小模型）由Llama-3.1-70B（大模型）引導的組合上，CGS的優勢更為全面：在GSM8K上平均領先PRM達6.7個百分點，Minerva Math上領先5.4個百分點，AMC23上領先7.8個百分點，AIME24上領先3.7個百分點；只有在MATH上，CGS在k=32時以46.2%比46.8%小幅落後，但三個k值的平均表現仍領先PRM達1.1個百分點。

這些結果說明，在不做任何專門訓練的情況下，只需把一個現成的大模型拿來當"評分員"，就能達到甚至超越專門訓練的過程獎勵模型的效果。

---

**六、更大的小模型，效果依然穩健**

研究團隊還做了一個擴展實驗：把"普通學生"從1.5B（15億參數）升級到7B（70億參數），也就是用Qwen2.5-7B搭配Qwen2.5-72B作為引導大模型。這個組合中，小模型本身已經相當強大，與大模型之間的實力差距也縮小了——7B和72B的單次準確率分別是52.9%和64.1%，相差約11個百分點；而1.5B和32B之間的差距則高達約27個百分點。

即便在這種"小模型已經很強"的情況下，CGS仍然展現出了價值。它的五個數據集平均準確率達到63.7%，幾乎與72B大模型單獨運行的64.1%持平，並且在GSM8K（91.7% vs 90.5%）、MATH（81.8% vs 80.6%）和AMC23（65.8% vs 65.0%）上甚至超越了72B大模型的單次表現。與專門訓練的PRM引導搜索相比，CGS平均落後約1.5個百分點，其中Minerva Math完全持平（63.6%），AMC23則以65.8%超過了PRM的65.0%，主要差距集中在GSM8K（91.7% vs 95.5%）。

贊助商廣告

這個結果也符合直覺：當小模型與大模型的實力差距越大，大模型的"糾偏"作用就越明顯；當兩者差距縮小時，大模型能貢獻的增量資訊就相對有限，但依然能帶來正向提升。

---

**七、更短的推理路徑，同樣的好成績**

研究團隊還檢驗了一個重要問題：分塊引導生成的好成績，是不是因為它讓小模型寫了更多的字，從而通過"堆字數"來提升正確率？畢竟，AI推理領域有一個常見現象——讓模型寫得更長、思考得更細，往往能提高準確率。如果分塊引導生成只是讓小模型繞了更多彎路，那它的價值就要打折扣了。

實驗數據給出了相反的答案。研究團隊統計了Qwen2.5-1.5B搭配Qwen2.5-32B這個組合在各數據集上的平均推理長度。以GSM8K為例：小模型單獨運行時平均寫159個詞元的推理過程，大模型單獨運行只需164個詞元，CGS引導下的小模型寫了173個詞元——這比小模型自己寫的稍微多一點，但接近大模型的水平。而PRM引導搜索則寫了整整311個詞元，是CGS的1.8倍。

在MATH上，小模型單獨運行平均652詞元，CGS引導後縮短到492詞元，而PRM引導則需要589詞元。Minerva Math的情況類似：小模型651詞元，CGS引導後524詞元，PRM引導後773詞元。在五個數據集上，PRM引導的推理長度始終顯著長於CGS引導的推理長度，且在GSM8K上差距最大，PRM的推理長度是CGS的1.8倍。

這個發現很有意思：大模型的引導不僅提升了準確率，還順帶讓小模型學會了"更直接地走向正確答案"，而不是繞遠路。這與此前一些研究觀察到的規律相符——更長的推理鏈條不一定帶來更好的結果，有時候恰恰是簡潔、直接的推理才是高質量的推理。

---

**八、與其他"事後挑選"方法的全面對比**

除了與PRM引導搜索對比，研究團隊還把分塊引導生成與多種"事後挑選"方案進行了系統比較，包括多數投票（Majority@k）、基於自信度的Best-of-N（Self-Certainty）、Borda排序法（Borda count）以及大模型直接評分的Best-of-N。

贊助商廣告

多數投票是最基本的基準——讓小模型寫k個答案，看哪個最終答案出現次數最多。在Qwen2.5-1.5B的組合上，k=32時多數投票在GSM8K上達到79.7%，在MATH上達到63.0%；CGS在同樣的k=32時分別達到92.5%和68.8%，領先幅度顯著。在Llama-3.2-1B的組合上，差距更大：多數投票在GSM8K上僅有56.0%，而CGS達到83.9%，足足領先27.9個百分點。

自信度引導的選擇（Self-Certainty）表現令人失望——它在30個設置中有24個不如多數投票，說明用小模型自己的"自信程度"來挑選答案並不可靠。Borda排序法稍好，但仍然整體落後於分塊引導生成。Best-of-N的表現參差不齊：在GSM8K上有一定效果，但在MATH和Minerva Math上經常不如多數投票，且在k增大時還會下滑。

研究團隊還特別討論了"Pass@k"這個指標——它衡量的是k個答案中至少有一個正確的概率，代表了事後挑選方法的理論上限。即便在理論上限的條件下，事後挑選方法也無法超越分塊引導生成：在Llama-3.2-1B的組合上，CGS在GSM8K k=8時以71.3%超過了Pass@k的70.5%，在k=16時以79.3%超過了79.1%，在AIME24 k=16時以10.0%超過了7.8%。這意味著，通過在生成過程中持續干預，分塊引導生成能夠引導小模型走向那些它在"自由發揮"時根本不會走到的正確路徑。

---

**九、研究的邊界與尚待探索的方向**

研究團隊在論文中坦誠地指出了這項研究的局限性，這也是理解這套方案適用範圍的重要參考。

全部實驗都集中在數學推理這個特定領域，是否同樣適用於代碼生成、常識推理或開放式問答等其他任務，目前尚不清楚。此外，實驗中使用的模型組合都是"同門師兄弟"——Qwen引導Qwen，Llama引導Llama，而不同系列的大小模型之間能否有效配合，也還是未解之謎。

還有一個技術上的懸案：研究團隊證明了"固定長度的塊"能繞開長度偏見的問題，但如果能設計出一種更精妙的"變長評分方案"，讓大模型對不同長度的文字也能公平評分，結果會不會更好？這個方向尚未被探索。

贊助商廣告

---

歸根結底，馬里蘭大學這支團隊做的事情，是給AI數學推理領域提供了一個"拿來即用"的實用方案：不需要為評分模型專門收集標註數據，不需要做任何額外訓練，只需要把一個現成的大模型請來當"隨堂督導"，讓它在小模型寫題過程中不斷評判、選優，就能顯著提升小模型的表現，有時甚至超越專門訓練的獎勵模型。

方法的核心洞見其實並不複雜：錯誤最應該被糾正的時機，是它剛剛發生的那一刻，而不是等到全部推理結束之後。這個道理在數學教學中早已被老師們實踐了幾千年，只是現在被研究團隊用嚴謹的實驗重新證明了一遍，並賦予了AI系統這種能力。

如果你對這項研究的細節感到好奇，歡迎通過arXiv:2606.01682查閱完整論文，其中包含了詳細的實驗數據、算法偽代碼和更多邊界案例的分析。

---

Q&A

Q1：分塊引導生成（Chunk-Level Guided Generation）和傳統的多數投票有什麼本質區別？

A：傳統多數投票是讓小模型把整道題從頭到尾寫完，再從所有答案里選出現次數最多的那個，這時候如果某個答案在中途就走錯了方向，已經無法補救。分塊引導生成則是把寫題過程切成很多小段，每寫完一小段，就讓大模型評判哪個候選片段最好，再繼續往下寫。這樣一來，大模型可以在錯誤還沒有擴散之前就把它糾正過來，而不是等全部寫完才發現問題。

Q2：為什麼分塊引導生成不用訓練專門的獎勵模型？

A：因為這套方法直接利用大模型本身的"語言直覺"來評分——大模型在預訓練過程中已經接觸過大量數學推理內容，它能判斷一段推理文字"像不像正確答案的延續"。這個判斷力通過計算大模型對候選文字的"似然分數"來體現，完全不需要針對數學步驟做額外標註和訓練，只需要把現成的大模型拿來評分就夠了。

Q3：對比引導選擇（CGS）為什麼比直接用大模型評分（LGS）效果更好？

A：LGS直接選大模型最喜歡的那段文字，但這裡面包含了小模型自己也喜歡的部分——大模型在那些地方其實沒有提供額外的糾偏資訊。CGS用大模型的評分減去小模型的評分，專門尋找那些"大模型覺得好、小模型自己沒意識到好"的片段，這樣才真正發揮了大模型的獨特判斷力，所以平均表現比LGS高出2到3個百分點。

贊助商廣告