宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

馬里蘭大學出了個「免培訓」數學AI方案:讓大模型當「考官」,小模型邊寫邊被糾錯

2026年06月05日 首頁 » 熱門科技

這項由馬里蘭大學電腦科學系主導的研究於2026年6月1日發布,論文編號為arXiv:2606.01682,有興趣深入了解的讀者可通過該編號查詢完整論文。

**研究概要:一道讓AI更聰明的"分步批改"難題**

假設你是一位數學老師,手裡有一批學生——其中有幾個"學霸",也有幾個"普通學生"。現在有一道複雜的數學題,你讓普通學生各自寫出解題過程,然後讓學霸來判斷哪個普通學生的答案最好。這是目前AI數學推理領域最常見的做法:讓小型AI模型生成多個答案,再用大型AI模型從中挑選最佳的一個。

然而,這種"事後挑選"的方式有一個根本性的缺陷——普通學生在寫題的過程中可能早早就走錯了方向,等到學霸來評判的時候,所有人的答案都已經"歪了",學霸只能從一堆錯誤答案里選個"最不差"的,而無法真正幫到任何人。

馬里蘭大學的研究團隊正是發現了這個問題,並提出了一個截然不同的解法:與其讓學霸在最後"評卷",不如讓學霸在普通學生"寫題的過程中"就不斷介入——每寫一小段,就由學霸來判斷哪個方向最好,然後繼續沿這個方向寫下去。

更巧妙的是,這位"學霸大模型"壓根兒不需要自己提筆寫字,它只需要"看",看普通學生寫的每一小段,然後給出自己的評分。這樣一來,既利用了大模型的判斷力,又不需要為此做任何專門的訓練,也不需要購置昂貴的"專業評分模型"。研究團隊將這套方案命名為"分塊引導生成馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯"(Chunk-Level Guided Generation),並在五個主流數學推理測試集上驗證了它的效果,結果頗為亮眼。

---

**一、"事後諸葛亮"為什麼不夠用**

在AI數學推理這個領域,最直觀的思路是"多寫幾份,選最好的"。這就像讓一個班的學生同時做一道題,然後從所有答卷里挑出那份最正確的。這種方法叫做"多數投票"(Majority Voting),它的邏輯是:即便每個學生都有犯錯的可能,只要大多數人得出同一個答案,那這個答案很可能是對的。

在這個思路的基礎上,還有一種更精細的做法:不只是投票,而是讓一個更強的"評委"來給每份答卷評分,然後選出評委認為最好的那一份。這叫做"Best-of-N選擇",相當於把投票換成了專家評審。

然而,馬里蘭大學的研究者發現,這兩種方法都有一個共同的致命弱點——它們都是在學生"交卷之後"才開始評判的。換句話說,等評委拿到答卷的時候,學生已經把整道題從頭到尾寫完了。如果某個學生在第二步就走錯了方向,後續所有的推理都是建立在錯誤基礎上的,這份答卷從根本上就救不回來了。就算評委再厲害,也只能在一堆"歪樓"的答案里選個稍微不那麼歪的。

研究團隊用實驗數據印證了這一點。在MATH這個數學難題測試集上,用大模型來給小模型的完整答案評分再挑選(Best-of-N),隨著備選答案數量從8個增加到32個,準確率不升反降,從55.8%跌到了52.6%。與此同時,簡單的多數投票反而從56.6%穩步爬升到63.0%。這說明問題不在於評委的眼光,而在於它被請來的時機太晚了——所有學生都已經"交卷",錯誤早已無法挽回。

正因如此,研究團隊意識到,要真正解決問題,必須把大模型的介入時機從"交卷後"提前到"寫題中"。

---

**二、邊寫邊糾:分塊引導生成的核心思路**

既然"事後批改"行不通,研究團隊設計了一種"隨堂督導"機制。這個機制的運作方式可以用一個課堂場景來描述:

普通學生(小模型)在草稿紙上寫題,但不是一口氣寫完,而是每寫一小段——比如20個字——就先停下來。與此同時,這名學生同時寫出八份不同的"接下來這20個字",就像在岔路口面前列出了八條不同的路。然後,坐在一旁的學霸(大模型)不用自己寫任何東西,只需要讀一讀這八段文字,判斷哪一段最符合它的"口味"——也就是說,哪一段在它看來最像是正確推理的延續。學霸選出最好的那一段之後,普通學生就把這一段寫進正式答卷,然後繼續進行下一個"寫20個字、停下來、讓學霸評判"的循環,直到答案寫完為止。

在這個過程中,大模型始終處於"只讀不寫"的狀態,它的工作是給每一段候選文字計算一個"似然分數"(log-probability),也就是"這段文字在我看來有多像正確的推理"。這個分數越高,說明大模型越認可這段文字。

研究團隊把這個"寫一小段、停下來、讓大模型評判"的操作單元稱為"塊"(Chunk),整套方法因此得名"分塊引導生成"。

在評分方式上,研究團隊設計了兩種策略。第一種叫做"似然引導選擇馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯"(LGS),直接選擇大模型評分最高的那段文字——也就是大模型自己最喜歡的那段。第二種叫做"對比引導選擇馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯"(CGS),評分方式是用大模型的評分減去小模型的評分,選擇這個差值最大的那段——也就是大模型覺得好、但小模型自己覺得沒那麼好的那段。CGS的邏輯在於,如果小模型和大模型都同樣喜歡某段文字,那大模型在這裡其實沒有提供什麼額外資訊;而當大模型的偏好與小模型明顯不同時,大模型才真正發揮了"糾偏"的作用。

這個對比策略的靈感來自於自然語言處理領域的"對比解碼馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯"技術——核心思想是放大兩個模型之間的差異,讓更聰明的那個模型的獨特判斷力得以充分體現。

---

**三、為什麼必須用"固定長度的塊",而不是"自然推理步驟"**

讀到這裡,你可能會有一個疑問:為什麼要用固定長度的"塊"(比如固定20個字),而不是按照解題的自然節奏來劃分——比如每完成一個推理步驟就停下來評判一次?畢竟,按推理步驟來劃分在直覺上更合理,也確實有其他研究(比如過程獎勵模型馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯,PRM)是這樣做的。

研究團隊對這個問題做了專門的實驗,結論令人意外:大模型在評分時,會系統性地偏愛更長的推理步驟,哪怕已經對分數進行了"長度歸一化馬里蘭大學出了個免培訓數學AI方案讓大模型當考官小模型邊寫邊被糾錯"(也就是除以步驟的字數,儘量排除長度的影響),這個偏見依然存在。

研究團隊把這個現象畫成了圖表:橫軸是推理步驟的長度(字數),縱軸是大模型給這個步驟打的平均分。結果發現,在GSM8K、MATH和Minerva Math三個數據集上,無論是第一步還是第二步推理,步驟越長,大模型給的分就越高,而且這個趨勢在歸一化之後依然顯著。

這意味著什麼?如果用自然推理步驟來作為評分單元,大模型會傾向於選擇"寫得更長"的步驟,而不一定是"推理更正確"的步驟。這就像讓一個老師來評選最佳作文,結果老師總是傾向於選字數更多的那篇,不管內容好不好——這顯然不是我們想要的。

固定長度的塊則完全解決了這個問題:在每一個決策點上,所有候選的塊都有完全相同的字數,因此大模型的評分就純粹反映了它對內容質量的判斷,而不會受到長度的干擾。

---

**四、塊的長度選多少最合適?實驗給出了答案**

固定長度的塊是個好主意,但具體應該固定多少個字(或說多少個"詞元",token)呢?研究團隊對此進行了系統的消融實驗,測試了10、20、50、100個詞元四種長度,並把2048個詞元(足夠包含整個答案)作為最極端的對比——2048詞元的情況本質上就等於讓大模型對整個完整答案評分,也就是前面提到的"事後批改"模式。

實驗結果呈現出清晰的規律:對於GSM8K和Minerva Math這兩個數據集,塊長度在10到20詞元範圍內表現最穩定,從50詞元開始準確率就開始下滑;MATH這個數據集對塊長度不那麼敏感,在50詞元時甚至能達到最高峰,但從100詞元開始也明顯下降。當塊長度拉大到2048詞元時,所有數據集、所有模型組合的準確率都出現了大幅下跌,印證了"事後批改"的失效。

基於這些發現,研究團隊最終選定20詞元作為默認塊長度,因為它在所有數據集和所有模型組合中都表現穩定,不需要針對每個數據集單獨調參。

---

**五、和"專業評分模型"比賽,不需要訓練的方案勝出了**

目前AI數學推理領域有一種主流的"隨寫隨評"方案,叫做"過程獎勵模型引導搜索"(PRM Guided Search)。它的思路和分塊引導生成很像——也是邊寫邊評、邊評邊選,但有一個關鍵區別:它使用的評分工具是專門為數學推理步驟評分而訓練的"過程獎勵模型"(PRM),這類模型的訓練需要大量帶有步驟級別標註的數據,成本極高。研究團隊在實驗中使用的是Qwen2.5-Math-PRM-72B,這是一個有720億參數、專門為數學推理設計的獎勵模型。

為了公平比較,研究團隊把"分塊引導生成"和"PRM引導搜索"的介入次數對齊——也就是說,兩種方法在生成一個答案的過程中,大模型介入評分的次數大體相當。在這個前提下,對比結果相當有力。

在Qwen2.5-1.5B(小模型)由Qwen2.5-32B(大模型)引導的組合上,CGS在GSM8K和MATH這兩個數據集上與PRM引導搜索打成平手,差距不超過0.3個百分點;而在Minerva Math(更難的競賽類題目)上,CGS平均領先PRM高達7.6個百分點;在AMC23(美國數學競賽題)上領先2.2個百分點;在AIME24(美國數學邀請賽題)上領先1.1個百分點。

在Llama-3.2-1B(小模型)由Llama-3.1-70B(大模型)引導的組合上,CGS的優勢更為全面:在GSM8K上平均領先PRM達6.7個百分點,Minerva Math上領先5.4個百分點,AMC23上領先7.8個百分點,AIME24上領先3.7個百分點;只有在MATH上,CGS在k=32時以46.2%比46.8%小幅落後,但三個k值的平均表現仍領先PRM達1.1個百分點。

這些結果說明,在不做任何專門訓練的情況下,只需把一個現成的大模型拿來當"評分員",就能達到甚至超越專門訓練的過程獎勵模型的效果。

---

**六、更大的小模型,效果依然穩健**

研究團隊還做了一個擴展實驗:把"普通學生"從1.5B(15億參數)升級到7B(70億參數),也就是用Qwen2.5-7B搭配Qwen2.5-72B作為引導大模型。這個組合中,小模型本身已經相當強大,與大模型之間的實力差距也縮小了——7B和72B的單次準確率分別是52.9%和64.1%,相差約11個百分點;而1.5B和32B之間的差距則高達約27個百分點。

即便在這種"小模型已經很強"的情況下,CGS仍然展現出了價值。它的五個數據集平均準確率達到63.7%,幾乎與72B大模型單獨運行的64.1%持平,並且在GSM8K(91.7% vs 90.5%)、MATH(81.8% vs 80.6%)和AMC23(65.8% vs 65.0%)上甚至超越了72B大模型的單次表現。與專門訓練的PRM引導搜索相比,CGS平均落後約1.5個百分點,其中Minerva Math完全持平(63.6%),AMC23則以65.8%超過了PRM的65.0%,主要差距集中在GSM8K(91.7% vs 95.5%)。

這個結果也符合直覺:當小模型與大模型的實力差距越大,大模型的"糾偏"作用就越明顯;當兩者差距縮小時,大模型能貢獻的增量資訊就相對有限,但依然能帶來正向提升。

---

**七、更短的推理路徑,同樣的好成績**

研究團隊還檢驗了一個重要問題:分塊引導生成的好成績,是不是因為它讓小模型寫了更多的字,從而通過"堆字數"來提升正確率?畢竟,AI推理領域有一個常見現象——讓模型寫得更長、思考得更細,往往能提高準確率。如果分塊引導生成只是讓小模型繞了更多彎路,那它的價值就要打折扣了。

實驗數據給出了相反的答案。研究團隊統計了Qwen2.5-1.5B搭配Qwen2.5-32B這個組合在各數據集上的平均推理長度。以GSM8K為例:小模型單獨運行時平均寫159個詞元的推理過程,大模型單獨運行只需164個詞元,CGS引導下的小模型寫了173個詞元——這比小模型自己寫的稍微多一點,但接近大模型的水平。而PRM引導搜索則寫了整整311個詞元,是CGS的1.8倍。

在MATH上,小模型單獨運行平均652詞元,CGS引導後縮短到492詞元,而PRM引導則需要589詞元。Minerva Math的情況類似:小模型651詞元,CGS引導後524詞元,PRM引導後773詞元。在五個數據集上,PRM引導的推理長度始終顯著長於CGS引導的推理長度,且在GSM8K上差距最大,PRM的推理長度是CGS的1.8倍。

這個發現很有意思:大模型的引導不僅提升了準確率,還順帶讓小模型學會了"更直接地走向正確答案",而不是繞遠路。這與此前一些研究觀察到的規律相符——更長的推理鏈條不一定帶來更好的結果,有時候恰恰是簡潔、直接的推理才是高質量的推理。

---

**八、與其他"事後挑選"方法的全面對比**

除了與PRM引導搜索對比,研究團隊還把分塊引導生成與多種"事後挑選"方案進行了系統比較,包括多數投票(Majority@k)、基於自信度的Best-of-N(Self-Certainty)、Borda排序法(Borda count)以及大模型直接評分的Best-of-N。

多數投票是最基本的基準——讓小模型寫k個答案,看哪個最終答案出現次數最多。在Qwen2.5-1.5B的組合上,k=32時多數投票在GSM8K上達到79.7%,在MATH上達到63.0%;CGS在同樣的k=32時分別達到92.5%和68.8%,領先幅度顯著。在Llama-3.2-1B的組合上,差距更大:多數投票在GSM8K上僅有56.0%,而CGS達到83.9%,足足領先27.9個百分點。

自信度引導的選擇(Self-Certainty)表現令人失望——它在30個設置中有24個不如多數投票,說明用小模型自己的"自信程度"來挑選答案並不可靠。Borda排序法稍好,但仍然整體落後於分塊引導生成。Best-of-N的表現參差不齊:在GSM8K上有一定效果,但在MATH和Minerva Math上經常不如多數投票,且在k增大時還會下滑。

研究團隊還特別討論了"Pass@k"這個指標——它衡量的是k個答案中至少有一個正確的概率,代表了事後挑選方法的理論上限。即便在理論上限的條件下,事後挑選方法也無法超越分塊引導生成:在Llama-3.2-1B的組合上,CGS在GSM8K k=8時以71.3%超過了Pass@k的70.5%,在k=16時以79.3%超過了79.1%,在AIME24 k=16時以10.0%超過了7.8%。這意味著,通過在生成過程中持續干預,分塊引導生成能夠引導小模型走向那些它在"自由發揮"時根本不會走到的正確路徑。

---

**九、研究的邊界與尚待探索的方向**

研究團隊在論文中坦誠地指出了這項研究的局限性,這也是理解這套方案適用範圍的重要參考。

全部實驗都集中在數學推理這個特定領域,是否同樣適用於代碼生成、常識推理或開放式問答等其他任務,目前尚不清楚。此外,實驗中使用的模型組合都是"同門師兄弟"——Qwen引導Qwen,Llama引導Llama,而不同系列的大小模型之間能否有效配合,也還是未解之謎。

還有一個技術上的懸案:研究團隊證明了"固定長度的塊"能繞開長度偏見的問題,但如果能設計出一種更精妙的"變長評分方案",讓大模型對不同長度的文字也能公平評分,結果會不會更好?這個方向尚未被探索。

---

歸根結底,馬里蘭大學這支團隊做的事情,是給AI數學推理領域提供了一個"拿來即用"的實用方案:不需要為評分模型專門收集標註數據,不需要做任何額外訓練,只需要把一個現成的大模型請來當"隨堂督導",讓它在小模型寫題過程中不斷評判、選優,就能顯著提升小模型的表現,有時甚至超越專門訓練的獎勵模型。

方法的核心洞見其實並不複雜:錯誤最應該被糾正的時機,是它剛剛發生的那一刻,而不是等到全部推理結束之後。這個道理在數學教學中早已被老師們實踐了幾千年,只是現在被研究團隊用嚴謹的實驗重新證明了一遍,並賦予了AI系統這種能力。

如果你對這項研究的細節感到好奇,歡迎通過arXiv:2606.01682查閱完整論文,其中包含了詳細的實驗數據、算法偽代碼和更多邊界案例的分析。

---

Q&A

Q1:分塊引導生成(Chunk-Level Guided Generation)和傳統的多數投票有什麼本質區別?

A:傳統多數投票是讓小模型把整道題從頭到尾寫完,再從所有答案里選出現次數最多的那個,這時候如果某個答案在中途就走錯了方向,已經無法補救。分塊引導生成則是把寫題過程切成很多小段,每寫完一小段,就讓大模型評判哪個候選片段最好,再繼續往下寫。這樣一來,大模型可以在錯誤還沒有擴散之前就把它糾正過來,而不是等全部寫完才發現問題。

Q2:為什麼分塊引導生成不用訓練專門的獎勵模型?

A:因為這套方法直接利用大模型本身的"語言直覺"來評分——大模型在預訓練過程中已經接觸過大量數學推理內容,它能判斷一段推理文字"像不像正確答案的延續"。這個判斷力通過計算大模型對候選文字的"似然分數"來體現,完全不需要針對數學步驟做額外標註和訓練,只需要把現成的大模型拿來評分就夠了。

Q3:對比引導選擇(CGS)為什麼比直接用大模型評分(LGS)效果更好?

A:LGS直接選大模型最喜歡的那段文字,但這裡面包含了小模型自己也喜歡的部分——大模型在那些地方其實沒有提供額外的糾偏資訊。CGS用大模型的評分減去小模型的評分,專門尋找那些"大模型覺得好、小模型自己沒意識到好"的片段,這樣才真正發揮了大模型的獨特判斷力,所以平均表現比LGS高出2到3個百分點。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新