當AI給小模型當「助教」：IBM和南卡羅來納大學的這項實驗，讓小語言模型的答題準確率飆升28個百分點

這項由IBM研究院與南卡羅來納大學人工智慧研究所聯合開展的研究，以預印本形式發布於2026年5月12日，論文編號為arXiv:2605.18827，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**研究概要：一個關於"考試輔助"的大膽實驗**

考慮這樣一個場景：你是一名基礎知識有限的學生，面對一份選擇題試卷。如果讓你獨立作答，正確率可能只有三四成。但如果有一位經驗豐富的助教，提前為每道題專門設計了一套解題框架——告訴你該從哪些角度分析、用什麼步驟推導、做完之後再用什麼方法驗證——你的得分會不會大幅提升？

這正是IBM與南卡羅來納大學研究團隊做的事情，只不過"學生"換成了小型語言模型當AI給小模型當助教IBM和南卡羅來納大學的這項實驗讓小語言模型的答題準確率飆升28個百分點（Small Language Models，簡稱SLM），"助教"變成了一段由強大AI生成的Python程序。這套被命名為"代碼引導推理"（Code-Guided Reasoning，CGR）的方法，是一套專門用來測量這種"輔助效果"的評測框架。

研究結果出人意料地顯著：在核心對比組中，有了這套代碼輔助腳手架之後，小模型的答題準確率從38.11%躍升至66.21%，整整提高了28.10個百分點。這不是某一道題偶然答對的運氣，而是橫跨九個不同知識領域、六種不同小模型的系統性觀察結果，數據來自超過兩萬條有效記錄。

當然，研究團隊非常誠實地指出，這個數字背後有很多需要交代清楚的條件——輔助路徑消耗了約七倍於直接回答的計算資源，答案提取機制並不完美，有一個數據集甚至出現了準確率下降的"倒退"現象。正因如此，這篇論文的價值不僅僅在於那個亮眼的數字，更在於它提供了一套完整的"檢查清單"，讓後來的研究者能夠看清每一個數字背後的來龍去脈。

---

**一、為什麼直接讓AI回答選擇題，其實是一種"裸考"**

日常生活中，當我們評價一個學生的能力時，通常有兩種方式。一種是把他單獨關在考場裡，不給任何工具，直接看他能答對多少題。另一種是給他計算器、參考書、草稿紙，甚至允許他把大題拆成小步驟逐一推導，然後再看他的最終成績。顯然，這兩種場景測出來的東西是不一樣的。

贊助商廣告

然而，當研究人員評測AI語言模型時，長期以來默認採用的都是第一種方式：給模型一道選擇題，要求它直接輸出A、B、C或D中的某個字母，然後對答案，完事。這種"裸考"模式在大型模型時代或許勉強夠用——那些千億參數的巨型模型本身就儲存了海量知識，直接回答往往還不錯。

但現實中，越來越多的AI應用場景並不是讓單個模型孤立地回答問題。工程師們早就開始構建更複雜的系統：一個控制程序把問題拆解成若干步驟，調用模型多次，匯總結果，排除矛盾，最終給出答案。這種有外部"腳手架"支撐的工作方式，才是小型模型在實際部署中真正的樣子。

小型模型之所以被廣泛使用，原因很實際：它們更便宜、可以在本地運行、對數據隱私友好、延遲低。但它們的知識儲量和推理能力通常不如大模型，在裸考狀態下表現有限。CGR框架當AI給小模型當助教IBM和南卡羅來納大學的這項實驗讓小語言模型的答題準確率飆升28個百分點的核心問題就是：如果給這些小模型配備一套精心設計的代碼腳手架，它們的表現會發生什麼變化？

---

**二、"助教"是怎樣工作的：三條答題通道的設計**

CGR框架的運作方式，可以用一個學校考試的比喻來理解。有一位經驗豐富的"出題助教"（在實驗中是一個強大的大型AI，被稱為生成模型），還有一名"應試學生"（被評測的小型模型，被稱為求解模型）。

整個過程分兩條並行的路徑推進。第一條路徑是"裸考"：直接把選擇題丟給小模型，要求它輸出一個選項字母，這就是直接基線答案。第二條路徑是"輔助考試"：先讓助教AI針對這道題專門寫一段Python程序，這段程序相當於一份定製化的解題指南——它可以把題目拆成幾個角度分別分析，把每個角度的問題依次發給小模型，收集小模型的回答，比對是否一致，如果不一致再發一道"決勝題"來打平分，最後匯總出一個最終答案。這就是輔助路徑答案。

第三個通道有些特殊：助教AI在寫這段程序的時候，自己也在心裡預判了一個答案，這個答案被保存在程序里作為"生成模型側答案"。這個通道存在的意義是診斷性的——如果輔助路徑的準確率很高，研究人員需要分辨這究竟是因為小模型真的被幫助了，還是因為助教AI自己的答案"泄露"進了程序。

贊助商廣告

這三條通道必須分開記錄、分開計分，絕不能混為一談。把它們混在一起看，就像把老師自己的答案和學生通過輔助答出來的答案算在一起，那就什麼都說明不了了。

從工程層面來說，每段Python程序都有一個固定的"返回合同"：必須返回三個值——求解模型選的答案、生成模型預判的答案、生成模型估計的題目難度。程序里可以調用兩個工具函數：一個是調用小模型的接口，另一個是從模型回覆中提取選項字母的提取器（它的規則很簡單：找第一個獨立出現的大寫字母A到Z，找不到就返回X表示提取失敗）。

---

**三、九個考場、六位"學生"：實驗的規模和覆蓋範圍**

為了讓這套評測框架的結論足夠可信，研究團隊為它配備了相當豐富的考題庫。他們把九個來源各異的選擇題數據集匯編成一個標準化題庫，總共保留了超過兩萬條有效結果記錄。

這九個數據集覆蓋的領域差異顯著。MMLU-Pro包含500道需要深度推理的多領域學術選擇題，難度遠高於普通常識問答。OpenBookQA收錄了500道小學科學類問題，考察的是將基本知識靈活應用於新場景的能力。SuperGPQA的500道題橫跨285個研究生級別學科，從神經科學到材料工程無所不包。MedQA的500道題來自醫學執照考試，需要在複雜臨床場景中做出鑑別診斷。PhysicsQA則收錄了45道物理學題，這批題來自一項專門研究如何幫助大模型改善物理推理的項目。

Time-MQA 當AI給小模型當助教IBM和南卡羅來納大學的這項實驗讓小語言模型的答題準確率飆升28個百分點是一個特別的數據集，它把時間序列分析——也就是分析隨時間變化的數據趨勢——包裝成了自然語言選擇題的形式，500道題考察的是對時序數據模式的理解。CorrectBenchQA的494道題來自一項研究AI自我糾錯能力的基準測試。FailureSensorIQ的500道題聚焦工業4.0場景，考察對傳感器關係和設備故障模式的推理能力——研究團隊特別提醒，這個數據集裡的知識高度專業且容錯率極低，AI給出的任何答案都不能直接用於實際工業診斷，必須經過專家驗證。AIME則收錄了2025年美國邀請數學考試的30道競賽題，題目本身受版權保護，論文中沒有復現題目原文。

贊助商廣告

擔任"應試學生"角色的六個小模型，分屬不同的模型家族和參數規模，涵蓋了來自IBM的Granite系列（包括針對代碼優化的Granite 8B Code和更小的Granite 4H Small）、Meta的Llama 3.2 11B、Mistral的Small 3.1 24B，以及更新一批的Google Gemma 4 E2B和英偉達的Nemotron-3-Nano-4B。這六個模型並非按照參數量對齊的嚴格對比組，而是代表了實際工程應用中會被選用的不同類型小模型。所有模型都以溫度值0.0運行以儘量保證結果可復現，求解模型的回覆上限為2000個詞元，而生成助教學序的強大模型的上限則高達8192個詞元。

---

**四、核心數據：那28個百分點背後的完整故事**

當所有結果匯總之後，研究團隊得到了三張截然不同的"成績單"。

第一張是對所有兩萬多條記錄不加區分地統計：小模型直接回答的微平均準確率是23.27%，輔助路徑的準確率是62.41%，而助教AI自己預判的準確率是79.19%。三者之間相差懸殊，輔助路徑比直接回答提高了約39個百分點。

但這張成績單摻雜了一個難以解釋的情況：有些小模型在某些數據集上，不管題目怎麼出，直接回答全部錯誤，準確率為零。這種情況下，如果輔助路徑突然答對了很多題，我們根本無法判斷這是代碼腳手架真正幫助了模型推理，還是模型連基本題意都沒理解，輔助路徑只是碰巧從格式混亂的回覆中提取出了正確字母。這就好比一個學生考試交了白卷，但老師改卷時發現草稿紙上的塗鴉恰好寫對了答案，你該怎麼算這道題的分數？

因此，第二張成績單才是研究的"主角"：把那些"直接回答完全為零分"的數據集-模型組合剔除出去，只保留至少有一道題答對了的組合，再對每個數據集-模型配對計算宏平均準確率當AI給小模型當助教IBM和南卡羅來納大學的這項實驗讓小語言模型的答題準確率飆升28個百分點（也就是給每個配對相同的權重，不讓題目多的數據集把結果拉偏）。在這個口徑下，直接回答的宏平均準確率是38.11%，輔助路徑是66.21%，差值是28.10個百分點。

贊助商廣告

研究團隊還設置了一個更嚴格的門檻：只保留直接回答準確率超過30%的配對——也就是說，模型在裸考狀態下已經能答對至少三成題目，具備一定直接能力的情況下，輔助路徑還能進一步提升多少？答案是14.11個百分點。這個數字比28.10小了一半，但依然正向，說明輔助效果並不只是在模型完全抓瞎的時候才出現。

這兩個數字放在一起，傳遞了一個關鍵信號：那28個百分點的提升，一部分來自幫助原本就有一點能力的模型"把能力發揮出來"，另一部分則更難區分清楚，可能混入了純粹因為調用次數更多、格式處理更好而帶來的收益。研究團隊用對數據集-模型配對進行自舉法重採樣的方式估計了不確定性，得到了[20.32, 36.43]這個95%置信區間——換句話說，這28.10這個點估計，在合理的統計波動範圍內是可信的，但絕不是精確到小數點的定論。

第三張成績單是"零分診斷組當AI給小模型當助教IBM和南卡羅來納大學的這項實驗讓小語言模型的答題準確率飆升28個百分點 "：那些直接回答全部錯誤的配對，輔助路徑的宏平均準確率達到了62.19%。這組數據單獨列出作為診斷參考，不納入主要結論。

---

**五、助教學序是如何工作的：以一道"霧天選擇題"為例**

論文中有一個具體到代碼層面的例子，非常清楚地說明了輔助路徑和直接路徑的區別。

題目是OpenBookQA中的一道題："下面哪個地方最有可能出現霧？A.沼澤地，B.凍土帶，C.平原，D.沙漠。"正確答案是A。

當Granite 4H Small小模型直接面對這道題時，它回答了"E"——這個字母根本不在選項範圍內，直接算作錯誤。

而輔助路徑是這樣工作的：助教AI生成了一段Python代碼，代碼里先從物理學角度定義了霧的形成機制（近地面空氣冷卻到露點溫度），然後分別從四個維度對比了沼澤、凍土帶、平原和沙漠的特徵：水分可用性如何、冷卻機制是什麼、風速怎樣、露點溫差有多大。程序把這些分析包裝成一道"分析題"提示詞，發給小模型，得到一個回答，再把這個回答包裝成一道"驗證題"提示詞，再次發給小模型，得到第二個回答，提取兩次回答的選項字母。如果兩次一致，就取那個字母；如果不一致，再發一道"決勝題"，取第三次回答作為最終答案。在這個具體例子中，兩次回答都是A，直接取A，答對了。與此同時，助教AI在程序里自己也留了一個答案：A，也是對的。

贊助商廣告

這段代碼的結構簡化版大致如下：先調用模型做分析，提取字母；再調用模型做驗證，提取字母；如果兩個字母相同，就把它作為最終的求解模型答案；如果不同，再調用模型做一次決勝判斷；最後程序固定返回求解模型答案、助教AI預判答案以及難度估計這三個值。

---

**六、有人進步，有人退步：結果的差異性遠比平均值更有意思**

28.10個百分點是所有數據對的平均，但如果把每個數據集-模型配對單獨列出來，會看到一幅更複雜的圖景。

提升最大的幾個案例令人印象深刻。MedQA醫學題組裡，Llama 3.2 11B在直接回答時準確率只有1.20%，輔助路徑下飆升到84.57%，提升了83.37個百分點。同樣是MedQA，Mistral Small 3.1 24B從3.38%躍升到78.22%，提升了74.84個百分點。在AIME數學競賽題組裡，Mistral Small 3.1 24B從3.33%升至83.33%，提升了80個百分點。這些數字看起來驚人，但研究團隊提醒要謹慎解讀：直接準確率只有個位數，意味著小模型在裸考狀態下基本上不具備這個領域的有效知識，輔助路徑的大幅提升有相當部分可能來自助教AI自身知識的滲透，而非小模型推理能力的真正釋放。

Gemma 4 E2B在MedQA上的情況則更有力：它的直接準確率是52.91%，已經不低了，輔助路徑進一步升至91.58%，提升了38.68個百分點。Nemotron-3-Nano-4B在MMLU-Pro上從64.13%升至86.77%，提升22.65個百分點。這兩組數據更能說明輔助腳手架在模型本身已有一定能力的基礎上仍然能帶來顯著改善。

然而Time-MQA時序問答數據集裡出現了令人不安的相反案例。在這個數據集上，直接準確率越強的模型，輔助路徑反而表現越差。Gemma 4 E2B的直接準確率是61.65%，輔助路徑下降到56.22%，下滑了5.42個百分點。Granite 8B Code從31.70%跌到29.24%，下滑2.45個百分點。Nemotron-3-Nano-4B從62.25%小降到61.04%。反倒是原來直接準確率只有個位數的幾個弱模型，在輔助路徑下有了較明顯的提升。

贊助商廣告

研究團隊對這個現象提出了一個合理但未經嚴格驗證的解釋：對於時序數據判斷題，直接看數字趨勢可能是更高效的路徑，而把題目拆解成多個語言化的子問題、通過文字分析得出結論的做法，反而可能把本來清晰的數字信號打散，引入了更多干擾。這就好比一個熟練的廚師在憑直覺判斷火候的時候，如果強迫他按照複雜的分析清單逐項檢查，反而可能讓他手忙腳亂。

實驗中所有出現輔助路徑比直接路徑差的數據集-模型配對，全部來自Time-MQA，這個規律性非常強，成為了整套實驗最重要的邊界案例。

---

**七、三個數字為何不能混為一談：答題通道的"不可交換性"**

研究團隊花了相當篇幅解釋一個看似簡單實則微妙的問題：直接路徑準確率、輔助路徑準確率和助教AI預判準確率這三個數字，不是同一件事的三種描述，它們在邏輯上不可互換。

在所有兩萬多條記錄中，有75.50%的情況下輔助路徑答案和助教AI預判答案是相同的，這意味著約四分之一的時候兩者是不同的。更重要的是，有3,688條記錄（占17.99%）出現了助教AI猜對但小模型輔助路徑答錯的情況，而僅有249條記錄（占1.21%）出現了小模型輔助路徑答對但助教AI猜錯的情況。

這組數據揭示了一個關鍵事實：助教AI在絕大多數情況下比小模型更可靠，但它的答案是通過生成代碼這個間接方式"記錄"在程序里的，而不是直接傳遞給小模型的。小模型得到的只有腳手架程序安排的一系列提示詞，而不是助教AI的直接答案。如果把輔助路徑準確率和助教AI預判準確率混在一起當成小模型的成績，那就相當於把學生靠輔助工具答對的題和老師自己答對的題都算在學生頭上，這顯然不對。

因此，輔助路徑準確率測量的是：在有一套專門設計的解題程序輔助的情況下，小模型自己選出的答案有多少是正確的。這個數字依然受到多種因素的影響，包括腳手架程序的質量、小模型響應提示的能力，以及答案提取機制是否可靠。

贊助商廣告

---

**八、那些被記錄在案的"瑕疵"：研究的透明度令人注目**

這項研究有一個值得稱道的特點：研究團隊沒有隻展示好看的數字，而是系統性地記錄了實驗中所有已知的問題和局限。

最直接的問題是計算成本的不對等。輔助路徑平均每道題調用小模型7.18次，最多的一道題調用了90次，而直接路徑平均只調用1.01次。輔助路徑消耗的詞元總量約為1.48億，直接路徑約為2012萬，前者是後者的7.36倍。這意味著如果要公平比較，應該考慮在相同計算預算下，多次直接回答+取多數答案（自洽投票）的方法能達到什麼準確率。這個對照實驗沒有在當前研究中進行，是一個明確的缺口。

答案提取機制也有明顯缺陷。輔助路徑的提取失敗率（返回X表示沒找到合法字母）達到15.67%，而直接路徑只有0.44%。當程序無法從小模型的回覆中提取出明確的選項字母時，就只能記錄失敗。這在零分診斷組（17.92%的失敗率）中尤為突出——那些完全不會直接回答的模型，在輔助路徑中也更容易給出格式混亂的回覆。

生成的Python程序並非總是遵守"不許寫死答案"的規定。靜態掃描發現3569個生成程序文件中有43個包含類似`solverLLM_answer = "A"`這樣的直接賦值語句，這些語句繞過了真正調用小模型的環節，讓腳手架程序直接把助教AI預判的答案當成了求解模型的答案。這43個文件對應251條結果記錄。不過研究團隊計算了把這251條記錄剔除之後的差值，結論是提升幅度幾乎沒有變化（從+28.10變為+28.11），說明這個問題對整體結論的影響極小，但它的存在本身就是一個需要在未來版本中解決的合規問題。

此外，助教學序的"不超過10次調用"限制只是提示詞裡寫的要求，Python運行時並不強制執行，加上筆記本環境允許對無效輸出重試最多3次，實際上調用次數完全可能超標。90次這個最大值就是在這種情況下發生的。

最後，整套實驗只保留了每道題的單次運行結果，沒有做重複生成的不確定性估計。如果對同一道題重新生成程序、重新執行，結果可能有所不同，但這種變異性沒有被量化。

贊助商廣告

---

**九、難度越高，輔助效果反而更穩定？一個有趣的內部診斷**

助教AI在寫程序的同時，還會為每道題打一個1到9的"難度分"。雖然這個難度分是AI自己估計的，並非題目本身經過權威認定的難度等級，但它提供了一個有趣的內部視角。

隨著難度分從1升到9，直接回答準確率從38.69%一路下滑到12.84%，這與直覺完全吻合——越難的題，小模型裸考越差。然而輔助路徑準確率在整個難度範圍內基本保持在50%以上，沒有隨著難度升高而成比例下滑。在難度為7、8、9的極高難題上，輔助路徑準確率甚至略有回升，在58%到60%左右。

這個模式暗示，對於小模型來說，輔助腳手架在高難度題上的相對貢獻可能更大——畢竟在容易的題上小模型自己也能答對，腳手架的邊際貢獻有限；而在極難的題上，直接路徑幾乎無能為力，腳手架至少還能把問題結構化地拆解開來，給模型提供更有針對性的提示。

---

**十、"我只能到這裡"：研究的邊界和它留下的問題**

研究團隊在論文結尾非常坦率地列舉了當前結論無法支持的說法。這套框架無法證明輔助方式和直接方式是等成本的競爭者，因為輔助路徑明顯消耗更多資源。無法證明這種提升是普遍適用的，因為Time-MQA就出現了退步。無法證明這種方法在醫療或工業安全場景中是可靠的，因為基準測試結果和真實部署安全性是完全不同的事情。也無法從純粹的Python代碼結構中分離出"是代碼的控制流帶來了改善"還是"只是多調用了幾次模型就改善了"，因為缺乏匹配計算成本的直接自洽投票對照組。

研究團隊提出了未來版本需要解決的幾個關鍵問題：需要能夠感知選項集合的更智能答案提取器（而不是簡單取第一個大寫字母）；需要運行時強制執行的調用次數上限；需要真正沙盒隔離的執行環境；需要對每道題生成多個程序並觀察結果波動；需要在相同計算預算下的直接自洽投票對照組。

贊助商廣告

把這些改進全部做到之後，CGR框架才能從一套"觀察性的審計工具"升級為一套"可控的基準測試"。

---

說到底，這項研究做的事情可以用一句話來概括：它精心設計了一套測量工具，用來觀察同一個小模型在兩種不同工作模式下的表現差異，並且把觀察過程中所有值得懷疑的地方都公開記錄了出來。那個28個百分點的提升是真實的，但它是在特定的測量條件下、特定的模型和題目組合上觀察到的，有七倍的計算成本差異，有15%以上的答案提取失敗率，有一個數據集持續出現退步，還有極少數程序里藏著"寫好答案"的小把戲。

歸根結底，這套框架的價值不在於它證明了"給AI加代碼腳手架總是更好"，而在於它提供了一種讓我們能夠有條有據地討論這個問題的工具——什麼時候有效、有多有效、背後是什麼原因、哪些情況下會適得其反。對於正在思考如何在實際工程系統中部署小語言模型的人來說，這些細節比一個漂亮的平均數字要有用得多。

有興趣深入研究這套框架的讀者，可以通過arXiv編號2605.18827查閱完整論文，其中包含了所有實驗數據、生成程序樣例、完整的審計記錄和分區定義。

---

Q&A

Q1：代碼引導推理（CGR）框架和普通的提示詞工程有什麼本質區別？

A：普通提示詞工程是改變給模型的問法，模型還是只調用一次、輸出一個答案。CGR框架則是讓一個強大的AI預先為每道題寫一段Python程序，這個程序可以把問題拆成多個步驟，多次調用小模型，對比不同步驟的回答，最終匯總出一個答案。本質區別在於CGR引入了可執行的代碼作為"中間層"，讓小模型不再是在孤立地回答一個問題，而是在一套精心設計的流程里逐步作答。

Q2：Time-MQA時序問答數據集為什麼在輔助路徑下反而準確率下降？

A：研究團隊觀察到，在時序問答中，直接準確率已經較強的模型（如Gemma 4 E2B的61.65%和Nemotron-3-Nano-4B的62.25%），輔助路徑後準確率分別下降了約5和1個百分點。一個可能的解釋是：時序分析本質上需要直接感知數字趨勢，而將題目拆解成多個語言化子問題的做法反而打散了這種直覺判斷，引入了額外干擾。不過研究團隊明確表示這只是合理推測，需要專門的消融實驗來驗證。

贊助商廣告

Q3：CGR框架的結論能直接用來指導在醫療或工業場景部署AI模型嗎？

A：不能直接套用。研究團隊明確指出，MedQA和FailureSensorIQ上的高準確率是基準測試結果，不代表在真實臨床或工業環境中的可靠性。醫療診斷和工業故障分析都是高風險領域，AI生成的推理鏈可能產生看起來合理但實際上錯誤的解釋。CGR的結論只能說明這套框架在標準化測試題上的表現，任何實際部署都需要經過領域專家的獨立驗證。