北卡羅來納大學、馬里蘭大學和聖路易斯華盛頓大學聯手打造的「AI節能助手」：讓大模型推理又快又省錢

這項由北卡羅來納大學教堂山分校、馬里蘭大學帕克分校和聖路易斯華盛頓大學聯合開展的研究，於2026年6月以預印本形式發布，論文編號為arXiv:2606.03102，感興趣的讀者可以通過該編號查閱完整原文。

贊助商廣告

大型語言模型正在以驚人的速度滲透進我們的生活，從幫你寫郵件到解數學難題，無所不能。但你有沒有想過，每次你讓AI幫你解決一道複雜問題時，背後到底在發生什麼？事實上，AI為了給出一個靠譜的答案，往往需要像一位謹慎的考生一樣，把同一道題做很多遍，然後把最多人認可的那個答案告訴你。這種方法叫做"自我一致性"——讓AI多次獨立作答，最後投票決定答案。這個策略確實能大幅提升準確率，但代價是巨大的：計算資源消耗飛速上升，等待時間也越來越長。

研究團隊把這個問題比作一個管理層的決策難題：你究竟需要召集多少次會議、徵集多少份意見，才能得出一個足夠靠譜的結論？太少了，答案不可靠；太多了，時間和金錢都白白浪費。這項研究的核心，就是訓練一個聰明的"小助手"，讓它動態地決定"夠了，停下"或者"還不行，再來幾輪"。

一、為什麼AI做題要"刷題"，而且刷得越多越貴

要理解這項研究解決的問題，先得搞清楚AI推理是怎麼工作的。當你給一個大型語言模型一道難題時，它並不是像計算器那樣直接算出答案。它更像是一位有點隨機性的思考者——每次運行，它都可能走一條略微不同的思維路徑，得出一個答案。有時候這條路走對了，有時候走偏了。

為了提高可靠性，研究人員發明了一種叫"自我一致性"的技巧：讓AI把同一道題獨立做32次、64次，甚至更多，然後看哪個答案出現得最頻繁，就把那個答案作為最終輸出。這就像是組織了一次投票，少數服從多數。這種方法確實有效，準確率往往比只做一次高出很多。

但問題也顯而易見。每一次"作答"都需要消耗計算資源，要花真實的時間和真實的錢。如果一道簡單題只需要AI做三次就能得出穩定答案，卻硬要做32次，那多餘的29次完全是浪費。反過來，對於一道特別難的題，32次可能還不夠。一刀切的固定次數策略，既浪費了簡單情況下的資源，又可能在複雜情況下給出錯誤答案。

贊助商廣告

正因如此，"自適應採樣"這個研究方向應運而生：能不能讓AI自己判斷，什麼時候已經做了足夠多次，可以停下來了？已有的一些方法嘗試解決這個問題，比如"自適應自我一致性"（ASC）每次只讓AI多做一遍，然後看答案分布是否足夠穩定；"早停自我一致性"（ESC）則是每次批量多做幾遍，看這一批答案內部夠不夠一致就停止。這兩種方法各有優缺點，但都依賴人為設定的規則或統計假設，並不是從"最優策略"的角度出發來決策的。

這項研究走了一條完全不同的路。

二、把"何時停下"變成一場棋局：馬爾可夫決策過程登場

研究團隊選擇用一個叫做"馬爾可夫決策過程"（MDP）的數學框架來重新定義這個問題。這個名字聽起來很嚇人，但背後的邏輯其實非常直覺：把整個採樣過程想像成一場棋局。

棋手（也就是這裡的"控制器"）在每一步都面臨選擇：要不要繼續走棋？棋盤上的局面（也就是目前收集到的答案分布情況）就是當前的"狀態"。控制器觀察局面，做出決策：要麼再生成1個、2個、4個新答案，要麼宣布"夠了，收工"。每一步決策都會影響後續局面，並最終決定遊戲結果——答案對不對？花了多少資源？用了多少輪？

具體來說，研究團隊設計的"狀態"包含三類資訊：當前答案池中最常見的幾個答案分別出現了多少次、總共已經生成了多少個答案、以及答案分布的"混亂程度"（用資訊熵來量化，熵越高說明答案越分散，越難達成共識）。這些資訊合在一起，構成了控制器感知當前局面的"眼睛"。

獎勵機制是整個框架的靈魂。研究團隊把獎勵分成兩部分：每次控制器決定繼續採樣，就會受到懲罰，懲罰分為兩類——一類是"又多了一輪"的延遲懲罰，另一類是"又生成了N個答案"的計算量懲罰；當控制器最終決定停下，就會收到一個終局獎勵，答案對了得正分，答案錯了得負分。這套設計讓控制器必須在"答案的準確性"和"已經花了多少代價"之間做精妙的權衡。

贊助商廣告

特別值得關注的是，研究團隊在設計終局獎勵時做了一個聰明的選擇：他們沒有用真實的標準答案來判斷對錯，而是用"如果一直採樣到最大次數（32次），多數票會是什麼"來作為參考目標。這樣做的好處在於，控制器的訓練完全不依賴題目本身的內容或標準答案，只需要觀察答案池的統計規律就夠了。這使得訓練出來的策略具有很強的泛化能力——它學會的不是"某道題的答案是什麼"，而是"當答案池呈現出什麼樣的分布模式時，繼續採樣還是停下更合算"。

三、一個四層小網路撐起整個決策大局

解決了"如何定義問題"之後，下一步是"用什麼來學習策略"。研究團隊選擇了一個出人意料的輕量方案：僅僅四層的多層感知機（MLP），也就是一個極其簡單的小型神經網路。

為什麼這麼簡單？因為狀態空間本身就很簡單。整個輸入只有7個數字——最常見的5個答案各自的出現次數、總採樣數、以及答案熵。7個數字進去，網路輸出一個動作：停止、或者再生成1/2/4個答案。

訓練這個小網路用的是強化學習中的經典算法PPO（近端策略優化）。PPO的工作原理可以用"反覆練習、不斷調整"來理解：控制器先隨機做決策，看結果好不好（獎勵高不高），然後根據結果調整下次的決策傾向，如此循環數百萬步，逐漸學會在什麼情況下該停、在什麼情況下該繼續。

這個訓練過程有一個重要特點：它完全可以在普通的CPU上完成，不需要昂貴的GPU集群。訓練數據也非常少——研究團隊只用了從DAPO數據集中隨機抽取的200道數學題的答案分布，就完成了控制器的訓練。整個訓練過程產生的模型極其輕巧，部署時同樣只需要CPU資源。這意味著，哪怕你調用的是昂貴的閉源大模型（比如GPT-4.1-nano），控制器本身幾乎不產生額外成本。

研究團隊還從理論角度為這個框架提供了嚴謹的數學基礎。他們證明，這個強化學習目標函數，本質上等價於一個約束優化問題的拉格朗日鬆弛形式：在給定的計算預算和延遲預算約束下，最大化答案的準確率。獎勵函數中的兩個懲罰係數，恰好對應約束優化中的拉格朗日乘子。這個理論連接不僅讓整個框架更有說服力，也提示了未來的改進方向——可以用約束強化學習方法來直接控制資源消耗的上限。

贊助商廣告

四、實戰檢驗：在三個數學競賽數據集上的全面比拼

光說不練假把式。研究團隊在三個極具挑戰性的數學推理數據集上進行了系統評測：AIME24（2024年美國數學邀請賽題目）、AIME25（2025年版本）和HMMT 2025（哈佛-麻省理工數學邀請賽題目）。這些都是頂級數學競賽題，即便是最強大的AI也不能輕鬆全對。

測試使用了四個不同的"採樣器"（也就是實際負責生成答案的大語言模型）：Qwen3系列的0.6B參數版本（非常輕量）、1.7B參數版本、4B參數版本，以及OpenAI的閉源模型GPT-4.1-nano。這個選擇覆蓋了從超小型開源模型到商業閉源模型的廣泛範圍，用來測試控制器策略的通用性。

對比基準包括三個：固定採樣32次然後投票的標準自我一致性（SC@32）、每次採樣一個再判斷是否繼續的ASC，以及每次批量採樣固定數量再看一致性的ESC。

評估指標分為三組：準確率衡量答案對不對；總樣本數和總token數衡量計算開銷；採樣輪數和串行token數衡量延遲（等待時間）。

結果相當清晰。以Qwen3-4B-Instruct這個模型在三個數據集上的平均表現為例：SC@32需要1輪採樣、32個樣本；ASC平均需要15.3輪、15.3個樣本，雖然樣本數減少了（因為很多簡單題提前就停了），但輪數爆炸式增加，意味著用戶需要等待漫長的串行處理；ESC平均需要4.1輪、20.3個樣本，輪數明顯改善，但樣本數依然較多；而RL引導採樣平均只需要2.8輪、10.9個樣本，在輪數和樣本數上同時實現了最優，準確率（54.6%）也與其他方法持平甚至略優。

橫向比較來看，與ASC相比，RL引導採樣的採樣輪數減少了約3到4倍，總樣本數減少了約30%；與ESC相比，採樣輪數減少約10%，總樣本數減少約33%，準確率還更高。對於GPT-4.1-nano這個閉源商業模型，RL引導採樣將總樣本數從ASC的21.7個和ESC的26.7個壓縮到了17.4個，同時保持了接近的準確率。

在token層面（也就是實際的API調用費用角度），結論同樣一致。以Qwen3-4B-Instruct為例，RL引導採樣的總token消耗（95.8k）遠低於ASC（133.8k）和ESC（172.8k），甚至比固定採樣32次的SC（226.9k）少了58%。

贊助商廣告

五、彎道超車的秘密：AI學會了按需分配注意力

為什麼RL引導採樣能表現得這麼好？研究團隊深入分析了控制器的行為規律，發現了一個非常直覺的現象：控制器學會了根據問題的"難度信號"來動態分配資源。

具體來說，研究團隊記錄了每道題平均消耗多少個樣本，然後把這個數字與兩個指標對比：答案熵（答案分布越分散，熵越高）和答案準確率（每次採樣答對的概率）。

結果顯示，平均樣本消耗與答案熵之間存在明顯的正相關關係（相關係數平方約為0.71）：那些讓AI每次作答都給出不同答案的題目，控制器會自動多採樣幾輪，因為需要更多"選票"才能讓多數票變得可信。而那些AI每次都給出相同答案的題目，控制器很快就停下了。

相比之下，樣本消耗與答案準確率的相關性要弱得多（相關係數平方約為0.51）。這其實非常合理——控制器並不直接知道題目有多難或者答案是什麼，它只能觀察到答案分布的統計特徵。所以它的策略本質上是：看"大家意見夠不夠統一"，而不是看"大家答對了沒有"。這種純粹基於統計的決策方式，恰恰是它能夠泛化到不同模型和不同數據集的關鍵。

六、用0.6B的小模型訓練的策略，能指揮GPT-4.1-nano

泛化能力是實際部署中最關心的問題之一。研究團隊測試了一個極端場景：用Qwen3-0.6B（一個參數量極小的開源模型）生成的答案數據來訓練控制器，然後把這個控制器原封不動地應用到GPT-4.1-nano（一個商業閉源模型）的採樣過程中。

結果令人驚喜：跨模型遷移的性能損失非常小。無論是用Qwen3-0.6B還是Qwen3-4B-Instruct訓練的控制器，在指揮GPT-4.1-nano時都表現出接近的效果，縮放曲線高度重疊。這說明控制器學到的並不是某個特定模型的答案分布習慣，而是一種更普適的"答案共識動態學"——當答案池呈現出什麼樣的模式時，繼續採樣的邊際收益就變得很小了。

贊助商廣告

這個結論在實踐中意義重大。公司或者個人開發者可以先用便宜的小模型生成大量答案數據來訓練控制器，完成後直接把這個輕量控制器接到昂貴的商業API前面，立刻就能享受到採樣效率的提升，而不需要為商業模型額外付出訓練成本。

七、獎勵信號的選擇至關重要：為什麼不直接用標準答案

在整個設計中，有一個細節值得特別關註：為什麼終局獎勵用的是"採樣到最大次數時的多數票答案"，而不是真實的標準答案？研究團隊做了專門的消融實驗來回答這個問題。

他們比較了三種獎勵目標：一是默認的"運行多數票"（採樣N=32次的多數票）；二是"完整多數票"（從128個候選答案中取多數票）；三是"真實標籤"（直接用題目的標準答案）。

使用真實標籤的結果出人意料地差：準確率從54.6%降到53.7%，採樣輪數從2.8輪增加到4.1輪，總樣本數從10.9個增加到17.0個，全面退步。為什麼會這樣？研究團隊的解釋很有說服力：控制器的狀態表示中完全不包含題目的語義資訊，它看不懂題，也不知道哪種推理路徑更有可能是對的。在這種情況下，用真實標籤來訓練，等於給控制器引入了它根本無法理解的噪聲信號——它看到同樣的答案分布，有時候得到正獎勵，有時候得到負獎勵，無規律可循，自然學不好。

而用運行多數票作為目標，則與控制器的能力完全匹配：控制器能觀察到答案分布，也能通過答案分布預測最終的多數票走向。這是一個它能夠學習的目標。此外，這種設計還有一個重要的副產品：因為訓練目標與題目內容完全無關，學到的策略天然具有泛化能力，可以輕鬆遷移到新的題目集和新的模型上。

完整多數票（128個樣本）的表現略遜於運行多數票（32個樣本），研究團隊認為原因是128個樣本的共識更難以預測，構成了一個更難實現的獎勵目標，增加了訓練難度。

說到底，這項研究做了一件很有意思的事情：它證明了，在決定"AI做題做多少次才夠"這個問題上，用強化學習訓練一個只有四層的小網路，就足以打敗那些依賴複雜統計規則的方法。關鍵不在於控制器有多聰明，而在於問題被定義得多麼清晰——把"適時停止"變成一場棋局，再用遊戲化的獎懲機制去訓練，策略就自然而然地湧現出來了。

贊助商廣告

這項研究對普通用戶最直接的影響，可能是未來AI問答系統在保持回答質量的前提下，響應速度會更快，API調用成本會更低。對於那些在生產環境中大量使用大模型推理服務的開發者來說，一個能節省30%到60%計算開銷的輕量控制器，是非常有吸引力的工程工具。

當然，研究團隊也坦誠地指出了當前框架的局限性：狀態表示只用了非常簡單的統計量，未來可以加入答案長度、置信度等更豐富的信號；獎勵函數目前使用固定的懲罰係數，未來可以引入動態調整的約束強化學習方法，直接把"每次調用的真實費用"作為懲罰信號。這些改進方向都是開放的，與現有框架完全兼容。

有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2606.03102查閱完整論文，研究團隊也在GitHub上公開了完整代碼，地址可以通過論文首頁找到。

Q&A

Q1：RL引導採樣和普通自我一致性方法相比，準確率會不會下降？

A：從實驗結果來看，RL引導採樣在準確率上基本與標準自我一致性（SC@32）持平，在大多數數據集和模型組合上的差距在統計誤差範圍內。它的優勢在於用更少的採樣輪數和總樣本數實現了相近的準確率，而不是犧牲準確率換效率。

Q2：RL控制器訓練需要多少數據和算力？

A：研究團隊只用了200道題的答案數據（從DAPO數據集隨機抽取），在配備64核Intel Xeon CPU的普通伺服器上完成了訓練，無需GPU。整個控制器是一個四層小網路，參數量極少，訓練時間和部署開銷都非常低，適合在實際工程中使用。

Q3：RL引導採樣能否用於數學推理以外的任務？

A：理論上可以，因為該方法只依賴答案池的統計分布（出現頻次、熵等），與任務內容完全無關。只要任務的答案可以被提取並統計，控制器就能工作。不過當前論文只在數學競賽題上進行了驗證，在其他類型任務上的表現還需要進一步實驗確認。