聖路易斯華盛頓大學團隊讓AI「知道自己幾斤幾兩」：給推理獎勵模型裝上「自信度儀錶盤」

這項由聖路易斯華盛頓大學與新加坡科技設計大學聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.15529，有興趣深入了解的讀者可通過該編號查詢完整原文。

贊助商廣告

你有沒有遇到過這樣的情況：朋友信誓旦旦地告訴你某家餐廳很好吃，結果去了之後大失所望。事後一問，原來他也只是"聽別人說的"，自己根本沒去過。問題不在於他說錯了，而在於他說話時的口氣，讓你以為他是親身體驗過的。如果當時他能補一句"不過我也不太確定，你最好再查查"，你就會多留個心眼，不至於完全押寶在他的推薦上。

現在的人工智慧推理系統面臨著完全相同的困境。當AI一步一步解題時，有一類叫做"過程獎勵模型"的評判員在旁邊評分，告訴系統哪一步走對了、哪一步走歪了。然而，這個評判員每次出分都是一個乾巴巴的數字，從不說明這個分數是"十拿九穩"還是"我也沒把握"。下游的決策系統只能把這個分數當成鐵板釘釘的真理照單全收，哪怕評判員其實心裡也在打鼓。研究團隊把這個問題描述得非常形象：一個分數只能告訴你系統更喜歡哪個選項，但完全不能告訴你這個偏好值不值得信任。

這支研究團隊的解決方案是：給過程獎勵模型裝上一塊"自信度儀錶盤"。他們把這個新模型命名為BetaPRM。這塊儀錶盤不僅會給出一個分數，還會同時告訴你這個分數背後的把握程度——是胸有成竹的高分，還是將信將疑的高分。有了這個額外信號，後續的決策系統就能區分哪些判斷可以放心依賴，哪些判斷需要謹慎對待，從而做出更聰明的選擇。

一、AI解題時的"評判員"是怎麼工作的

要理解這項研究解決了什麼問題，先要了解AI是怎麼一步步解數學題的，以及誰在旁邊給它評分。

當一個大型語言模型解一道複雜的數學題時，它不會一口氣蹦出答案，而是分步推導，就像人類在草稿紙上一行一行寫解題過程一樣。整個推導鏈條可能有五步、十步甚至更多。過程獎勵模型（Process Reward Model，簡稱PRM）的工作，就是在每一步結束後評估：這一步走得對不對，沿著這條路繼續走下去，最終能不能得出正確答案？

贊助商廣告

這個評估的本質其實是一個概率問題：從當前這個位置出發，成功的可能性有多大？為了訓練PRM去估計這個概率，研究者採用了一種叫做"蒙特卡洛延續採樣"的方法。操作起來並不神秘：從某一步推導結束的位置出發，讓AI繼續把後面的步驟自動補完，重複很多次，然後數一數有多少次最終得到了正確答案。假設補完了16次，有10次答對了，那這一步的"成功率"就估計為10/16，也就是62.5%。

問題就藏在這裡。這個62.5%只是一次抽樣估計，不是真實的成功概率。如果你從同一個位置再抽一次16個樣本，很可能得到9/16或者11/16，結果會有些許不同。樣本數量有限，噪音無可避免。然而，過去的PRM訓練方法會把這個粗糙的抽樣比例直接當成"精確答案"來擬合，強迫模型把這個有噪聲的數字當成金科玉律死記硬背——這就像老師每次出的參考答案都有點隨機偏差，學生卻被要求精確背誦，自然會學出問題來。

二、分數背後的不確定性，被長期無視了

過去的方案還有另一個更根本的問題：即便訓練好了，PRM輸出的也只是一個孤零零的數字。假設模型給某一步打了0.8分，這意味著什麼？它可能意味著"我非常確信這一步對，我的置信區間很窄"，也可能意味著"我估計大概是0.8，但其實0.5到1.0的範圍內都有可能，我也不太確定"。這兩種情況對於後續決策來說完全不同，但最終呈現出來的都是同一個數字0.8，讓人無從區分。

研究團隊用了一個很直觀的比方來描述這個缺陷：你能聽到一個人說"這道菜味道不錯"，卻聽不出他是真的吃過並且每次都覺得好吃，還是只吃過一次碰巧覺得還行。前者是可靠的口碑，後者只是一次偶然的印象。

這就是BetaPRM的切入點：既然單一分數無法傳達可靠性資訊，那就讓模型同時輸出兩個量——一個是"預期成功概率"（這一步走下去大概有多大把握），另一個是"置信濃度"（這個概率估計有多可靠、有多集中）。

贊助商廣告

三、貝塔分布：用概率來描述概率

研究團隊解決這個問題的數學工具叫做"貝塔分布"。這個名字聽起來有點嚇人，但背後的直覺相當樸素，可以用一個生活化的場景來理解。

假設你在做一道菜，需要判斷今天的炒鍋是否足夠熱。你往鍋里彈幾滴水，觀察水是否迅速蒸發。但你只能彈幾滴，不能彈幾百滴，所以你的判斷有一定的不確定性。如果彈了5滴全部瞬間蒸發，你會比較有把握鍋已經夠熱了——你的判斷很"集中"，不確定性較小。如果彈了5滴有3滴蒸發、2滴沒有，你就沒那麼確定了——你的判斷比較"分散"，不確定性較大。

貝塔分布就是用來描述這種"對某個概率的信念"的工具。它不是一個單一的數字，而是一條曲線，描述了"真實成功概率最可能落在哪個範圍內"。這條曲線有兩個關鍵參數：中心位置（均值μ，表示你最傾向於相信的成功概率是多少）和集中程度（濃度κ，表示你對這個估計有多自信）。濃度高時，曲線像一座尖峰，說明你對成功概率的判斷很集中、很確定；濃度低時，曲線平坦寬闊，說明你認為真實概率可能在很大範圍內變動，你的判斷比較分散、不太確定。

BetaPRM的核心思想就是：不要讓模型直接預測一個固定的成功概率，而是讓模型預測一個貝塔分布——告訴我們"你認為成功概率的分布長什麼樣"。這樣，均值μ就扮演了過去那個單一分數的角色（步驟質量的估計），而濃度κ則承擔了全新的使命（這個估計有多可靠）。

四、用"計數觀測"替代"點標籤"：更誠實的訓練方式

理解了貝塔分布，就能明白BetaPRM的訓練方式為什麼更合理了。

傳統PRM的訓練是這樣的：拿到某一步的蒙特卡洛結果（比如16次中成功10次），把10/16=0.625這個比例當成標準答案，讓模型去擬合這個數字。這相當於老師告訴學生"這道題的標準答案就是0.625"，但這個答案本身是帶噪聲的，換一批樣本可能就變成0.5或者0.7了。

贊助商廣告

BetaPRM的訓練則換了一種思路：不要把比例當成標準答案，而是把"16次中有10次成功"這個事實本身當成觀測數據。然後問：如果模型預測的貝塔分布是這樣的，它給"16次中出現10次成功"這個結果打出的概率有多高？如果模型預測的分布使得這個計數結果出現的概率很高，說明模型的判斷與真實情況吻合；如果概率很低，說明模型的判斷與觀測數據矛盾。

這就是所謂的"貝塔-二項式似然"——把成功次數當成一個隨機變量，而非把成功比例當成固定的真值。這種處理方式尊重了採樣的隨機性：模型不再被強迫背誦有噪聲的比例，而是去解釋真實的計數過程。打個比方，這就像是把考試從"背誦老師給的帶點錯誤的筆記"改成了"理解現象背後的真實規律"，後者要穩健得多。

在此基礎上，研究團隊還加了一個輔助的"校準懲罰項"。它的邏輯很直接：如果模型預測的成功概率（均值μ）與實際觀測到的成功比例差很遠，那麼模型聲稱的高置信度（高濃度κ）就是不誠實的，應該受到懲罰。這就像一個人明明猜錯了，卻還聲稱自己超級確定，這種自大應該被糾正。這個懲罰項專門壓制這種情況：在預測偏差大的時候，強制降低置信度，迫使模型更誠實地表達不確定性。值得注意的是，這個懲罰項設計上有一個精妙的細節：它只調整置信度κ，不會把均值μ拉向帶噪聲的觀測比例，否則就又退回了點標籤回歸的老路。

五、模型的"硬體結構"：兩個輸出頭，各司其職

從工程實現的角度，BetaPRM的結構調整並不複雜。原有的過程獎勵模型在每個推理步驟結束後，會在語言模型的輸出中查看"Yes"和"No"這兩個詞的分數，用它們的相對大小來計算步驟成功的概率——Yes的分數越高，就認為這步越正確。

BetaPRM保留了這個計算均值μ的方式，分毫未改。新增的只是一個輕量級的線性映射層，它讀取同一位置的隱藏狀態，專門輸出濃度參數κ。這兩條"通道"是獨立的：一條告訴你這一步有多可能成功，另一條告訴你這個判斷有多可信。兩個參數合在一起，就能重建出完整的貝塔分布。

贊助商廣告

這個設計的好處是：對於不需要不確定性資訊的場合，完全可以忽略κ，只用μ，跟原來的PRM用法一模一樣，不會破壞任何既有功能。對於需要可靠性資訊的場合，κ就成了額外的寶貴信號。這就像給一輛普通轎車加裝了油耗顯示屏——原來的駕駛功能沒有任何影響，但司機現在可以獲得額外的參考資訊來決定什麼時候加油。

六、訓練過程中，置信度是怎麼"學會"的

研究團隊在訓練過程中觀測到了一個有趣的現象，進一步驗證了BetaPRM的學習機制是合理的。

他們追蹤了訓練過程中濃度參數κ的均值和90百分位數的變化曲線。在四個不同規模的模型上，都出現了相同的規律：訓練一開始，κ急劇下降，然後緩慢回升，最終穩定在一個比初始值更低但比最低點高得多的水平。

這個"先降後升"的模式其實非常符合直覺。訓練初期，模型還不知道如何預測步驟成功概率，均值μ的估計到處亂飛，與觀測數據差距很大。這時候如果聲稱高置信度，就會被校準懲罰項狠狠懲罰，所以模型迅速學會了"先保守一點，降低自信"。隨著訓練推進，模型逐漸學會更準確地估計μ，預測與觀測的偏差減小，置信度可以安全地提高，κ就自然回升了。

更有意思的是90百分位數的行為。在回升階段，高置信度的尾部（κ最大的那些預測）比均值恢復得更猛，與均值之間的差距越來越大。這說明模型並不是簡單地對所有預測都提高置信度，而是形成了分化：對於那些有充分證據支持的預測，模型給出高濃度；對於證據不足的預測，保持低濃度。這種分化正是可靠性信號有用的前提——如果所有預測的置信度都差不多，那κ就沒有區分價值了。

七、這塊"儀錶盤"在解題比賽中表現如何

研究團隊在四個數學推理基準測試上驗證了BetaPRM的效果，使用了四個不同的模型作為評估基礎，候選答案池都由同一個模型（InternVL2.5-8B）生成，確保比較的公平性。

贊助商廣告

這裡需要理解一個叫做"Best-of-N選擇"的評估方式。原理很簡單：讓AI生成N個不同的解題方案，然後用PRM給每個方案評分，選出得分最高的那個作為最終答案。這個過程就像是讓16個學生同時做同一道題，然後請一個專家把最好的那份答卷挑出來交給老師。專家越聰明，挑出來的答卷就越好。

在這個框架下，標準PRM的選擇規則是簡單地計算每個方案所有步驟得分的平均值。BetaPRM則用了一個"風險調整"得分：基礎分仍然是步驟得分均值μ，但對不確定性大（σ超過閾值τ）的步驟施加額外懲罰，優先選擇那些不僅得分高、而且得分可靠的方案。

實驗結果顯示，在所有四個骨幹模型和四個基準測試的組合上，BetaPRM都優於標準PRM。具體來說，在不同骨幹模型上的平均提升幅度分別為：使用InternVL3-14B時提升1.29個百分點，使用InternVL3-8B時提升1.46個百分點，使用InternVL2.5-8B時提升3.37個百分點，使用Qwen2.5-VL-7B時提升2.66個百分點。

與此同時，研究團隊還驗證了BetaPRM不會"顧此失彼"。他們在一個專門用於檢測推理步驟錯誤的基準（VisualProcessBench）上評估了兩種模型——這個任務要求模型判斷每一步推導是否出錯，類似於讓專家逐行審閱學生的草稿。結果顯示，BetaPRM在這個任務上的表現與標準PRM相當：在部分骨幹模型上持平，在部分骨幹模型上略有提升，在個別情況下略低。總體而言，換用貝塔-二項式訓練目標並沒有損害模型識別錯誤步驟的基本能力。這說明兩種能力是可以共存的，增加可靠性信號並不需要犧牲判斷準確性。

八、"自適應計算分配"：把省下的算力花在刀刃上

有了可靠性信號之後，研究團隊還展示了一個具體的應用場景，他們稱之為"自適應計算分配"（Adaptive Computation Allocation，ACA）。

回到那個16個學生答題的比方。固定預算的Best-of-N做法是：一口氣讓16個學生都把題做完，然後再讓專家挑選。這樣做有時候很浪費：如果前4個學生里就有一個明顯很好、而且專家對這個判斷非常有把握，那後面12個學生的時間就白費了。反過來，如果前4個學生的答案都差不多，專家也不確定選哪個好，那就值得讓更多學生來做，增加出現高質量答案的機會。

贊助商廣告

ACA正是把這種直覺系統化了。它的工作流程分為幾個階段。一開始只生成一小批候選答案（比如4個）。BetaPRM對每個答案的每一步評分，同時估計每個分數的可靠性。基於這些資訊，ACA構建了每個候選答案的"樂觀分數上限"和"悲觀分數下限"：樂觀上限是分數加上不確定性緩衝，悲觀下限是分數減去不確定性緩衝。

停止條件的判斷很清晰：如果當前得分最高的候選答案，其悲觀下限已經超過了所有其他候選答案的樂觀上限，那就可以停下來了——即使最樂觀地看待競爭者，也沒有一個能超過當前冠軍的最保守估計。這時候繼續生成更多候選幾乎不會改變最終選擇，浪費算力沒有意義。

如果停止條件不滿足，ACA會繼續生成新的候選答案，但不是隨機生成。它會把注意力集中在"最有競爭力的非冠軍候選"上——那個樂觀上限最高、最可能在更多資訊下翻盤的競爭者。在生成新候選時，ACA不會從頭開始，而是找到這個競爭者中最薄弱的步驟（評分低且不確定性大的地方），從那個位置截斷，讓AI從那裡重新續寫後面的步驟。這樣既保留了之前還不錯的前半段推導，又給薄弱環節重新來過的機會，不至於把好的部分也丟掉。

這個過程會一直重複，直到停止條件滿足，或者總生成量達到上限（同樣是16個）為止。如果到達上限還沒有明確贏家，就照常從現有候選中按分數選最高的。

九、省了多少算力，換來了多少準確率

研究團隊在兩個骨幹模型（InternVL2.5-8B和Qwen2.5-VL-7B）上對ACA與固定預算的Best-of-16進行了系統比較，測量了最終答題準確率和消耗的總詞元數量（詞元是AI處理文字的基本單位，數量越多意味著計算量越大）。

結果相當亮眼。以InternVL2.5-8B為骨幹的實驗中，ACA在四個基準測試上的準確率均高於固定預算的Best-of-16，同時詞元消耗減少了16.76%到33.57%不等。換句話說，ACA不僅省了錢，準確率還更高了。以Qwen2.5-VL-7B為骨幹時，同樣是四個基準全部提升，詞元消耗減少了19.39%到33%。

贊助商廣告

為了理解提升來自哪裡，研究團隊還做了消融實驗，分別測試"只有自適應生成、沒有提前停止"的版本，結果發現這個版本主要減少了算力消耗，但準確率有時反而略有下降——因為它會持續生成候選答案，即使當前冠軍已經可靠領先，反而引入了更多可能干擾選擇的"噪聲候選"。完整版ACA把自適應生成和基於置信度的提前停止結合起來，才實現了兩全其美的效果。

研究團隊還專門驗證了BetaPRM的可靠性信號是否真的必要。他們對比了三種方案：使用BetaPRM學到的濃度κ作為不確定性；使用標準PRM，但用μ*(1-μ)的平方根作為不確定性的替代估計（這是伯努利分布的標準差，不依賴學習到的κ）；以及使用標準PRM，完全不用任何不確定性，只靠分數高低決策。結果顯示，BetaPRM的學習不確定性在準確率和詞元效率兩個維度上都優於另外兩種方案。使用替代不確定性的版本比純分數方案更好，但仍不及BetaPRM；完全不用不確定性的版本雖然用詞元最少，但準確率也最差，說明盲目節省算力會損失精度。這一系列對比說明，BetaPRM學到的置信度信號具有真實的資訊價值，不能簡單用數學公式推導出來的替代品代替。

歸根結底，這項研究做的事情可以用一句話概括：讓AI評判員學會說"我不太確定"。過去，過程獎勵模型每次打完分就交卷，不管這個分數是深思熟慮還是隨口一說，後續系統都無從區分。BetaPRM通過讓模型預測一個貝塔分布而非單一數字，使得每個分數都附帶了可靠性資訊，讓下游系統能夠區分"這個高分我很確定"和"這個高分我也沒把握"。這種區分在實踐中帶來了真實的收益：無論是選出更好的答案，還是把算力用在真正需要的地方，都因此受益。

這對普通人意味著什麼？隨著AI越來越多地被用於輔助決策——從解題到醫療建議到法律諮詢——AI能夠誠實表達自己的不確定性就變得越來越重要。一個過度自信的AI和一個懂得說"這個問題我不太確定，你最好再查一下"的AI，在日常使用中的可靠性是截然不同的。BetaPRM在推理評判這個具體環節上邁出了讓AI更誠實的一步，這個方向本身值得關注。

贊助商廣告

當然，這項研究也坦承了一個限制：BetaPRM需要訓練數據保留蒙特卡洛採樣的原始計數（比如"16次中成功10次"），而不只是二值化的對錯標籤。目前公開可用、滿足這一要求的訓練數據集只有VisualPRM400K，這也是為什麼實驗集中在多模態推理場景。研究團隊明確指出，貝塔-二項式訓練框架本身並不依賴於多模態，只要有計數形式的監督數據，就可以應用到其他領域，比如純文字的數學推理或代碼生成。

有興趣深入探究這套方法的讀者，可以通過arXiv編號2605.15529查閱完整論文，研究代碼也已在GitHub公開發布，地址為github.com/JinyuanLi0012/Beta-Binomial-PRM。

---

Q&A

Q1：BetaPRM和普通過程獎勵模型的區別是什麼？

A：普通過程獎勵模型每步只輸出一個分數，無法說明這個分數是否可信。BetaPRM同時輸出兩個參數：預期成功概率μ（相當於原來的分數）和置信濃度κ（表示這個分數有多可靠）。濃度高說明模型對判斷很有把握，濃度低說明不確定性大，下游系統可以據此決定是否信任該分數。

Q2：自適應計算分配（ACA）是怎麼節省算力的？

A：傳統Best-of-N會一次性生成所有候選答案再選擇。ACA先生成一小批，用BetaPRM評估每個候選答案的分數和可靠性。如果當前最優答案的悲觀估計已經超過所有對手的樂觀估計，就提前停止，不再浪費算力生成更多候選。如果還無法判斷，就繼續生成，但專注於修復最不確定的推導步驟，而非從頭再來。

Q3：BetaPRM訓練需要什麼特殊數據？

A：BetaPRM需要保留蒙特卡洛採樣的原始計數格式，即每個推理步驟對應"N次採樣中有K次成功"的記錄，而不只是成功/失敗的二值標籤。目前公開數據集中滿足這個要求的只有VisualPRM400K，因此現有實驗集中在多模態推理任務上，但該方法本身適用於任何具備計數形式監督數據的場景。