谷歌研究團隊發現：AI學新技能時，「投入程度」這個旋鈕撥到哪裡，決定了它能不能從零開始學會任何東西

這項由谷歌研究人員完成的工作，以預印本形式於2026年4月28日掛載至arXiv，論文編號為arXiv:2604.25907v1，分類在電腦學習（cs.LG）領域。感興趣的讀者可直接通過該編號檢索到完整論文。

贊助商廣告

假設你打算教一隻從未見過鍵盤的貓學會打字。你有兩種極端策略可以選擇：第一種是每次它偶然踩到正確的鍵就給它獎勵，等著它慢慢摸索——問題在於，一隻貓踩對鍵的概率本來就接近零，你可能等上一輩子也等不到第一次成功；第二種是把貓的爪子強行按在正確的鍵上，讓它一次次感受"這就是對的"，它會學得很快，但它記住的可能只是肌肉動作，而不是真正的打字邏輯，隨便換一個鍵盤布局就完全懵了。

大型語言模型在被訓練去完成新推理任務的時候，面對的正是這兩種困境的拉扯。谷歌這支研究團隊提出了一個統一的數學框架，給這兩種極端策略之間的所有中間地帶都建了一把標尺，並且在實驗中證明了：撥對這個"投入程度"旋鈕，能讓原本完全卡死的AI從零開始學會新任務，同時避免它死記硬背所有錯誤答案。

要理解這項工作，有必要先弄清楚AI學習推理的基本困境是什麼，以及兩種主流方案各自出了什麼問題。

一、 AI學推理時遇到的兩堵牆

現在最先進的語言模型在回答覆雜問題之前，會先在內部生成一段"思考過程"，就像做數學題時你在草稿紙上寫下的演算步驟。這段思考過程是隱藏的，系統只會把最終答案展示給你。訓練這種模型，本質上是教它學會用什麼樣的"草稿思路"才能得到正確答案。

當下最流行的訓練方法叫做"基於可驗證獎勵的強化學習"，簡稱RLVR。這種方法的邏輯很簡單：模型生成一段思考過程，然後產生一個答案，如果答案對了就得分，答案錯了就不得分或者扣分。模型的目標是讓得分越來越高。這就是前面那隻貓踩鍵盤的比喻——只有踩對了才有獎勵。

這套方法有一個要命的弱點：當模型剛開始面對一類全新任務，它幾乎不可能碰巧產生正確答案。成功概率可能只有千分之一甚至更低。在這種情況下，模型幾乎接收不到任何"這條路是對的"的信號，訓練就陷入了完全的停滯——研究團隊稱之為"冷啟動失速"。

贊助商廣告

與此同時，另一個看起來完全相反的方法是"最大化邊際對數似然"，簡單說就是直接讓模型去擬合所有訓練數據的分布，儘可能精確地覆蓋所有可能的正確答案路徑。這種方法學得很快，但它有一個對稱的致命弱點：它會把訓練數據里的噪聲和錯誤也一起記住，無法區分哪些答案是真正正確的，哪些是標註錯誤或者碰巧蒙對的。

這就好比兩種教學方式的極端：一種老師從不告訴學生什麼是對的，只等學生自己撞對了才點頭；另一種老師照單全收，學生說什麼都記下來，從不質疑。顯然，好的教學應該在兩者之間找到平衡。但在AI訓練領域，這個"平衡點"在哪裡，如何系統地找到它，一直沒有一個清晰的理論框架。

谷歌這支團隊的工作，正是要建立這個框架。

二、一把統一兩種極端的數學旋鈕

研究團隊引入了一個來自非廣延統計力學領域的數學工具，叫做"Tsallis q-對數"。這個工具本身不複雜，理解它的關鍵是一個叫做 q 的參數——可以把它看成一個旋鈕，旋鈕的刻度從0到1。

當旋鈕撥到0的時候，整個訓練目標恰好等價於RLVR，也就是前面說的純粹靠偶然踩對才能學習的強化學習。當旋鈕撥到1的時候，整個訓練目標變成最大化邊際對數似然，也就是那種學得快但記得住錯誤的方式。0到1之間的所有刻度，都是合法的中間狀態。

研究團隊把這個統一框架命名為 JQ 損失族。"損失"在機器學習里指的是模型有多差、需要改進多少；"族"意味著這是一族由參數 q 連續控制的方法集合，而不是某一種單一方法。

這裡最關鍵的發現是：這個旋鈕改變的不是梯度的方向，而是梯度的強度，而且這種強度調整對每一個訓練樣本是獨立的。梯度可以理解為模型參數需要朝哪個方向調整、調整多少的指令。對於一個模型幾乎不會回答的題目，q越大，這道題產生的梯度指令就越強，模型被迫更努力地在這道題上改進；對於模型已經駕輕就熟的題目，梯度指令就相對溫和。

贊助商廣告

研究團隊把參數 q 命名為"承諾度"——對陌生監督信號投入的程度。高承諾度意味著模型願意為自己不熟悉的任務全力以赴；低承諾度意味著模型更專注於已經擅長的事情，對陌生信號保持保守。這個比喻用學生的態度來理解就很直接：一個高承諾度的學生會把最難的題目放在最重要的位置來攻克，即使答案完全不確定；一個低承諾度的學生傾向於把時間花在已經會的題目上，把做不會的題丟在一邊。

三、從數學推導到時間複雜度：兩堵牆有多高

研究團隊不只是給出了這個旋鈕的定義，還在嚴格的數學框架下證明了：這個旋鈕撥到不同位置，模型從"冷啟動"狀態學到第一個成功案例所需的時間，在數量級上是完全不同的。

假設一道新任務，模型最初成功回答的概率是 p0，而 p0 非常小，比如萬分之一。研究團隊在理論上證明：當旋鈕撥到0（純強化學習）的時候，模型從這個冷啟動狀態逃脫所需的訓練時間，至少是 1/p0 這個數量級——也就是萬分之一的倒數，等於一萬倍的時間單位。這是定理5.1給出的下界，意思是無論怎麼調整學習率，強化學習就是逃不出這個時間代價。

而當旋鈕撥到1（純密度估計）的時候，逃脫冷啟動所需的時間只是 log(1/p0) 這個數量級。log(10000) 大約是9，而不是10000。這就是定理5.2給出的結論——兩種極端策略之間，在冷啟動時間上存在指數級別的差距。

這個差距是由梯度強度的放大因子 P^(-q) 決定的，其中 P 是當前成功概率，q 是承諾度參數。當 q=0，放大因子等於1，也就是沒有放大，冷啟動的停滯就是內在的；當 q=1，放大因子是 1/P，當 P 很小的時候這個放大倍數極大，模型被強迫在稀有的正確信號上迅速學習。

但高承諾度有代價。同樣的數學機制，在放大稀有正確信號的同時，也放大了噪聲信號。對於那些標註有誤的訓練樣本，高承諾度同樣會迫使模型把這些錯誤也快速記住。研究團隊也嚴格證明了這一點：高 q 值下，模型記住訓練數據中噪聲的速度，與它學會正確答案的速度，在數量級上是對稱的。

贊助商廣告

這意味著承諾度旋鈕兩端各有一個陷阱：太低，冷啟動永遠無法逃脫；太高，學得快但也記錯得快。中間值才是實際可用的地帶。

四、兩種計算梯度的方式：GARL 與 PAFT

數學框架建好了，但實際訓練語言模型時，還面臨一個工程問題：模型某道題的總體成功概率 P，在理論上是對所有可能思考路徑的求和，但實際上思考路徑無窮無盡，根本算不出精確值。

研究團隊的解法是用蒙特卡洛估計——本質上就是隨機抽樣，用樣本均值去近似真實值。他們發現，JQ 損失的梯度公式可以從兩個不同方向分解，每種分解方式對應一種不同的估計算法，兩種算法各有優劣，適合不同的訓練場景。

第一種算法叫做梯度放大強化學習（GARL）。它的工作方式延續了強化學習的基本思路：每次給模型一道題，讓模型隨機生成多條思考路徑（比如32條），然後看哪些路徑最終得到了正確答案，用這個資訊來估計成功概率，再用估計值來放大梯度。這個算法在冷啟動階段至關重要，因為即使所有32條路徑都答錯了，每條路徑本身仍然給出了非零的信號（"我走了這條路，距離正確答案還有多遠"），訓練不會完全停滯。GARL在 q=0 時恰好退化為一種已有的方法（Rao-Blackwellized REINFORCE），在 q=1 時退化為IWAE梯度估計量，這兩個都是文獻中有根基的算法。

第二種算法叫做後驗衰減微調（PAFT）。它的工作方式更接近傳統的監督學習：同樣先隨機生成多條思考路徑，然後按照"這條路徑最終得到正確答案的概率"對路徑進行重新抽樣，把抽到的路徑作為訓練樣本，直接讓模型學會"這樣想、這樣答"。這叫做重要性重採樣，本質上是在近似"後驗分布"——也就是"給定這道題的正確答案，什麼樣的思考過程最可能導向它"這個分布。PAFT在 q=1 時退化為EM算法的期望步驟，這是統計學裡處理隱變量問題的經典方法。

兩種算法的偏差（與真實梯度的系統性偏離）在數學上是完全相同的，都是 O(q / (M × P^(q+1)))，其中 M 是每次抽取的路徑數量。這個偏差公式揭示了一個重要規律：q 越大，偏差越大；成功概率 P 越小（也就是任務越難），偏差越大。所以在冷啟動階段用高 q 值，雖然逃脫速度快，但梯度估計也更不準確——這正是為什麼中間值 q=0.75 通常比 q=1 效果更好。

贊助商廣告

兩種算法的方差（隨機波動的幅度）有所不同：GARL的方差更低，因為它用了所有樣本的資訊；PAFT的方差更高，因為重採樣引入了額外的隨機性。但PAFT有一個獨特優勢：它的梯度信號在語義上更乾淨，因為每一條被用於學習的思考路徑，都是經過篩選、指向正確答案的，而GARL把所有路徑混在一起，包括那些給出錯誤答案的路徑，這些路徑對梯度的貢獻有時候會產生混亂的效果。

五、在三個真實推理任務上的實驗驗證

研究團隊在三個需要複雜推理的真實數據集上驗證了這套框架，使用的基礎模型是阿里巴巴發布的 Qwen 3 0.6B，一個參數量相對較小但具有推理能力的語言模型。

三個數據集分別是：FinQA（需要對財務報告中的數字進行數學推理）、HotPotQA（需要跨多段文字進行多跳推理，類似於把幾條線索串聯起來找到答案）、MuSiQue（更難的多跳問題，需要拆解並分步驟解答）。

訓練時用的是嚴格的精確匹配獎勵——答案必須與標準答案字符完全相符才算對；評估時用的是稍微寬鬆的子串匹配——只要標準答案出現在模型輸出的某個位置就算對。每次訓練每道題抽取32條思考路徑，評估時用16條路徑，報告三個指標：pass@1（單次回答準確率）、pass@16（16次機會裡至少有一次答對的概率）、maj@16（16次回答里多數票勝出的準確率，反映答案的穩定性和一致性）。

實驗分成"冷啟動"和"暖啟動"兩種場景。冷啟動場景刻意把問題輸入變成機器風格的純文本，不給任何任務描述和格式提示，強迫模型從幾乎零成功概率出發。暖啟動場景使用自然語言提示詞和標準任務格式，模型一開始就有一定的成功率。

冷啟動實驗的結果非常明確地支持了理論預測。GRPO（一種流行的RLVR方法）、q=0（等價於Rao-Blackwellized REINFORCE）、q=0.25、q=0.5，在FinQA數據集上的所有指標全部是零——訓練完全沒有進展，正如理論所預測的強化學習在冷啟動時必然面臨的困境。而 q=0.75 成功突破：pass@1達到30.5，maj@16達到38.3。q=1 也成功突破，但各項指標略低於 q=0.75——這與理論預測的估計偏差效應吻合，高承諾度逃得更快，但梯度質量也更差。

贊助商廣告

從訓練動態圖來看，q=1 的梯度放大信號幾乎立刻出現，q=0.75 在大約訓練第35步時出現一個急劇上升，q≤0.5 的信號則全程保持在接近零的水平紋絲不動。這個階梯式分布與理論中的時間複雜度排序完全一致。

更引人注目的是冷啟動GARL與暖啟動GRPO的對比。研究團隊把"用精確匹配獎勵但完全不給任務提示詞"的冷啟動GARL，與"有完整提示詞支持"的暖啟動GRPO做了比較。結果在FinQA上，冷啟動GARL（q=0.75）的maj@16是38.3，而有提示詞輔助的GRPO只有26.9；HotPotQA上，冷啟動GARL達到57.2，GRPO只有33.5；MuSiQue上，冷啟動GARL達到34.8，GRPO只有15.8。沒有任何提示詞工程的冷啟動，反而全面超過了依賴提示詞的暖啟動強化學習。研究團隊對此保持謹慎，指出兩種設置之間有太多變量同時改變，這個比較不能簡單解讀為"提示詞沒有價值"，但它確實說明高承諾度的學習機制有著強大的潛力。

暖啟動實驗則揭示了GARL和PAFT各自的適用邊界。在FinQA上，GARL在所有測試的q值下訓練都很穩定，低q值（q=0.25）最終效果最好，maj@16達到38.7，比GRPO高出11.8個百分點——這符合理論：當任務訓練本身穩定時，低承諾度帶來的低估計偏差優勢會顯現出來。

但HotPotQA和MuSiQue講述了不同的故事。GARL在這兩個數據集的暖啟動實驗中，在所有測試的q值下，都出現了"崩潰"現象：驗證集準確率先攀升到某個峰值，然後急劇跌落到零。這種直線崩潰與GRPO在HotPotQA上的緩慢下滑（從約37.4峰值下降到約5.0）性質完全不同。研究團隊推測GARL崩潰的可能機制包括：GARL的梯度里包含了所有抽樣路徑對輸出概率的直接更新，即使那條路徑給出了錯誤答案，這可能產生語義上混亂的梯度信號；以及這兩個數據集本身更容易引發過擬合。但確切機制尚未驗證，研究團隊明確指出這需要進一步的消融實驗來證明。

PAFT在這兩個數據集上表現出完全不同的穩定性。HotPotQA上，PAFT在整個訓練過程中保持穩定，最終maj@16達到47.9，比GRPO高出14.4個百分點，是三個數據集上所有穩定方法裡最高的絕對提升。MuSiQue上，PAFT（q=0.75）穩定地給出22.4的maj@16，而GARL雖然峰值更高（24.3），但那是崩潰之前的曇花一現。PAFT低q值（q=0.25）在MuSiQue上學習速度很慢，訓練結束時準確率還在上升，尚未收斂——這是低承諾度下衰減因子過強、樣本效率太低的體現，但它是慢而穩，而不是崩潰。

贊助商廣告

六、這套框架還解釋了什麼：噪聲記憶與SFT-RL流水線

理論框架的一個優雅之處在於，同一套數學機制不僅解釋了冷啟動速度，還自然地解釋了噪聲記憶的速度，而且兩者的加速比在形式上完全相同。

考慮一個標註有誤的訓練樣本，正確答案被錯誤地寫成了另一個答案。研究團隊證明：模型記住這個錯誤答案的速度（用 η 表示噪聲污染程度），在 q 值從小到大變化時，與逃離冷啟動的速度有著平行的結構——高 q 值加速記憶正確答案，同樣的倍率也加速記憶錯誤答案，而且加速比的數量級在兩種情況下數學上完全一致。這意味著承諾度是一把雙刃劍，而不是一個單向的好東西。

這套框架還給出了一個關於經典"先SFT後RL"訓練流水線的新解讀。通常的做法是先用帶有標註思考步驟的數據做監督微調（SFT），讓模型學會一種思考方式，然後再用強化學習繼續優化。為什麼這樣更有效？從JQ框架的視角看：SFT本質上是 q=1 的密度估計，只是思考路徑被固定為標註樣本（邊際化退化為點估計），所以它用 P^(-1) 的放大因子快速逃離冷啟動；隨後切換到RL（q=0）則停止了對噪聲的承諾，利用 q=0 的噪聲魯棒性來防止模型過度擬合SFT階段可能引入的錯誤標註。JQ 框架把這個"先快速學，再抵抗噪聲"的兩階段硬切換，替換成了一個可以連續調節的單參數旋鈕，理論上更靈活，實驗上也得到了支持。

七、與已有方法的關係：一個統一的視角

這套框架的另一個貢獻是把多個獨立的已有方法納入了同一個屋檐下。STaR（自我教導推理者）是一種讓模型先生成思考步驟、過濾掉錯誤路徑再學習的方法，可以看作PAFT重要性重採樣的一個硬性版本（硬接受vs軟加權）。TRICE（通過潛變量推斷訓練思維鏈）是用MCMC-EM方法最大化邊際對數似然，對應 q=1 時PAFT的E步。IWAE（重要性加權自編碼器）的梯度估計量對應 q=1 時的GARL。Rao-Blackwellized REINFORCE 對應 q=0 時的GARL。

贊助商廣告

另一個同期獨立工作 MaxRL 也探索了強化學習到最大似然的插值，但用的是完全不同的數學路徑（截斷Maclaurin展開），兩者在極端情況（K=0時MaxRL梯度為零，GARL始終非零）和冷啟動行為上有明顯區別。

還有一項同期工作從詞符級別而非樣本級別應用類似的變形對數思路，給出了一種"門控誤差"的梯度結構。JQ框架和那項工作作用於不同層面，可以被視為互補。

在統計估計文獻中，這套框架與Tsallis熵在強化學習里作為策略正則化項的用法也有本質區別：那個用法是在推理時控制探索，JQ框架則是在訓練時控制對不熟悉樣本的承諾，兩者解決的是不同的問題。

歸根結底，谷歌這支團隊做的事情，是把AI推理訓練里長期共存、互相對立的兩種思路，用一個單一的數學參數統一了起來，並且給出了嚴格的理論分析、清晰的算法實現和多個真實數據集上的實驗驗證。這個工作還有未解決的局限：所有實驗只用了一個模型規模，GARL崩潰的機制尚未查明，整個框架目前只支持精確匹配類獎勵，推廣到更複雜的獎勵函數還是開放問題。但它提供的理論視角和實踐工具，對於任何需要在有限計算資源下把語言模型適配到新推理任務的人來說，都有直接的參考價值。

Q&A

Q1：強化學習訓練AI時，"冷啟動失速"到底是什麼問題？

A：冷啟動失速指的是，當AI模型被要求學習一類全新任務時，最初幾乎不可能偶然產生正確答案，因此強化學習幾乎收不到任何有效的訓練信號。成功概率越低，模型等待第一次正確反饋所需的時間就越長，在數學上這個等待時間與初始成功概率成反比關係，可能需要極其漫長的訓練才能有任何進展，實際上相當於訓練完全停滯。

Q2：GARL和PAFT這兩種算法分別在什麼情況下更適合使用？

A：GARL更適合冷啟動場景，因為它對所有抽樣路徑都產生梯度，即使沒有正確答案也不會給出零梯度，能夠強行推動訓練進展；PAFT在暖啟動場景中穩定性更好，因為它只對經過篩選、語義上指向正確答案的路徑學習，不混入錯誤路徑的干擾信號。當GARL在某些任務上出現訓練崩潰時，PAFT是更安全的選擇。

贊助商廣告

Q3：承諾度參數q應該設置成多少才合適？

A：根據實驗結果，q=0.75是一個在多個場景下表現穩健的折中值：它足夠高，能在冷啟動時提供必要的梯度放大效果；又不像q=1那樣引入過多的估計噪聲。在訓練穩定的任務上，低q值（如0.25）因為偏差更小，最終效果更好。沒有一個通用的最優值，需要根據任務難度和訓練穩定性來調節。