這項由亞利桑那州立大學、谷歌雲AI研究院和谷歌DeepMind聯合完成的研究,以預印本形式於2026年5月發表,論文編號為arXiv:2605.08472。感興趣的讀者可以通過該編號在arXiv平台查閱完整論文。
**一場關於"熟能生巧"的AI實驗**
教一個孩子做數學題,你會只給他看一種解法,還是展示多種不同思路?大多數好老師會選擇後者——因為掌握了多種解題方式的學生,遇到新題目時往往更靈活,更能舉一反三。
這項研究的出發點,正是類似的樸素直覺。研究團隊來自亞利桑那州立大學,他們一直在思考一個讓AI圈子裡頗為頭疼的問題:大語言模型(也就是ChatGPT這類能夠理解和生成文字的AI系統)經過強化學習訓練之後,為什麼有時候進步幅度令人失望,甚至有時候反而變差了?
強化學習,用最直白的方式來理解,就像是給AI做"答題練習":AI給出一個回答,系統判斷這個回答對不對,對的就給"獎勵",錯的就給"懲罰",AI在這種獎懲機制下不斷調整自己的答題策略。理論上,經過足夠多的練習,AI應該越來越厲害。但實際操作中,研究者發現這套機制並沒有想像中那麼萬能。
問題的癥結在於:如果一個AI在接受強化學習之前,腦子裡只存著一種解題套路,那麼強化學習充其量只能把這種套路用得更熟練,卻很難幫它學會全新的思考方式。這就好比一個只會正面進攻的棋手,無論練多少次,也很難自發發展出迂迴包抄的戰術——因為他的腦子裡根本沒有這個概念的雛形。
研究團隊於是提出了一個直覺上非常合理的解決方案:在正式進行強化學習之前,先讓AI學習用多種不同方法解決同一道題,給它的"腦袋"里多裝幾套工具,然後再通過強化學習讓它學會把這些工具靈活組合起來用。他們把這個中間步驟稱為"中間訓練
"(Mid-Training)。
**一、解題高手的工具箱:波利亞的智慧**
如何讓AI學會多種解題方法,而不是所有回答都千篇一律?研究團隊從一本1945年出版的經典書籍中找到了靈感。
匈牙利數學家喬治·波利亞(George Pólya)寫了一本名叫《怎樣解題》(How to Solve It)的小書,專門講解各種解題策略。他在書中總結了幾十種人類在面對數學難題時常用的思維方式:比如"從答案往回推"(如果我已經知道答案是什麼,我需要哪些條件?)、"找類比"(這道題讓我想起了哪道我已經會做的題?)、"分解問題"(把一個大問題拆成幾個小問題分別解決)、"引入輔助元素"(加進來一個原來題目沒有的新變量,看能不能讓解題更順暢)……
研究團隊把波利亞書中的64種這樣的思維方式,逐一轉化成可以提示AI的"指令"。對於每一種思維方式,他們都準備了詳細的文字描述和幾個示範例題,告訴AI:"用這種思維方式來解這道題,答案要藏在最後。"
接下來的操作流程可以用"工廠篩選"來理解。團隊選取了7473道GSM8K數學題(一個常用的數學題訓練數據集)作為原材料。對於每道題和每種思維方式的組合,他們讓AI各生成128個回答候選,就像一個工廠的流水線同時生產128件產品。然後通過兩道質檢關卡:第一關是數學驗證程序,把答案算錯的全部淘汰;第二關是一個獎勵模型(可以理解為一位審稿專家),專門評判每個回答有沒有真正按照指定的思維方式來解題,並給出評分。最終,每道題和每種思維方式的組合,只保留分數最高的那一個回答。
經過這套流程,團隊最終得到了7112道題,每道題配有最多64種不同思維方式的正確解法。這些數據構成了中間訓練的原材料。用這批數據對AI進行監督微調(一種讓AI模仿示範答案的訓練方式),就完成了中間訓練階段。
值得一提的是,整個數據生成過程並沒有藉助比被訓練模型更聰明的"老師模型"——所有數據都是由被訓練的模型自己生成的,再經過篩選保留高質量部分。這種"自我提升"的方式,避免了對外部強大模型的依賴。
**二、為什麼學多種方法管用:一點數學直覺**
研究團隊不滿足於僅僅展示實驗結果,他們還想從理論上解釋清楚:為什麼讓AI學會多種解題方法,會讓後續的強化學習變得更有效?
為了解釋這個問題,可以用一盞水龍頭來打比方。水龍頭裡流出來的水,代表AI在每一步決策時"分配給各個可能選項"的注意力和概率。
第一種情況叫"單模式":AI的水龍頭幾乎只朝一個方向流,99%的水都流向同一個選項(一種固定的解題套路),其他所有可能性加起來才占1%。這時候,強化學習來了,想要稍微調整水流的方向——但因為水流已經太集中,能撥動的餘地極其微小,就像試圖用手指改變一條已經形成了深深溝壑的河流走向,效果可想而知。研究團隊用數學推導出,這種情況下一次訓練更新能帶來的概率變化,大約只有那1%的平方,也就是萬分之一量級,近乎可以忽略不計。
第二種情況叫"多模式":經過中間訓練,AI的水龍頭同時朝N個方向流,每個方向分得大約1/N的水量。這時候,強化學習要調整某一個方向的水流,就容易得多了——調整的幅度大約是1/N乘以(1-1/N),比之前那種"萬分之一"量級大了許多倍,訓練信號能真正發揮作用。
更有意思的是,當強化學習給某種解題方式打了"負評"(負獎勵),需要減少這種方式的使用概率時,被減少的那部分概率會流向哪裡?研究團隊通過數學推導證明,這部分概率會主要流向其他那些同樣具有較高概率的解題方式,而不是分散到無數個幾乎沒有概率的"噪聲"選項上。換句話說,當AI學會了N種解法,強化學習的懲罰信號會引導它把注意力從一種方法轉移到另一種方法,而不是一下子讓它什麼方法都不用了。這種機制天然地促使AI去組合不同的解法——而不是死守單一套路,也不是隨機亂試。
**三、實驗怎麼做的,結果怎麼樣**
說完理論,來看具體實驗。研究團隊以Llama 3.2-3B-Instruct(一個由Meta開發的、參數量相對較小的語言模型)作為主要實驗對象,並在最後也用了Qwen2.5-7B-Instruct做了補充驗證。
中間訓練的設置是:對於同一套數學題,分別構建"每道題配1種解法"、"每道題配2種解法"、……一直到"每道題配64種解法"共七個版本的訓練數據,每個版本單獨訓練出一個中間訓練模型。評估這些模型的指標是pass@k——簡單說,就是如果讓模型對同一道題生成k個回答,只要有一個答對就算通過,k越大,這個指標就越能反映模型"會不會做"而不只是"運氣好不好"。
在沒有任何額外訓練的基礎模型上,六個數學比賽數據集(難度從中等到奧賽級別不等)的平均pass@64是46.30%。僅做了STaR(一種讓模型自我生成推理過程的訓練方法)的對比組,平均pass@64是46.32%,幾乎沒有提升。而中間訓練配64種解法的模型,平均pass@64提升到了48.17%,在更難的測試集上提升更明顯——比如AIME 2025(美國數學邀請賽2025年題目)的pass@64從12.84%躍升至18.66%,AMC 2023(美國數學競賽2023年題目)從83.49%升到85.18%,OlympiadBench(奧林匹克數學題集)從42.13%升到43.57%。
在pass@1(只生成一個回答)這個更日常的指標上,中間訓練的優勢相對小一些:最好的情況下平均pass@1從11.08%提升到11.50%,而STaR對比組在pass@1上表現略好,能到13.02%。這說明中間訓練的核心優勢不在於讓模型"一次就蒙對",而在於讓模型真正掌握了更多解題路徑,從而在多次嘗試的情況下能找到正確答案的能力大幅提升。
接下來,在中間訓練的基礎上再疊加強化學習(使用GRPO算法),結果更為顯著。基礎模型直接做強化學習的對照組,在六個數學數據集平均pass@64能達到44.21%;STaR之後再做強化學習,能到45.69%;而中間訓練16種解法後再做強化學習,平均達到48.09%;中間訓練64種解法後再做強化學習,達到47.62%。單看最難的數據集,AIME 2025的pass@64從對照組的16.91%提升到23.34%,AMC 2023從78.18%提升到84.52%,提升幅度相當可觀。
有一個有趣的細節:16種解法版本的強化學習結果有時比64種解法版本還略好。研究團隊對此有一個解釋:強化學習時每次為一道題生成的候選回答數量(稱為"rollout組大小")恰好也是16。當解法種數和rollout組大小匹配時,每一批候選回答剛好能覆蓋模型學過的所有解法,讓強化學習能充分利用多樣性;而當解法種數遠超rollout組大小時,每批候選只能隨機覆蓋一部分解法,效果反而有所打折。在Qwen2.5-7B的實驗中,rollout組大小設為8,結果也印證了這一規律:8種解法版本表現最好。
**四、觀察AI的"思維進化"過程**
除了數字層面的改善,研究團隊還想直接看看:強化學習訓練之後,AI的解題過程有沒有真正發生質變?
為此,他們建立了一套"解題方法鑑定系統":用GPT-4o-mini作為裁判,為64種波利亞思維方式
各準備了幾個正面和反面示例,然後對AI生成的每一段解題過程逐一判斷:"這段解題過程有沒有用到'分解問題'這種方法?""有沒有用到'找類比'?"……裁判對每種方法給出"有"或"沒有"的二元判斷。
結果發現,在只做了中間訓練而沒有做強化學習的模型中,每道題的解題過程大多只能檢測到一種主要的解題方法,符合中間訓練數據的設計(每道題每次只示範一種方法)。
但當這些模型再經過強化學習之後,情況發生了顯著變化:同一道題的解題過程里,經常能同時檢測到兩種甚至三種解題方法。以訓練了16種解法的模型為例,強化學習前只有23.3%的解答包含多種方法;強化學習後,這個比例跳升到56.7%。解法種數越多,強化學習後出現"方法融合
"的比例越高。
而且,這些融合出來的組合,在中間訓練的數據里根本不存在——AI從來沒被明確教過"既用分解問題,又同時用從答案往回推",但它自己在強化學習中發展出了這種組合。最常見的新組合包括"波爾扎諾邏輯推演法+分解問題"(37%的解答包含此組合)、"問題重述+分解問題"(30%)、"波爾扎諾+問題重述+分解問題"(23%)等等。這種現象被研究團隊解讀為:強化學習促使模型在已有的多種解法基礎上,自發地嘗試組合這些工具,尋找更有效的策略。
為了驗證這套鑑定系統的可靠性,團隊還請了兩位電腦科學研究生做人工標註,對鑑定結果進行交叉驗證。三位評判者(兩位人類加上GPT-4o-mini)之間的一致性達到了0.65(Fleiss' κ值),屬於"顯著一致"級別,說明這套自動鑑定系統是可信的。
**五、深挖細節:多學幾種方法,還是多學幾道題**
中間訓練要用多少訓練數據,應該怎麼分配?研究團隊做了一個很有趣的對照實驗來回答這個問題。
他們固定了總訓練量。
直覺上,第一種方式似乎更合理——見過更多不同題目,應該泛化能力更強。但實驗結果恰恰相反:第二種方式在隨後的強化學習中表現更好,在所有pass@k指標上都優於第一種方式,平均相對提升約7%。
這個結果在某種程度上顛覆了"數據量越多越好"的直覺,轉而支持"深度比廣度更重要"的觀點——至少在為強化學習做準備這件事上,讓模型深入掌握少數題目的多種解法,比淺嘗眾多題目的單一解法更有價值。
研究團隊還追加了另一個對照實驗,專門檢驗"多樣性"和"正確性"哪個更關鍵。他們構造了一批同樣基于波利亞思維方式、同樣多樣化、但最終答案是錯誤的解題過程,用這批數據做中間訓練,然後再做強化學習。結果非常明確:這種情況下,解法種數越多,強化學習效果越差,全部低於直接做強化學習的對照組。由此得出結論:多樣化的解法必須是正確的才有效,僅僅讓AI接觸各種各樣的"思維方式"但最終算錯答案,不僅沒幫助,還會產生干擾。
**六、與"向更聰明的老師學習"相比如何**
既然目標是讓AI學到多樣化的解法,為什麼不直接去問一個更聰明的模型?研究團隊也測試了這個方案:從QwQ-32B(阿里巴巴開發的一個以強推理能力著稱的大模型,參數量是實驗主模型的十倍以上)那裡,為每道題生成16個解法,用這批數據做中間訓練,然後再做強化學習。
結果,這種"向更聰明老師學習"的方案在pass@1上和研究團隊的方案相近,但在pass@64上反而不如。研究團隊用"多樣性評分"(Vendi Score
,一種衡量一批文本有多少種不同寫法的指標)來解釋這一差異:QwQ-32B生成的16個解法,多樣性評分只有10.95;而研究團隊自己通過波利亞方法生成的16種解法,多樣性評分高達13.81。更聰明的老師生成的解法,反而在風格上更趨於單一,因為它有自己固定的強推理風格,很難真正"跳出套路"。此外,從QwQ-32B那裡蒸餾來的解法普遍更冗長、更容易重複,這也和一些其他研究的發現吻合。
**七、數學練出來的方法,能用在寫代碼和理解故事上嗎**
研究團隊最後還測試了一個很自然的問題:波利亞的這些思維方式都是針對數學的,但AI通過這些數學練習習得的"思維習慣",能不能遷移到完全不同的領域?
他們選取了兩類測試場景。第一類是代碼生成:把中間訓練過的模型(64種解法版本和32種解法版本)在一個代碼訓練集(KodCode-Light-RL-10K)上做強化學習,然後在HumanEval(一個標準代碼生成測試集)上評估。結果是,64種解法版本達到52.82%,32種解法版本達到52.34%,而直接對基礎模型做強化學習的對照組只有51.14%——雖然差距不算大,但確實存在。
第二類測試更有趣:MuSR(Multi-step Soft Reasoning,多步軟推理),這是一個需要AI閱讀長篇自然語言敘述、然後進行多步驟推理的測試集,包含"謀殺推理"(根據線索推斷兇手)、"物品擺放"(推斷物品的位置關係)和"團隊分配"(根據約束條件進行最優分配)三個子任務。
在"謀殺推理"子任務上,對照組(基礎模型直接強化學習)得分53.15%,而中間訓練32種解法版本達到56.94%,64種解法版本達到57.36%,提升幅度相當可觀。最令人驚訝的是"團隊分配"子任務:基礎模型得分25.70%,直接強化學習對照組非但沒有提升,反而降到了23.46%(這種強化學習讓模型"退步"的現象,在其他研究中也有記錄);而中間訓練32種解法版本達到39.07%,64種解法版本達到38.57%,不僅避免了退步,還大幅超越了基礎模型。
這說明,通過波利亞數學思維方式培養出來的"多角度分析、分解問題、逆向推理"等習慣,確實在某種程度上是領域無關的通用思維能力,能夠遷移到需要複雜推理的非數學任務上。
**說到底,這項研究在告訴我們什麼**
歸根結底,這項研究的核心發現可以用一句很樸實的話來概括:在讓AI做"刷題練習"(強化學習)之前,先讓它接觸同一道題的多種正確解法,這件事大有裨益。
具體來說,這套流程能讓隨後的強化學習訓練信號更有效地發揮作用,而不是被AI的"思維定勢"所阻礙。通過理論分析,研究團隊解釋了這背後的機制:多種解法讓AI在每個決策節點都保持多種可能性"在線",訓練信號因此能真正影響AI的策略,而不是在單一模式的高牆前碰壁彈回。
從實驗數字來看,這套方案帶來的提升在pass@64這類指標上最為明顯,在通常更受關注的pass@1上提升相對有限。研究團隊對此很坦誠:他們的目標並不是讓AI每次都能一次性蒙對,而是讓AI真正"會"更多解法,從而在給它多次機會時能找到正確答案。這對於需要大量可靠推理的實際應用場景,價值可能比單次命中率更重要。
在固定訓練數據總量的條件下,深度學習少量題目的多種解法,勝過淺嘗大量題目的單一解法——這個反直覺的發現,對於AI訓練數據的設計和資源分配,有直接的參考價值。同時,這項研究所揭示的"RL主要在擴展和組合已有能力,而非憑空創造新能力"的觀點,也對關於AI是否真正"湧現"出新能力這一更宏觀的討論,提供了一個具體且有據可查的視角。
當然,研究者自己也在文章末尾提出了一個開放性問題:AI在強化學習後展現出的那些從未被明確教過的"方法組合",究竟是全新能力的湧現,還是只是把預訓練期間就已學到的、平時隱而不顯的能力重新激活和重組?這個問題目前還沒有答案,留待未來更深入的研究去探索。
有興趣深入了解全部實驗細節和數學推導的讀者,可以通過arXiv編號2605.08472查閱完整論文。
---
Q&A
Q1:中間訓練(Mid-Training)和普通的監督微調有什麼區別?
A:普通的監督微調通常給每道題配一個標準答案讓AI去模仿。中間訓練的核心區別在於,它給同一道題配了多種不同解法——比如一道數學題同時配有"分解法"、"類比法"、"逆推法"等多種正確解題過程。這樣訓練出來的AI,在腦子裡同時對同一道題保留了多個高概率的"思路入口",而不是只認一條路,這正是後續強化學習能發揮更大效果的前提。
Q2:為什麼強化學習會讓AI學會"組合"不同解題方法?
A:這是論文裡最有意思的發現之一。當AI已經掌握了多種解法,強化學習在給某種解法打"負評"時,這部分被減少的概率不會消散到無數無關選項里,而是會流向其他那些同樣具有一定概率的解法。久而久之,AI會自發嘗試把多種方法拼在一起用,因為這樣能覆蓋更多情況、更容易得到正確答案和獎勵——這種組合行為不是被明確教出來的,而是在強化學習的獎懲機制下自然浮現的。
Q3:這套訓練方法只對數學題有效,還是別的任務也有用?
A:實驗結果顯示,在數學題上訓練出來的多樣化推理習慣,確實能遷移到其他領域。研究團隊在代碼生成任務(HumanEval)和需要多步驟自然語言推理的任務(MuSR,包括推斷兇手、推斷物品位置、優化團隊分配等)上都觀察到了提升,尤其是在邏輯推理步驟複雜的任務上提升更明顯。這說明波利亞式思維方式培養的是某種通用的"多角度分析"習慣,而不只是數學專屬技能。






