天津大學與百度聯手，讓AI數學推理更聰明：只給"關鍵鑰匙"，不塞"整個工具箱"

這項由天津大學自然語言處理實驗室、百度公司以及中國科學院資訊工程研究所聯合開展的研究，發表於2026年4月，論文編號為arXiv:2604.12627，發布於電腦科學人工智慧方向的預印本平台。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

研究團隊面對的核心問題，其實可以用一個非常日常的比喻來理解。假設你在輔導一個學數學有困難的學生，你面臨兩種選擇：一種是把整道題的解題過程抄給他看，讓他照著做；另一種是只告訴他"這道題要用勾股定理"這樣一句關鍵提示。前者雖然幫助最大，但學生學到的是抄答案；後者雖然簡潔，但如果給錯了提示，學生可能還是毫無頭緒。這個輔導難題，正是當前AI大語言模型訓練領域面臨的一個真實困境，而這篇論文提出的方法，就是在尋找那把"最精準的鑰匙"。

一、當AI做數學題也會"卡殼"——獎勵稀疏問題

當前訓練高智能AI的主流方法之一，叫做"強化學習"——用中學生都能理解的話來說，就是讓AI反覆嘗試解題，答對了就給獎勵，答錯了就不給，AI在不斷試錯中越來越聰明。這套方法有個專業名字叫RLVR（基於可驗證獎勵的強化學習），被DeepSeek 天津大學與百度聯手讓AI數學推理更聰明只給關鍵鑰匙不塞整個工具箱、Qwen等頂尖AI系統廣泛採用。

然而，問題出現了。當題目足夠難的時候，AI可能試了幾十次都答不對，每次都是零分，沒有任何獎勵反饋。對AI來說，這就像一個學生做了一整本習題集，每道題都空白，根本不知道自己哪裡出了問題，自然也就無法進步。這種現象在研究領域被稱為"獎勵稀疏"，是強化學習在複雜推理任務上的一塊硬骨頭。

為了解決這個問題，研究人員想到了一個辦法：在題目旁邊附上一些提示，就像考試時允許帶參考公式一樣，幫AI找到解題的突破口，讓它更容易答對，從而獲得獎勵信號，繼續學習。這類方法被統稱為"基於提示的強化學習"。

然而新的問題隨之而來。研究人員發現，現有的提示方式大多走向了一個誤區——提示越來越長、越來越多、越來越複雜，仿佛"提示量越大，AI學得越好"。於是有人把解題過程的前半段直接塞給AI看，有人讓更強大的AI生成抽象的解題模板，有人根據題目難度動態調整提示的長度。這些方法各有特色，但它們共同忽略了一個關鍵問題：提示里有太多"廢話"。

贊助商廣告

二、三個被忽視的麻煩——冗餘提示的三重代價

研究團隊在深入分析這些提示方法時，發現了三個以前沒人系統研究過的問題，它們就像木桶上的三塊短板，共同限制了提示方法的效果上限。

第一個問題叫"關鍵片段效應"。研究人員做了一個實驗：對同一道題，把標準解題過程分別截取前10%、前20%……一直到前90%作為提示，觀察AI的準確率變化。按照直覺，提示越長，AI應該越容易做對，準確率應該平滑上升。但實驗結果令人意外——準確率曲線根本不是平滑上升的，而是在某個特定位置出現了一個"跳躍"，之前幾乎沒有提升，之後也趨於平緩。這說明，整段提示里真正有用的，其實只是某一小段關鍵內容，其他內容幾乎是多餘的，就像一把複雜的鑰匙，真正開門的只是其中一個齒。

第二個問題叫"跨提示不一致"。當提示變得很長，或者包含多種不同的解題思路時，這些提示之間可能會互相矛盾、互相干擾。比如一段提示說"用坐標法"，另一段說"用向量法"，AI反而不知道該聽誰的，大腦（模型參數更新方向）陷入混亂，學習效果反而下降。這就像同時讓一個學生聽三個老師的課，三個老師教的方法各不相同，學生最終反而什麼都沒學會。

第三個問題叫"指導效率權衡"。很多高質量的提示，需要調用另一個更強大的AI（俗稱"教師模型"）來臨時生成，這就意味著每訓練一步，都要先暫停，去問"老師"要提示，再繼續訓練。這種打斷式的訓練流程大大增加了計算成本和時間開銷，在實際應用中是個不小的負擔。

這三個問題合在一起，揭示了一個統一的根源：現有提示策略普遍存在"冗餘"，給了太多不必要的資訊，同時又沒有控制好這些資訊的結構和相關性。研究團隊由此提出了一個核心問題：能不能只給AI最少量、最關鍵的知識點，就足以幫它跨越獎勵稀疏的鴻溝，同時不引入任何多餘的干擾？

贊助商廣告

三、KnowRL的核心思想——把提示拆成"原子知識點"

研究團隊提出的方法叫做KnowRL（基於知識點的強化學習），其核心思想可以用這樣一個比喻來理解：如果說以前的提示方法是把整本食譜塞給廚師，KnowRL做的事情是把食譜里最關鍵的幾條注意事項提煉出來，比如"這道菜的火候要控制在中火"、"加鹽的時機是出鍋前"，只告訴廚師這幾條，其他步驟讓他自己摸索。

具體來說，KnowRL將每道訓練題目對應的提示，分解成若干個"原子知識點"（Knowledge Points，簡稱KP）。所謂原子知識點，就是不可再拆分的、獨立的數學原理或方法，比如"勾股定理的適用條件"、"單位換算中從大單位到小單位需要乘以換算係數"之類的表述。這些知識點不包含具體的解題步驟，不包含答案，只是一條通用的數學常識。

整個KnowRL的工作流程分為三個階段。第一階段是生成正確解答：對每道題，研究團隊用DeepSeek-R1這個強大的AI模型反覆嘗試，直到得到至少一個正確解答。第二階段是提取原子知識點：給定題目和正確解答，再次用DeepSeek-R1提煉出解這道題所必需的核心數學原理，形成一個候選知識點集合，每道題平均有約5.86個知識點。第三階段是防止"泄題"驗證：對每個知識點，用DeepSeek-R1檢查它是否包含了題目特有的數值、變量名或中間計算結果，如果有，就說明這個"知識點"其實是變相給出了解題過程，需要人工修改，確保所有保留的知識點都是通用的數學原理，不與具體題目綁定。

完成這三步之後，每道題都有了一個候選知識點集合。但此時直接把所有知識點都塞進提示，效果卻並不理想——平均準確率只從60.46%提升到61.03%，提升幅度非常有限。這說明，原子知識點的構建只是第一步，更關鍵的是如何從這些候選知識點中挑選出真正有用的那幾個。

四、知識點之間藏著一個悖論——單個好的，合在一起反而更差

贊助商廣告

在設計知識點篩選策略時，研究團隊發現了一個令人意想不到的現象，他們稱之為"剪枝交互悖論"。簡單來說，這個悖論是：單獨去掉某個知識點A，AI的準確率會提高；單獨去掉某個知識點B，AI的準確率也會提高；但如果同時去掉A和B，AI的準確率反而下降了。

用一個日常生活中的例子來理解這個悖論：一道菜里有鹽、醬油和味精三種調味料。單獨減少鹽，味道變好了；單獨減少味精，味道也變好了；但如果同時把鹽和味精都去掉，菜就完全沒味道了。原來，鹽和味精雖然單獨來看各有冗餘，但它們共同維持著整體的鮮味平衡，缺一不可。知識點之間的關係也是如此——有些知識點表面上看是多餘的，但它們在組合中承擔著"消歧義"的作用，讓AI在多個知識點共同存在時，能更清楚地理解每個點的適用範圍。

研究團隊對這個悖論做了系統的量化分析。他們定義了一個指標：當同時去掉m個"單獨看似有益於剔除"的知識點時，有多少比例的情況下整體準確率反而低於單獨剔除的平均水平？結果顯示，這種"反向效應"發生的概率高達40%到60%，且準確率的下降幅度相當可觀。這說明簡單的"逐一剔除"策略在實踐中是靠不住的。

正是這個悖論，促使研究團隊設計了一套更複雜、更可靠的知識點選擇流程，而不是簡單地"哪個知識點單獨看沒用就去掉它"。

五、從"逐一剔除"到"約束子集搜索"——篩選策略的演進之路

研究團隊設計並對比了多種知識點篩選策略，這個演進過程本身就是一段有趣的探索旅程。

最簡單的策略叫"最高分策略"（Max-Score）：對每道題，分別計算"不用任何知識點"、"用全部知識點"、"去掉知識點i之後"這三類情況下的準確率，選其中最高的那個配置。這個策略雖然直觀，但搜索空間太小，只能在這幾種固定選項中選擇，可能錯過更好的組合。

接下來是"嚴格留一剔除"（S-LOO）和"容忍留一剔除"（T-LOO）。這兩種策略的思路是：對每個知識點做一次"留一法"測試（即去掉這個知識點，看準確率是否下降），如果去掉某個知識點準確率不降或反而上升，就把它剔除。T-LOO比S-LOO寬鬆一點，允許準確率有細微下降才判定該知識點"無用"。這兩種策略選出的知識點數量最少（平均只有1.2到1.7個），但準確率反而不如Max-Score，正是因為撞上了前面說的剪枝交互悖論。

贊助商廣告

為了應對這個悖論，研究團隊最終提出了"約束子集搜索"（Constrained Subset Search，CSS）策略。這個策略的設計思路分兩步走。第一步，先找出那些"無論如何去掉都不會造成準確率大幅下降、甚至去掉後準確率明顯提升"的知識點，這些是最安全可以直接剔除的，數量平均只有1.21個，幾乎不會觸發悖論。第二步，對於剩餘那些"單獨去掉後準確率可能提升、但不確定聯合去掉是否安全"的候選知識點，不再逐一剔除，而是枚舉所有可能的子集組合，選出整體準確率最高的那個組合。這樣既避免了全量枚舉所有2的n次方個子集的計算爆炸，又繞過了剪枝交互悖論的陷阱。

CSS策略在8個數學推理測試集上的平均準確率達到63.90%，每道題平均只需要2.57個知識點，而使用全部知識點時準確率僅為61.03%，使用隨機選取約2.5個知識點時準確率也明顯低於CSS。這表明，知識點的價值不在數量多少，關鍵在於選得對不對、選得有沒有考慮知識點之間的相互依賴關係。

此外，研究團隊還提出了另一種叫"共識魯棒選擇"（CBRS）的策略：把每道題的8次獨立評估結果分別看待，選出在大多數評估輪次中都表現優秀的知識點配置，再用準確率方差作為最終的打平手規則。CBRS的表現也相當不錯，與CSS在知識點數量上基本持平，但CSS在最難的競賽題上表現更穩定，尤其是在需要多步驟、跨概念推理的題目上優勢更明顯。

六、把精選知識點注入強化學習訓練——結果有多驚艷

在確定了CSS作為最優篩選策略之後，研究團隊用篩選後的知識點數據對OpenMath-Nemotron-1.5B這個數學推理模型進行強化學習訓練，打造出了KnowRL-Nemotron-1.5B。訓練數據來自開源的QuestA數據集，經過去重後保留了8800條訓練樣本，每條樣本都經過CSS篩選，平均含3.61個知識點，比原始全量知識點減少了約39%。

訓練過程在8台各配備8塊H100 GPU的伺服器上進行，耗時約13天。訓練過程中採用了一種叫"熵退火"的技術：在訓練初期允許模型大膽探索各種解題思路（高熵階段），到訓練中後期逐漸收緊，讓模型專注於最優路徑（低熵階段）。實驗表明，這種動態調整策略比全程固定參數的訓練方式，最終結果平均高出約1.5個百分點。

贊助商廣告

最終評估在8個權威數學推理測試集上進行，涵蓋了美國數學邀請賽（AIME24、AIME25）、哈佛-麻省理工數學錦標賽（HMMT25）、美國數學競賽（AMC23）等高難度競賽題庫，以及MATH-500、奧林匹克題庫等綜合基準。評估時既測試了"不給任何知識點提示"的純模型能力，也測試了"搭配CSS選出的知識點提示"的上限能力。

不帶任何提示時，KnowRL-Nemotron-1.5B的8項測試平均準確率達到70.08%，比基礎模型Nemotron-1.5B的60.45%提升了9.63個百分點，也超越了同等規模的競爭方法JustRL（68.58%）。加上CSS選出的知識點提示後，平均準確率進一步提升至74.16%，在同等參數量級（15億參數）的模型中創下新的紀錄。

具體到各項測試，提升幅度最大的恰恰是最難的競賽題：AIME25上提升了15.11個百分點，HMMT25上提升了12.98個百分點，CMIMC25（卡內基梅隆大學數學競賽）上提升了15.49個百分點。這些數字背後的意義是：KnowRL的改進並非在簡單題上刷分，而是真正在複雜的、需要多步驟推理的競賽題上取得了實質性突破。

七、訓練數據分布的變化——AI真的"懂了"還是只會"背提示"

一個很自然的疑問是：KnowRL的效果提升，是因為模型真正學會了更好的推理能力，還是僅僅在推理時依賴提示作弊？研究團隊對這個問題做了專門的分析。

他們統計了訓練集中每道題在8次獨立採樣下答對次數的分布。對於基礎模型，有41.21%的題目8次全部答錯（即完全沒有獎勵信號），只有1.35%的題目8次全部答對，平均準確率只有22.40%。這正是獎勵稀疏的直觀體現。

經過KnowRL訓練之後（此時評估也不給任何提示），8次全部答錯的比例驟降至13.00%，而8次全部答對的比例躍升至34.28%，平均準確率達到64.30%。這表明模型確實將知識點引導下習得的推理能力內化了，而不是形成了對提示的依賴。

進一步地，當評估時也加上CSS選出的知識點提示，8次全部答對的比例再次躍升至51.07%，各中間檔（答對1到6次）的比例相應縮小，平均準確率達到77.04%。這個規律與"關鍵片段效應"完全吻合：當最關鍵的知識點被明確告知時，模型能更穩定地把部分正確的不穩定解法，轉化為全部正確的穩定解法。換句話說，即使沒有提示，KnowRL訓練出來的模型也已經具備了更強的基礎能力；提示只是進一步幫助模型聚焦，而非替代能力本身。

贊助商廣告

八、CSS與CBRS的正面比較——誰才是更好的"選鑰匙"大師

為了更公平地比較CSS和CBRS這兩種篩選策略，研究團隊讓兩者在完全相同的訓練預算（相同步數）下進行訓練，使用等量知識點，只改變選擇策略本身。

從訓練曲線來看，CSS在整個訓練過程中幾乎始終保持更高的訓練準確率，收斂過程也更平穩。CBRS在訓練中後期出現了更高的"截斷比率"（clip ratio），說明它產生的策略更新幅度更激進，而CSS的更新更溫和可控。這在強化學習中通常意味著CSS的訓練過程更穩定，不容易出現過度更新導致的性能波動。

在訓練400步和900步兩個中間檢查點上，CSS都以明顯優勢領先CBRS。400步時CSS達到65.00%，CBRS只有64.68%；900步時CSS達到66.46%，CBRS只有65.72%。這種持續性的優勢表明，CSS選出的知識點配置，從數據質量上就比CBRS更優，讓模型能在有限的訓練步數內學到更多。

研究團隊分析認為，這背後的原因在於兩種策略的本質差異。CBRS是在多次獨立評估中尋找"共識最優"——多數情況下都不錯，但可能錯過少數情況下才出現的最優組合；CSS則是在剔除明確無用知識點後，對剩餘候選做全局枚舉，能找到整體最優但出現頻率較低的組合。值得一提的是，CSS和CBRS為同一道題選出的知識點，其Jaccard相似度（衡量兩個集合重疊程度的指標）只有0.70，說明兩種策略選出的具體內容差異相當大，並非互相替代，而是各有側重。

---

說到底，KnowRL解決的是一個"多少才是剛剛好"的哲學問題。在AI訓練領域，以前的研究者們普遍認為"給得越多越好"，但這項研究用大量實驗數據證明，冗餘的提示不僅不能幫助AI學習，反而會干擾學習方向。真正有效的提示，是那幾個恰好能"點亮"AI解題思路的關鍵知識點。

這項研究對普通人的影響，可能不會立竿見影地體現在你的日常生活中，但它推動的技術方向，會讓未來的AI數學輔導工具更精準、更省資源、更不容易給出混亂的解題建議。當你的孩子用AI輔助學習數學時，背後的技術也許正是這類"最小充分提示"的邏輯在起作用。

贊助商廣告

研究團隊在論文中沒有討論這套方法向數學以外領域的擴展，這是一個開放的問題：在物理、化學、編程等其他推理密集型領域，同樣的"原子知識點"分解和CSS篩選策略是否同樣有效？不同領域的知識點之間，是否會呈現出與數學不同的"剪枝交互悖論"特徵？這些都是值得繼續探索的方向。

有興趣追蹤這一研究進展的讀者，可以通過arXiv編號2604.12627找到完整論文，研究團隊也在GitHub（hasuer/KnowRL）上開放了模型權重、訓練數據和完整代碼，供研究者復現和擴展。

---

Q&A

Q1：KnowRL訓練出來的模型在推理時必須依賴知識點提示才能有好效果嗎？

A：不需要。KnowRL訓練完成後，即使在推理時完全不給任何知識點提示，模型的平均準確率也達到了70.08%，比基礎模型提升了9.63個百分點。這說明模型在訓練中真正內化了推理能力，提示只是錦上添花，而非必要條件。

Q2：CSS篩選策略為什麼比直接給全部知識點效果更好？

A：全部知識點中存在"跨提示不一致"問題，不同知識點可能暗示相互矛盾的解題路徑，干擾模型的學習方向。CSS通過考慮知識點之間的相互依賴關係，篩掉冗餘和產生干擾的知識點，只保留真正協同有效的最小子集，反而讓模型學得更清晰、更穩定。

Q3：剪枝交互悖論在實驗中有多普遍？

A：研究團隊的量化分析顯示，當同時去掉多個"單獨看似可以去掉"的知識點時，有40%到60%的概率會出現整體準確率反而下降的情況，且下降幅度相當顯著。這說明知識點之間的隱性依賴關係非常普遍，不能簡單地把每個知識點獨立對待來做篩選決策。