這項由天津大學自然語言處理實驗室、百度公司以及中國科學院資訊工程研究所聯合開展的研究,發表於2026年4月,論文編號為arXiv:2604.12627,發布於電腦科學人工智慧方向的預印本平台。有興趣深入了解的讀者可以通過該編號查詢完整論文。
研究團隊面對的核心問題,其實可以用一個非常日常的比喻來理解。假設你在輔導一個學數學有困難的學生,你面臨兩種選擇:一種是把整道題的解題過程抄給他看,讓他照著做;另一種是只告訴他"這道題要用勾股定理"這樣一句關鍵提示。前者雖然幫助最大,但學生學到的是抄答案;後者雖然簡潔,但如果給錯了提示,學生可能還是毫無頭緒。這個輔導難題,正是當前AI大語言模型訓練領域面臨的一個真實困境,而這篇論文提出的方法,就是在尋找那把"最精準的鑰匙"。
一、當AI做數學題也會"卡殼"——獎勵稀疏問題
當前訓練高智能AI的主流方法之一,叫做"強化學習"——用中學生都能理解的話來說,就是讓AI反覆嘗試解題,答對了就給獎勵,答錯了就不給,AI在不斷試錯中越來越聰明。這套方法有個專業名字叫RLVR(基於可驗證獎勵的強化學習),被DeepSeek
、Qwen等頂尖AI系統廣泛採用。
然而,問題出現了。當題目足夠難的時候,AI可能試了幾十次都答不對,每次都是零分,沒有任何獎勵反饋。對AI來說,這就像一個學生做了一整本習題集,每道題都空白,根本不知道自己哪裡出了問題,自然也就無法進步。這種現象在研究領域被稱為"獎勵稀疏",是強化學習在複雜推理任務上的一塊硬骨頭。
為了解決這個問題,研究人員想到了一個辦法:在題目旁邊附上一些提示,就像考試時允許帶參考公式一樣,幫AI找到解題的突破口,讓它更容易答對,從而獲得獎勵信號,繼續學習。這類方法被統稱為"基於提示的強化學習"。
然而新的問題隨之而來。研究人員發現,現有的提示方式大多走向了一個誤區——提示越來越長、越來越多、越來越複雜,仿佛"提示量越大,AI學得越好"。於是有人把解題過程的前半段直接塞給AI看,有人讓更強大的AI生成抽象的解題模板,有人根據題目難度動態調整提示的長度。這些方法各有特色,但它們共同忽略了一個關鍵問題:提示里有太多"廢話"。
二、三個被忽視的麻煩——冗餘提示的三重代價
研究團隊在深入分析這些提示方法時,發現了三個以前沒人系統研究過的問題,它們就像木桶上的三塊短板,共同限制了提示方法的效果上限。
第一個問題叫"關鍵片段效應"。研究人員做了一個實驗:對同一道題,把標準解題過程分別截取前10%、前20%……一直到前90%作為提示,觀察AI的準確率變化。按照直覺,提示越長,AI應該越容易做對,準確率應該平滑上升。但實驗結果令人意外——準確率曲線根本不是平滑上升的,而是在某個特定位置出現了一個"跳躍",之前幾乎沒有提升,之後也趨於平緩。這說明,整段提示里真正有用的,其實只是某一小段關鍵內容,其他內容幾乎是多餘的,就像一把複雜的鑰匙,真正開門的只是其中一個齒。
第二個問題叫"跨提示不一致"。當提示變得很長,或者包含多種不同的解題思路時,這些提示之間可能會互相矛盾、互相干擾。比如一段提示說"用坐標法",另一段說"用向量法",AI反而不知道該聽誰的,大腦(模型參數更新方向)陷入混亂,學習效果反而下降。這就像同時讓一個學生聽三個老師的課,三個老師教的方法各不相同,學生最終反而什麼都沒學會。
第三個問題叫"指導效率權衡"。很多高質量的提示,需要調用另一個更強大的AI(俗稱"教師模型")來臨時生成,這就意味著每訓練一步,都要先暫停,去問"老師"要提示,再繼續訓練。這種打斷式的訓練流程大大增加了計算成本和時間開銷,在實際應用中是個不小的負擔。
這三個問題合在一起,揭示了一個統一的根源:現有提示策略普遍存在"冗餘",給了太多不必要的資訊,同時又沒有控制好這些資訊的結構和相關性。研究團隊由此提出了一個核心問題:能不能只給AI最少量、最關鍵的知識點,就足以幫它跨越獎勵稀疏的鴻溝,同時不引入任何多餘的干擾?
三、KnowRL的核心思想——把提示拆成"原子知識點"
研究團隊提出的方法叫做KnowRL(基於知識點的強化學習),其核心思想可以用這樣一個比喻來理解:如果說以前的提示方法是把整本食譜塞給廚師,KnowRL做的事情是把食譜里最關鍵的幾條注意事項提煉出來,比如"這道菜的火候要控制在中火"、"加鹽的時機是出鍋前",只告訴廚師這幾條,其他步驟讓他自己摸索。
具體來說,KnowRL將每道訓練題目對應的提示,分解成若干個"原子知識點"(Knowledge Points,簡稱KP)。所謂原子知識點,就是不可再拆分的、獨立的數學原理或方法,比如"勾股定理的適用條件"、"單位換算中從大單位到小單位需要乘以換算係數"之類的表述。這些知識點不包含具體的解題步驟,不包含答案,只是一條通用的數學常識。
整個KnowRL的工作流程分為三個階段。第一階段是生成正確解答:對每道題,研究團隊用DeepSeek-R1這個強大的AI模型反覆嘗試,直到得到至少一個正確解答。第二階段是提取原子知識點:給定題目和正確解答,再次用DeepSeek-R1提煉出解這道題所必需的核心數學原理,形成一個候選知識點集合,每道題平均有約5.86個知識點。第三階段是防止"泄題"驗證:對每個知識點,用DeepSeek-R1檢查它是否包含了題目特有的數值、變量名或中間計算結果,如果有,就說明這個"知識點"其實是變相給出了解題過程,需要人工修改,確保所有保留的知識點都是通用的數學原理,不與具體題目綁定。
完成這三步之後,每道題都有了一個候選知識點集合。但此時直接把所有知識點都塞進提示,效果卻並不理想——平均準確率只從60.46%提升到61.03%,提升幅度非常有限。這說明,原子知識點的構建只是第一步,更關鍵的是如何從這些候選知識點中挑選出真正有用的那幾個。
四、知識點之間藏著一個悖論——單個好的,合在一起反而更差
在設計知識點篩選策略時,研究團隊發現了一個令人意想不到的現象,他們稱之為"剪枝交互悖論"。簡單來說,這個悖論是:單獨去掉某個知識點A,AI的準確率會提高;單獨去掉某個知識點B,AI的準確率也會提高;但如果同時去掉A和B,AI的準確率反而下降了。
用一個日常生活中的例子來理解這個悖論:一道菜里有鹽、醬油和味精三種調味料。單獨減少鹽,味道變好了;單獨減少味精,味道也變好了;但如果同時把鹽和味精都去掉,菜就完全沒味道了。原來,鹽和味精雖然單獨來看各有冗餘,但它們共同維持著整體的鮮味平衡,缺一不可。知識點之間的關係也是如此——有些知識點表面上看是多餘的,但它們在組合中承擔著"消歧義"的作用,讓AI在多個知識點共同存在時,能更清楚地理解每個點的適用範圍。
研究團隊對這個悖論做了系統的量化分析。他們定義了一個指標:當同時去掉m個"單獨看似有益於剔除"的知識點時,有多少比例的情況下整體準確率反而低於單獨剔除的平均水平?結果顯示,這種"反向效應"發生的概率高達40%到60%,且準確率的下降幅度相當可觀。這說明簡單的"逐一剔除"策略在實踐中是靠不住的。
正是這個悖論,促使研究團隊設計了一套更複雜、更可靠的知識點選擇流程,而不是簡單地"哪個知識點單獨看沒用就去掉它"。
五、從"逐一剔除"到"約束子集搜索"——篩選策略的演進之路
研究團隊設計並對比了多種知識點篩選策略,這個演進過程本身就是一段有趣的探索旅程。
最簡單的策略叫"最高分策略"(Max-Score):對每道題,分別計算"不用任何知識點"、"用全部知識點"、"去掉知識點i之後"這三類情況下的準確率,選其中最高的那個配置。這個策略雖然直觀,但搜索空間太小,只能在這幾種固定選項中選擇,可能錯過更好的組合。
接下來是"嚴格留一剔除"(S-LOO)和"容忍留一剔除"(T-LOO)。這兩種策略的思路是:對每個知識點做一次"留一法"測試(即去掉這個知識點,看準確率是否下降),如果去掉某個知識點準確率不降或反而上升,就把它剔除。T-LOO比S-LOO寬鬆一點,允許準確率有細微下降才判定該知識點"無用"。這兩種策略選出的知識點數量最少(平均只有1.2到1.7個),但準確率反而不如Max-Score,正是因為撞上了前面說的剪枝交互悖論。
為了應對這個悖論,研究團隊最終提出了"約束子集搜索"(Constrained Subset Search,CSS)策略。這個策略的設計思路分兩步走。第一步,先找出那些"無論如何去掉都不會造成準確率大幅下降、甚至去掉後準確率明顯提升"的知識點,這些是最安全可以直接剔除的,數量平均只有1.21個,幾乎不會觸發悖論。第二步,對於剩餘那些"單獨去掉後準確率可能提升、但不確定聯合去掉是否安全"的候選知識點,不再逐一剔除,而是枚舉所有可能的子集組合,選出整體準確率最高的那個組合。這樣既避免了全量枚舉所有2的n次方個子集的計算爆炸,又繞過了剪枝交互悖論的陷阱。
CSS策略在8個數學推理測試集上的平均準確率達到63.90%,每道題平均只需要2.57個知識點,而使用全部知識點時準確率僅為61.03%,使用隨機選取約2.5個知識點時準確率也明顯低於CSS。這表明,知識點的價值不在數量多少,關鍵在於選得對不對、選得有沒有考慮知識點之間的相互依賴關係。
此外,研究團隊還提出了另一種叫"共識魯棒選擇"(CBRS)的策略:把每道題的8次獨立評估結果分別看待,選出在大多數評估輪次中都表現優秀的知識點配置,再用準確率方差作為最終的打平手規則。CBRS的表現也相當不錯,與CSS在知識點數量上基本持平,但CSS在最難的競賽題上表現更穩定,尤其是在需要多步驟、跨概念推理的題目上優勢更明顯。
六、把精選知識點注入強化學習訓練——結果有多驚艷
在確定了CSS作為最優篩選策略之後,研究團隊用篩選後的知識點數據對OpenMath-Nemotron-1.5B這個數學推理模型進行強化學習訓練,打造出了KnowRL-Nemotron-1.5B。訓練數據來自開源的QuestA數據集,經過去重後保留了8800條訓練樣本,每條樣本都經過CSS篩選,平均含3.61個知識點,比原始全量知識點減少了約39%。
訓練過程在8台各配備8塊H100 GPU的伺服器上進行,耗時約13天。訓練過程中採用了一種叫"熵退火"的技術:在訓練初期允許模型大膽探索各種解題思路(高熵階段),到訓練中後期逐漸收緊,讓模型專注於最優路徑(低熵階段)。實驗表明,這種動態調整策略比全程固定參數的訓練方式,最終結果平均高出約1.5個百分點。
最終評估在8個權威數學推理測試集上進行,涵蓋了美國數學邀請賽(AIME24、AIME25)、哈佛-麻省理工數學錦標賽(HMMT25)、美國數學競賽(AMC23)等高難度競賽題庫,以及MATH-500、奧林匹克題庫等綜合基準。評估時既測試了"不給任何知識點提示"的純模型能力,也測試了"搭配CSS選出的知識點提示"的上限能力。
不帶任何提示時,KnowRL-Nemotron-1.5B的8項測試平均準確率達到70.08%,比基礎模型Nemotron-1.5B的60.45%提升了9.63個百分點,也超越了同等規模的競爭方法JustRL(68.58%)。加上CSS選出的知識點提示後,平均準確率進一步提升至74.16%,在同等參數量級(15億參數)的模型中創下新的紀錄。
具體到各項測試,提升幅度最大的恰恰是最難的競賽題:AIME25上提升了15.11個百分點,HMMT25上提升了12.98個百分點,CMIMC25(卡內基梅隆大學數學競賽)上提升了15.49個百分點。這些數字背後的意義是:KnowRL的改進並非在簡單題上刷分,而是真正在複雜的、需要多步驟推理的競賽題上取得了實質性突破。
七、訓練數據分布的變化——AI真的"懂了"還是只會"背提示"
一個很自然的疑問是:KnowRL的效果提升,是因為模型真正學會了更好的推理能力,還是僅僅在推理時依賴提示作弊?研究團隊對這個問題做了專門的分析。
他們統計了訓練集中每道題在8次獨立採樣下答對次數的分布。對於基礎模型,有41.21%的題目8次全部答錯(即完全沒有獎勵信號),只有1.35%的題目8次全部答對,平均準確率只有22.40%。這正是獎勵稀疏的直觀體現。
經過KnowRL訓練之後(此時評估也不給任何提示),8次全部答錯的比例驟降至13.00%,而8次全部答對的比例躍升至34.28%,平均準確率達到64.30%。這表明模型確實將知識點引導下習得的推理能力內化了,而不是形成了對提示的依賴。
進一步地,當評估時也加上CSS選出的知識點提示,8次全部答對的比例再次躍升至51.07%,各中間檔(答對1到6次)的比例相應縮小,平均準確率達到77.04%。這個規律與"關鍵片段效應"完全吻合:當最關鍵的知識點被明確告知時,模型能更穩定地把部分正確的不穩定解法,轉化為全部正確的穩定解法。換句話說,即使沒有提示,KnowRL訓練出來的模型也已經具備了更強的基礎能力;提示只是進一步幫助模型聚焦,而非替代能力本身。
八、CSS與CBRS的正面比較——誰才是更好的"選鑰匙"大師
為了更公平地比較CSS和CBRS這兩種篩選策略,研究團隊讓兩者在完全相同的訓練預算(相同步數)下進行訓練,使用等量知識點,只改變選擇策略本身。
從訓練曲線來看,CSS在整個訓練過程中幾乎始終保持更高的訓練準確率,收斂過程也更平穩。CBRS在訓練中後期出現了更高的"截斷比率"(clip ratio),說明它產生的策略更新幅度更激進,而CSS的更新更溫和可控。這在強化學習中通常意味著CSS的訓練過程更穩定,不容易出現過度更新導致的性能波動。
在訓練400步和900步兩個中間檢查點上,CSS都以明顯優勢領先CBRS。400步時CSS達到65.00%,CBRS只有64.68%;900步時CSS達到66.46%,CBRS只有65.72%。這種持續性的優勢表明,CSS選出的知識點配置,從數據質量上就比CBRS更優,讓模型能在有限的訓練步數內學到更多。
研究團隊分析認為,這背後的原因在於兩種策略的本質差異。CBRS是在多次獨立評估中尋找"共識最優"——多數情況下都不錯,但可能錯過少數情況下才出現的最優組合;CSS則是在剔除明確無用知識點後,對剩餘候選做全局枚舉,能找到整體最優但出現頻率較低的組合。值得一提的是,CSS和CBRS為同一道題選出的知識點,其Jaccard相似度(衡量兩個集合重疊程度的指標)只有0.70,說明兩種策略選出的具體內容差異相當大,並非互相替代,而是各有側重。
---
說到底,KnowRL解決的是一個"多少才是剛剛好"的哲學問題。在AI訓練領域,以前的研究者們普遍認為"給得越多越好",但這項研究用大量實驗數據證明,冗餘的提示不僅不能幫助AI學習,反而會干擾學習方向。真正有效的提示,是那幾個恰好能"點亮"AI解題思路的關鍵知識點。
這項研究對普通人的影響,可能不會立竿見影地體現在你的日常生活中,但它推動的技術方向,會讓未來的AI數學輔導工具更精準、更省資源、更不容易給出混亂的解題建議。當你的孩子用AI輔助學習數學時,背後的技術也許正是這類"最小充分提示"的邏輯在起作用。
研究團隊在論文中沒有討論這套方法向數學以外領域的擴展,這是一個開放的問題:在物理、化學、編程等其他推理密集型領域,同樣的"原子知識點"分解和CSS篩選策略是否同樣有效?不同領域的知識點之間,是否會呈現出與數學不同的"剪枝交互悖論"特徵?這些都是值得繼續探索的方向。
有興趣追蹤這一研究進展的讀者,可以通過arXiv編號2604.12627找到完整論文,研究團隊也在GitHub(hasuer/KnowRL)上開放了模型權重、訓練數據和完整代碼,供研究者復現和擴展。
---
Q&A
Q1:KnowRL訓練出來的模型在推理時必須依賴知識點提示才能有好效果嗎?
A:不需要。KnowRL訓練完成後,即使在推理時完全不給任何知識點提示,模型的平均準確率也達到了70.08%,比基礎模型提升了9.63個百分點。這說明模型在訓練中真正內化了推理能力,提示只是錦上添花,而非必要條件。
Q2:CSS篩選策略為什麼比直接給全部知識點效果更好?
A:全部知識點中存在"跨提示不一致"問題,不同知識點可能暗示相互矛盾的解題路徑,干擾模型的學習方向。CSS通過考慮知識點之間的相互依賴關係,篩掉冗餘和產生干擾的知識點,只保留真正協同有效的最小子集,反而讓模型學得更清晰、更穩定。
Q3:剪枝交互悖論在實驗中有多普遍?
A:研究團隊的量化分析顯示,當同時去掉多個"單獨看似可以去掉"的知識點時,有40%到60%的概率會出現整體準確率反而下降的情況,且下降幅度相當顯著。這說明知識點之間的隱性依賴關係非常普遍,不能簡單地把每個知識點獨立對待來做篩選決策。






