這項研究由香港中文大學(深圳)、深圳灣區研究院、北京科技大學與DualityRL聯合開展,論文以預印本形式於2026年4月17日發布在arXiv平台,編號為arXiv:2604.16029v1,有興趣深入閱讀的讀者可通過該編號直接檢索原文。
**研究概要**
每當人們聽說一個AI能做複雜數學題、解高難度科學問題,通常會忽視一個隱藏在背後的巨大代價:那些答案,往往不是靠一次思考得來的,而是讓AI同時跑幾十條、甚至幾百條思路,最後投票選出"最靠譜的那個答案"。這種方法學名叫"並行推理",效果確實好,但燒錢也是真的燒——據統計,一次查詢的推理費用可以高達6美元,相當於幫你買了杯星巴克,但全都用來讓機器胡思亂想了。
問題的根源在於:那些同時跑著的幾十條思路,並不是每一條都有價值。有些思路從一開始就走錯了方向,但機器並不知道,它會一路跑下去,直到給出一個錯誤答案——不僅白白消耗了算力,還可能在最後投票時"拉低整體水平",把原本正確的結論給帶偏了。
這就好比一支考試隊伍,其中有幾個人一上來就看錯了題,但沒人叫停他們,他們還是全程認真答完,最後把明顯錯誤的答案也塞進了投票箱——結果正確答案反而輸給了錯誤答案。
這篇論文要解決的正是這個問題:**能不能在思路剛開了個頭的時候,就判斷出它是不是走歪了,然後果斷叫停,把算力留給那些有希望的思路?** 研究團隊將這種技術稱為"路徑剪枝"(Path Pruning),並且提出了一套系統性的分類框架,以及他們自己開發的方法——STOP(Super TOken for Pruning,超級剪枝標記)。實驗結果顯示,STOP能在節省超過70%計算量的同時,還讓最終答案的準確率顯著提升。
---
一、為什麼思路走歪了就很難自救?
研究團隊發現,大型推理模型(也就是那種會一步步"思考"的AI)有一個很要命的特點:一旦推理路徑的開頭出現了錯誤,模型幾乎沒有能力自我糾正,只會順著錯誤的方向越走越遠,最終給出一個徹底偏離正軌的答案。
可以用導航來理解這件事。你開車去某個目的地,導航在最開始就給了你一個錯誤的起步方向。你跟著走了幾公里之後,即便隱約覺得哪裡不對勁,也很難直接掉頭——因為後續的路口選擇都是基於這個錯誤起點做出的,已經深陷其中。AI的推理路徑也是這樣,早期的錯誤會像滾雪球一樣,越往後越難逆轉。
正是因為如此,"在路徑剛開始的時候就判斷好壞"變得至關重要。與其等到它全程跑完再發現是廢品,不如在它剛走出幾步時就果斷叫停,把資源騰出來給那些有希望的路徑繼續跑。這就是路徑剪枝的核心邏輯。
---
二、現有方法各有什麼短板?研究團隊怎麼分類的?
在研究團隊正式提出自己的方法之前,他們做了一件很有價值的事:把市面上已有的路徑剪枝方法系統地梳理了一遍,建立了一套統一的分類框架。這個框架按照兩個維度來劃分方法:一是"判斷信號從哪裡來",二是"這套判斷邏輯能不能通過訓練來學習"。
先說"信號從哪裡來"。有些方法是從AI輸出的文字本身來判斷——比如看這條思路的文字表述和其他思路有多像、有多大重疊,如果高度相似,就認為是冗餘的,可以剪掉一個。還有些方法是專門請另一個AI模型來評分,就像考卷交給一位"外部閱卷老師"來批改,打個分再決定要不要繼續。這些都屬於"外部信號"。
與之相對的是"內部信號"——不看AI輸出的文字,而是直接觀察AI大腦內部的運行狀態,比如它計算每個詞時的信心程度、內部的概率分布等。理論上,這些內部狀態包含著比文字輸出更豐富、更細膩的資訊。
再說"能不能通過訓練來學習"。有些判斷方法是固定規則,比如"如果這條路徑的困惑度超過某個閾值,就認為它不靠譜"——這是人為設定的死規則,不會隨著任務不同而調整。還有些方法是可以訓練的,通過大量數據讓模型學會"什麼樣的路徑前綴預示著好結果,什麼樣的預示著壞結果",因此能夠適應不同任務的具體模式。
把這兩個維度交叉組合,就得到了四種類型。第一類是"外部信號+固定規則",典型代表是根據文本相似度進行剪枝的方法,計算簡單但過於粗糙,完全不知道AI內部在想什麼。第二類是"外部信號+可學習",代表方法是用單獨訓練好的獎勵模型來打分,有學習能力但計算開銷大,而且依然看不到AI的內部狀態。第三類是"內部信號+固定規則",代表方法是直接用AI的困惑度或token概率作為信心指標,雖然能看到內部狀態,但判斷標準是死的,無法適應任務變化。第四類,也就是最理想的組合,是"內部信號+可學習"——既能看到AI內部豐富的狀態資訊,又能通過訓練學會識別複雜的錯誤模式。
研究團隊指出,前三類各有現成方法,唯獨第四類幾乎是一片空白。這個空白正是他們要填補的地方,而STOP就是他們為此設計的方案。
---
三、STOP是怎麼工作的?一個"插件"級別的大腦旁路
STOP的核心設計理念可以用"插件"來理解。研究團隊並沒有改動原有的AI推理模型,而是在它旁邊接上了一個輕量級的輔助模組,專門負責"看著AI的內部狀態,判斷這條推理路徑值不值得繼續跑"。
具體來說,STOP由三個零件組成。第一個是一個特殊的新詞——被稱為"超級標記"([STOP])——它被加入到AI的詞彙表里,扮演一個專門的"信號收集器",負責匯聚當前推理路徑的所有內部狀態資訊。第二個是一個輕量級的適配器(用了一種叫LoRA的技術),它只在處理這個特殊標記時才啟動,負責把AI的內部狀態從"用於預測下一個詞"的格式轉換成"用於評價這條路徑好不好"的格式。第三個是一個分類器,把適配器處理完的資訊壓縮成一個0到1之間的分數,分數越高代表這條推理路徑越有希望。
整個推理過程分三個階段。第一階段叫"起跑":AI同時為同一個問題生成N條推理路徑,每條只跑一段前綴(比如前1024個詞),並且把這些計算過程中產生的中間狀態(技術上叫"KV緩存")儲存起來。第二階段叫"體檢":把那個特殊的[STOP]標記接到每條緩存好的前綴後面,STOP模組快速掃一遍,給每條路徑打個分——這個過程極快,因為它不需要重新計算前面的內容,直接復用了緩存。第三階段叫"篩跑":按照分數高低排序,保留得分最高的幾條路徑,其餘全部丟棄,只讓優質路徑繼續跑到終點,然後對這些路徑的答案進行投票,得出最終答案。
訓練STOP的方式也很精妙。研究團隊用"蒙特卡洛估計"的方法來給路徑前綴打標籤——對於一段前綴,他們讓AI從這個斷點繼續隨機跑32次,看看這32次里有多少次能得出正確答案。如果32次里有25次正確,這條前綴就得到一個0.78的軟標籤;如果只有2次正確,就得到一個0.06的軟標籤。這比直接用"對/錯"二元標籤更準確,因為它反映的是路徑的"潛力概率",而不是單次隨機結果。
值得一提的是,這個訓練數據的構建雖然一次性成本較高(對於20B參數的模型,需要在8塊H100顯卡上運行約76小時),但只需要做一次,訓練好的STOP模組就可以反覆使用。研究團隊承諾會開放訓練數據和模型權重,讓其他研究者不必重複這個過程。
---
四、四種方法放在一起比,結果怎麼樣?
研究團隊設計了一套嚴格的評測方案:對於每道題,讓AI同時生成64條推理路徑,然後用各種方法從中篩出8條,最後用這8條的平均準確率來衡量方法效果。他們在五個不同難度的推理基準數據集上測試,涵蓋數學競賽(AIME 2024、AIME 2025、BRUMO 2025、HMMT 2025)和科學問答(GPQA Diamond),使用的AI模型從15億參數一直覆蓋到200億參數,規模跨度很大。
結果呈現出清晰的層級關係。能看到AI內部狀態的方法(第三類和第四類),普遍比只看文字輸出的方法(第一類和第二類)表現更好。而在同等信號來源下,能夠學習的方法又比死規則方法表現更好。最終,STOP作為唯一同時具備"內部信號"和"可學習"兩大優勢的方法,在幾乎所有測試場景中都拔得頭籌。
舉一個具體數字來感受差距。在15億參數模型做AIME 2024這道測試上,不做任何剪枝時,平均準確率是30.10%。用第一類方法剪枝後,不升反降,變成了26.25%。第二類方法提到了32.50%。第三類方法提到了32.92%。而STOP把這個數字推到了37.92%——同時還把總計算量減少了73.88%。換句話說,STOP用不到原來三分之一的算力,做到了比原來更高的準確率。
研究團隊還測試了在不同算力預算下(也就是總共能跑多少條路徑)各方法的表現變化。結果顯示,其他方法在某些任務上好、某些任務上差,表現不夠穩定;而STOP在幾乎所有任務和所有算力規模下都能穩定地超越不剪枝的基線,展現出更強的適應性。
---
五、最佳保留比例怎麼選?研究團隊推導出一個規律
光知道"STOP好用"還不夠,實際部署時還有一個關鍵問題:剪掉多少條路徑最合適?保留太多,省不了多少算力;保留太少,可能把好的路徑也誤殺了。
研究團隊通過大量實驗,發現了一個規律:保留比例的最優值,和當前的算力預算以及任務的平均答案長度存在穩定的數學關係。具體來說,算力預算越大(也就是總共能跑更多的路徑),最優保留比例就應該越小,因為當你有足夠多的路徑可以評估時,STOP的判斷會更準確,可以更大膽地剪掉低分路徑。此外,前綴越長(也就是看了AI思考過程的越多內容),判斷準確性越高,也可以更激進地剪枝。
研究團隊將這個規律用一個數學公式來表示:最優保留比例的倒數,約等於一個係數乘以算力預算的0.46次方,再乘以前綴長度的0.40次方,再除以任務平均長度的4.55次方。雖然公式看起來複雜,但背後的邏輯很直觀——就是"資訊越多、預算越足,越可以大膽剪"。
研究團隊還根據這個公式,預先計算好了不同任務長度、不同前綴長度、不同算力預算下的推薦保留比例,以表格形式提供給使用者,這樣實際部署時不需要反覆試驗,直接查表就能找到合適的參數。
---
六、為什麼LoRA適配器不可或缺?幾個關鍵的設計驗證
研究團隊對STOP的幾個設計細節做了仔細的消融實驗,也就是逐一去掉某個組件,看看性能如何變化,以此確認每個設計決策是否真正有必要。
第一個驗證是關於訓練標籤的質量。研究團隊對比了用32次蒙特卡洛採樣得到的軟標籤(比如0.78、0.06這樣的小數),和只用1次採樣得到的硬標籤(只有0或1兩個值)。結果很明顯:在AIME 2024上,軟標籤訓練出的STOP在Cons@N指標上達到53.33%,而硬標籤只有46.67%。原因在於,單次採樣結果受隨機性影響很大——一條本來很有潛力的前綴,可能因為那一次恰好跑出了錯誤答案,就被打上"差"的標籤;反過來,一條質量較差的前綴,也可能湊巧答對了一次就被打上"好"的標籤。多次採樣取平均,才能得到穩定可靠的"潛力估計"。
第二個驗證是關於LoRA適配器的必要性。有人可能會問:既然AI內部已經有豐富的狀態資訊,直接接一個分類器不就行了,為什麼還要那個適配器?實驗給出了答案:去掉適配器,只用一個簡單線性分類器,AIME 2024的準確率從36.67%跌到31.67%,GPQA上也從41.73%跌到33.96%。這說明AI的內部狀態雖然資訊豐富,但它們的格式是為"預測下一個詞"優化的,並不天然適合做質量評估。適配器的作用就是把這些"生成導向"的內部狀態,轉化為"評價導向"的格式,這個轉化過程是不可省略的。
第三個驗證是關於[STOP]特殊標記數量的選擇。研究團隊測試了從1個到9個不同數量的[STOP]標記。結果顯示,4到6個時效果最好,太少了資訊匯聚不夠充分,太多了又出現過擬合(相當於記住了訓練數據的噪聲,而不是真正的規律)。最終選定4個作為標準配置。
第四個驗證是關於LoRA的秩(rank)——這個參數控制著適配器的參數量大小。實驗發現,秩為128時效果最好,更大的秩(256)反而略有下降,說明這個任務不需要非常大的模型容量,適中即可。
---
七、STOP在數學和科學之外也管用嗎?
為了驗證STOP是否只是針對數學題的"專用工具",研究團隊還在一個叫ZebraLogic的邏輯謎題數據集上做了測試。這個數據集考察的是組合推理和約束滿足能力——類似於"A、B、C三個人,A不坐第一位,B在C的左邊,問誰坐中間"這類謎題,和數學推導完全不同。在這個測試上,STOP將準確率從73.73%提升到了77.23%,證明它學到的判斷能力並不局限於數學模式,而是具有一定的通用推理評估能力。
此外,研究團隊還把STOP接入到了AIMO3競賽系統中——這是一個讓AI用外部工具來解數學競賽題的真實比賽場景,使用的是1200億參數的大模型。在單張H100顯卡、5小時時限、50道題的約束下,不剪枝的基線方法得了39分;接入STOP,保留策略為從24條路徑篩選到8條時,得分提升到42分;策略調整為從16條篩到8條時,得分進一步提升到43分,在公開排行榜上達到了銀牌水平。這個結果說明STOP在有工具調用的複雜場景下同樣有效。
---
八、STOP的"注意力"在盯著什麼?
研究團隊還做了一件很有意思的分析:他們可視化了[STOP]標記在處理不同質量路徑時的注意力分布,看看它到底在"盯著"推理文本的哪些地方。
結論很有啟發性。對於所有路徑,STOP都會廣泛關注推理過程中的結構性標記,比如"Wait"(等等)、"Hmm"(嗯)、"Therefore"(因此)等詞,以及多選題的選項字母(A、B、C、D)。這說明它確實在跟蹤推理的整體進展結構。
但高分路徑和低分路徑的注意力重點有著顯著差異。在高分路徑中,[STOP]更多地關注邏輯轉折點——比如"don't"(不)、"doesn't"(不是)這類否定詞,這些詞往往出現在AI進行自我糾正的關鍵時刻,標誌著推理過程中的深度思考。在低分路徑中,[STOP]的注意力則過早地集中在了最終答案選項本身(比如"B"或"C")上,而忽略了中間的推理過程。STOP將這種"跳過推理直接盯答案"的模式判定為"不靠譜"的信號,因為它意味著這條路徑沒有經過紮實的邏輯推導,更像是在猜答案。
這個發現說明STOP學會的是一種"過程導向"的評價方式:它更看重推理的邏輯完整性,而不僅僅是最終落在哪個答案上。
---
說到底,這項研究幹了一件聽起來簡單但實際上很有價值的事:教AI學會"早點放棄沒希望的想法"。在我們日常生活中,這其實是很普通的常識——做題時發現思路不對就應該儘早換方向,而不是一條死路走到底。但讓AI掌握這種判斷力,並且做得又快又准,並不是件容易的事。
研究團隊通過系統分類、找到空白、填補空白的方式,構建出了STOP這套方案。它不需要額外的大模型來當"閱卷老師",也不依賴粗糙的文字相似度規則,而是直接讀懂AI自己的內部狀態,用一個輕量級的插件式模組,以不到1%的額外時間開銷,讓答案質量顯著提升、算力消耗大幅下降。
對普通用戶而言,這意味著未來使用AI解決複雜問題時,同樣的算力預算可以換來更高的準確率;或者說,達到同樣的準確率,花費可以大幅降低。當然,研究團隊也坦誠地指出了尚未解決的問題,比如在更大規模模型(700億參數以上)和更大採樣量(1000條以上路徑)場景下的表現還未經過驗證,以及目前只支持固定位置的單階段剪枝,尚未探索在推理過程中多個時間點分級篩選的策略。
這些問題留給了後來的研究者,而這本身也是一篇好論文應有的樣子——解決了一個真實的問題,同時清晰地指出了下一步可以走的方向。有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.16029查閱完整原文。
---
Q&A
Q1:STOP方法需要對原來的AI推理模型做什麼改動嗎?
A:STOP不改動原有的AI推理模型,原模型的參數全程保持凍結狀態。STOP以插件形式接入,只訓練一個輕量級的LoRA適配器和分類頭,以及一個新加入詞彙表的特殊標記[STOP]。推理時,STOP復用已有的KV緩存完成評分,額外時間開銷不到原始生成時間的1%。
Q2:路徑剪枝會不會誤殺本來正確的推理路徑,導致答案變差?
A:存在這種風險,但STOP通過蒙特卡洛軟標籤訓練,學到的是路徑的"成功概率"而非單次對錯。實驗結果顯示,在幾乎所有測試場景中,剪枝後篩選出的路徑集合質量高於不剪枝時的全部路徑集合,平均準確率普遍有所提升,說明誤殺的損失遠小於去除壞路徑帶來的收益。
Q3:STOP的訓練數據是怎麼來的,普通研究者能自己復現嗎?
A:訓練數據由研究團隊通過對AIME競賽題和GPQA科學問答題進行蒙特卡洛採樣構建,每個前綴跑32次續寫來估算成功概率。這個構建過程對於20B模型大約需要8張H100顯卡運行76小時,一次性成本較高。研究團隊已承諾開放構建好的數據集和訓練好的模型權重,普通研究者可以直接下載使用,無需自行重複數據構建過程。






