當AI思維跑偏時，香港中文大學（深圳）教你如何及早"截胡"，省掉七成算力浪費

這項研究由香港中文大學（深圳）、深圳灣區研究院、北京科技大學與DualityRL聯合開展，論文以預印本形式於2026年4月17日發布在arXiv平台，編號為arXiv:2604.16029v1，有興趣深入閱讀的讀者可通過該編號直接檢索原文。

贊助商廣告

**研究概要**

每當人們聽說一個AI能做複雜數學題、解高難度科學問題，通常會忽視一個隱藏在背後的巨大代價：那些答案，往往不是靠一次思考得來的，而是讓AI同時跑幾十條、甚至幾百條思路，最後投票選出"最靠譜的那個答案"。這種方法學名叫"並行推理"，效果確實好，但燒錢也是真的燒——據統計，一次查詢的推理費用可以高達6美元，相當於幫你買了杯星巴克，但全都用來讓機器胡思亂想了。

問題的根源在於：那些同時跑著的幾十條思路，並不是每一條都有價值。有些思路從一開始就走錯了方向，但機器並不知道，它會一路跑下去，直到給出一個錯誤答案——不僅白白消耗了算力，還可能在最後投票時"拉低整體水平"，把原本正確的結論給帶偏了。

這就好比一支考試隊伍，其中有幾個人一上來就看錯了題，但沒人叫停他們，他們還是全程認真答完，最後把明顯錯誤的答案也塞進了投票箱——結果正確答案反而輸給了錯誤答案。

這篇論文要解決的正是這個問題：**能不能在思路剛開了個頭的時候，就判斷出它是不是走歪了，然後果斷叫停，把算力留給那些有希望的思路？** 研究團隊將這種技術稱為"路徑剪枝"（Path Pruning），並且提出了一套系統性的分類框架，以及他們自己開發的方法——STOP（Super TOken for Pruning，超級剪枝標記）。實驗結果顯示，STOP能在節省超過70%計算量的同時，還讓最終答案的準確率顯著提升。

---

一、為什麼思路走歪了就很難自救？

研究團隊發現，大型推理模型（也就是那種會一步步"思考"的AI）有一個很要命的特點：一旦推理路徑的開頭出現了錯誤，模型幾乎沒有能力自我糾正，只會順著錯誤的方向越走越遠，最終給出一個徹底偏離正軌的答案。

贊助商廣告

可以用導航來理解這件事。你開車去某個目的地，導航在最開始就給了你一個錯誤的起步方向。你跟著走了幾公里之後，即便隱約覺得哪裡不對勁，也很難直接掉頭——因為後續的路口選擇都是基於這個錯誤起點做出的，已經深陷其中。AI的推理路徑也是這樣，早期的錯誤會像滾雪球一樣，越往後越難逆轉。

正是因為如此，"在路徑剛開始的時候就判斷好壞"變得至關重要。與其等到它全程跑完再發現是廢品，不如在它剛走出幾步時就果斷叫停，把資源騰出來給那些有希望的路徑繼續跑。這就是路徑剪枝的核心邏輯。

---

二、現有方法各有什麼短板？研究團隊怎麼分類的？

在研究團隊正式提出自己的方法之前，他們做了一件很有價值的事：把市面上已有的路徑剪枝方法系統地梳理了一遍，建立了一套統一的分類框架。這個框架按照兩個維度來劃分方法：一是"判斷信號從哪裡來"，二是"這套判斷邏輯能不能通過訓練來學習"。

先說"信號從哪裡來"。有些方法是從AI輸出的文字本身來判斷——比如看這條思路的文字表述和其他思路有多像、有多大重疊，如果高度相似，就認為是冗餘的，可以剪掉一個。還有些方法是專門請另一個AI模型來評分，就像考卷交給一位"外部閱卷老師"來批改，打個分再決定要不要繼續。這些都屬於"外部信號"。

與之相對的是"內部信號"——不看AI輸出的文字，而是直接觀察AI大腦內部的運行狀態，比如它計算每個詞時的信心程度、內部的概率分布等。理論上，這些內部狀態包含著比文字輸出更豐富、更細膩的資訊。

再說"能不能通過訓練來學習"。有些判斷方法是固定規則，比如"如果這條路徑的困惑度超過某個閾值，就認為它不靠譜"——這是人為設定的死規則，不會隨著任務不同而調整。還有些方法是可以訓練的，通過大量數據讓模型學會"什麼樣的路徑前綴預示著好結果，什麼樣的預示著壞結果"，因此能夠適應不同任務的具體模式。

贊助商廣告

把這兩個維度交叉組合，就得到了四種類型。第一類是"外部信號＋固定規則"，典型代表是根據文本相似度進行剪枝的方法，計算簡單但過於粗糙，完全不知道AI內部在想什麼。第二類是"外部信號＋可學習"，代表方法是用單獨訓練好的獎勵模型來打分，有學習能力但計算開銷大，而且依然看不到AI的內部狀態。第三類是"內部信號＋固定規則"，代表方法是直接用AI的困惑度或token概率作為信心指標，雖然能看到內部狀態，但判斷標準是死的，無法適應任務變化。第四類，也就是最理想的組合，是"內部信號＋可學習"——既能看到AI內部豐富的狀態資訊，又能通過訓練學會識別複雜的錯誤模式。

研究團隊指出，前三類各有現成方法，唯獨第四類幾乎是一片空白。這個空白正是他們要填補的地方，而STOP就是他們為此設計的方案。

---

三、STOP是怎麼工作的？一個"插件"級別的大腦旁路

STOP的核心設計理念可以用"插件"來理解。研究團隊並沒有改動原有的AI推理模型，而是在它旁邊接上了一個輕量級的輔助模組，專門負責"看著AI的內部狀態，判斷這條推理路徑值不值得繼續跑"。

具體來說，STOP由三個零件組成。第一個是一個特殊的新詞——被稱為"超級標記"（[STOP]）——它被加入到AI的詞彙表里，扮演一個專門的"信號收集器"，負責匯聚當前推理路徑的所有內部狀態資訊。第二個是一個輕量級的適配器（用了一種叫LoRA的技術），它只在處理這個特殊標記時才啟動，負責把AI的內部狀態從"用於預測下一個詞"的格式轉換成"用於評價這條路徑好不好"的格式。第三個是一個分類器，把適配器處理完的資訊壓縮成一個0到1之間的分數，分數越高代表這條推理路徑越有希望。

整個推理過程分三個階段。第一階段叫"起跑"：AI同時為同一個問題生成N條推理路徑，每條只跑一段前綴（比如前1024個詞），並且把這些計算過程中產生的中間狀態（技術上叫"KV緩存"）儲存起來。第二階段叫"體檢"：把那個特殊的[STOP]標記接到每條緩存好的前綴後面，STOP模組快速掃一遍，給每條路徑打個分——這個過程極快，因為它不需要重新計算前面的內容，直接復用了緩存。第三階段叫"篩跑"：按照分數高低排序，保留得分最高的幾條路徑，其餘全部丟棄，只讓優質路徑繼續跑到終點，然後對這些路徑的答案進行投票，得出最終答案。

贊助商廣告

訓練STOP的方式也很精妙。研究團隊用"蒙特卡洛估計"的方法來給路徑前綴打標籤——對於一段前綴，他們讓AI從這個斷點繼續隨機跑32次，看看這32次里有多少次能得出正確答案。如果32次里有25次正確，這條前綴就得到一個0.78的軟標籤；如果只有2次正確，就得到一個0.06的軟標籤。這比直接用"對/錯"二元標籤更準確，因為它反映的是路徑的"潛力概率"，而不是單次隨機結果。

值得一提的是，這個訓練數據的構建雖然一次性成本較高（對於20B參數的模型，需要在8塊H100顯卡上運行約76小時），但只需要做一次，訓練好的STOP模組就可以反覆使用。研究團隊承諾會開放訓練數據和模型權重，讓其他研究者不必重複這個過程。

---

四、四種方法放在一起比，結果怎麼樣？

研究團隊設計了一套嚴格的評測方案：對於每道題，讓AI同時生成64條推理路徑，然後用各種方法從中篩出8條，最後用這8條的平均準確率來衡量方法效果。他們在五個不同難度的推理基準數據集上測試，涵蓋數學競賽（AIME 2024、AIME 2025、BRUMO 2025、HMMT 2025）和科學問答（GPQA Diamond），使用的AI模型從15億參數一直覆蓋到200億參數，規模跨度很大。

結果呈現出清晰的層級關係。能看到AI內部狀態的方法（第三類和第四類），普遍比只看文字輸出的方法（第一類和第二類）表現更好。而在同等信號來源下，能夠學習的方法又比死規則方法表現更好。最終，STOP作為唯一同時具備"內部信號"和"可學習"兩大優勢的方法，在幾乎所有測試場景中都拔得頭籌。

舉一個具體數字來感受差距。在15億參數模型做AIME 2024這道測試上，不做任何剪枝時，平均準確率是30.10%。用第一類方法剪枝後，不升反降，變成了26.25%。第二類方法提到了32.50%。第三類方法提到了32.92%。而STOP把這個數字推到了37.92%——同時還把總計算量減少了73.88%。換句話說，STOP用不到原來三分之一的算力，做到了比原來更高的準確率。

贊助商廣告

研究團隊還測試了在不同算力預算下（也就是總共能跑多少條路徑）各方法的表現變化。結果顯示，其他方法在某些任務上好、某些任務上差，表現不夠穩定；而STOP在幾乎所有任務和所有算力規模下都能穩定地超越不剪枝的基線，展現出更強的適應性。

---

五、最佳保留比例怎麼選？研究團隊推導出一個規律

光知道"STOP好用"還不夠，實際部署時還有一個關鍵問題：剪掉多少條路徑最合適？保留太多，省不了多少算力；保留太少，可能把好的路徑也誤殺了。

研究團隊通過大量實驗，發現了一個規律：保留比例的最優值，和當前的算力預算以及任務的平均答案長度存在穩定的數學關係。具體來說，算力預算越大（也就是總共能跑更多的路徑），最優保留比例就應該越小，因為當你有足夠多的路徑可以評估時，STOP的判斷會更準確，可以更大膽地剪掉低分路徑。此外，前綴越長（也就是看了AI思考過程的越多內容），判斷準確性越高，也可以更激進地剪枝。

研究團隊將這個規律用一個數學公式來表示：最優保留比例的倒數，約等於一個係數乘以算力預算的0.46次方，再乘以前綴長度的0.40次方，再除以任務平均長度的4.55次方。雖然公式看起來複雜，但背後的邏輯很直觀——就是"資訊越多、預算越足，越可以大膽剪"。

研究團隊還根據這個公式，預先計算好了不同任務長度、不同前綴長度、不同算力預算下的推薦保留比例，以表格形式提供給使用者，這樣實際部署時不需要反覆試驗，直接查表就能找到合適的參數。

---

六、為什麼LoRA適配器不可或缺？幾個關鍵的設計驗證

研究團隊對STOP的幾個設計細節做了仔細的消融實驗，也就是逐一去掉某個組件，看看性能如何變化，以此確認每個設計決策是否真正有必要。

第一個驗證是關於訓練標籤的質量。研究團隊對比了用32次蒙特卡洛採樣得到的軟標籤（比如0.78、0.06這樣的小數），和只用1次採樣得到的硬標籤（只有0或1兩個值）。結果很明顯：在AIME 2024上，軟標籤訓練出的STOP在Cons@N指標上達到53.33%，而硬標籤只有46.67%。原因在於，單次採樣結果受隨機性影響很大——一條本來很有潛力的前綴，可能因為那一次恰好跑出了錯誤答案，就被打上"差"的標籤；反過來，一條質量較差的前綴，也可能湊巧答對了一次就被打上"好"的標籤。多次採樣取平均，才能得到穩定可靠的"潛力估計"。

贊助商廣告

第二個驗證是關於LoRA適配器的必要性。有人可能會問：既然AI內部已經有豐富的狀態資訊，直接接一個分類器不就行了，為什麼還要那個適配器？實驗給出了答案：去掉適配器，只用一個簡單線性分類器，AIME 2024的準確率從36.67%跌到31.67%，GPQA上也從41.73%跌到33.96%。這說明AI的內部狀態雖然資訊豐富，但它們的格式是為"預測下一個詞"優化的，並不天然適合做質量評估。適配器的作用就是把這些"生成導向"的內部狀態，轉化為"評價導向"的格式，這個轉化過程是不可省略的。

第三個驗證是關於[STOP]特殊標記數量的選擇。研究團隊測試了從1個到9個不同數量的[STOP]標記。結果顯示，4到6個時效果最好，太少了資訊匯聚不夠充分，太多了又出現過擬合（相當於記住了訓練數據的噪聲，而不是真正的規律）。最終選定4個作為標準配置。

第四個驗證是關於LoRA的秩（rank）——這個參數控制著適配器的參數量大小。實驗發現，秩為128時效果最好，更大的秩（256）反而略有下降，說明這個任務不需要非常大的模型容量，適中即可。

---

七、STOP在數學和科學之外也管用嗎？

為了驗證STOP是否只是針對數學題的"專用工具"，研究團隊還在一個叫ZebraLogic的邏輯謎題數據集上做了測試。這個數據集考察的是組合推理和約束滿足能力——類似於"A、B、C三個人，A不坐第一位，B在C的左邊，問誰坐中間"這類謎題，和數學推導完全不同。在這個測試上，STOP將準確率從73.73%提升到了77.23%，證明它學到的判斷能力並不局限於數學模式，而是具有一定的通用推理評估能力。

此外，研究團隊還把STOP接入到了AIMO3競賽系統中——這是一個讓AI用外部工具來解數學競賽題的真實比賽場景，使用的是1200億參數的大模型。在單張H100顯卡、5小時時限、50道題的約束下，不剪枝的基線方法得了39分；接入STOP，保留策略為從24條路徑篩選到8條時，得分提升到42分；策略調整為從16條篩到8條時，得分進一步提升到43分，在公開排行榜上達到了銀牌水平。這個結果說明STOP在有工具調用的複雜場景下同樣有效。

贊助商廣告

---

八、STOP的"注意力"在盯著什麼？

研究團隊還做了一件很有意思的分析：他們可視化了[STOP]標記在處理不同質量路徑時的注意力分布，看看它到底在"盯著"推理文本的哪些地方。

結論很有啟發性。對於所有路徑，STOP都會廣泛關注推理過程中的結構性標記，比如"Wait"（等等）、"Hmm"（嗯）、"Therefore"（因此）等詞，以及多選題的選項字母（A、B、C、D）。這說明它確實在跟蹤推理的整體進展結構。

但高分路徑和低分路徑的注意力重點有著顯著差異。在高分路徑中，[STOP]更多地關注邏輯轉折點——比如"don't"（不）、"doesn't"（不是）這類否定詞，這些詞往往出現在AI進行自我糾正的關鍵時刻，標誌著推理過程中的深度思考。在低分路徑中，[STOP]的注意力則過早地集中在了最終答案選項本身（比如"B"或"C"）上，而忽略了中間的推理過程。STOP將這種"跳過推理直接盯答案"的模式判定為"不靠譜"的信號，因為它意味著這條路徑沒有經過紮實的邏輯推導，更像是在猜答案。

這個發現說明STOP學會的是一種"過程導向"的評價方式：它更看重推理的邏輯完整性，而不僅僅是最終落在哪個答案上。

---

說到底，這項研究幹了一件聽起來簡單但實際上很有價值的事：教AI學會"早點放棄沒希望的想法"。在我們日常生活中，這其實是很普通的常識——做題時發現思路不對就應該儘早換方向，而不是一條死路走到底。但讓AI掌握這種判斷力，並且做得又快又准，並不是件容易的事。

研究團隊通過系統分類、找到空白、填補空白的方式，構建出了STOP這套方案。它不需要額外的大模型來當"閱卷老師"，也不依賴粗糙的文字相似度規則，而是直接讀懂AI自己的內部狀態，用一個輕量級的插件式模組，以不到1%的額外時間開銷，讓答案質量顯著提升、算力消耗大幅下降。

對普通用戶而言，這意味著未來使用AI解決複雜問題時，同樣的算力預算可以換來更高的準確率；或者說，達到同樣的準確率，花費可以大幅降低。當然，研究團隊也坦誠地指出了尚未解決的問題，比如在更大規模模型（700億參數以上）和更大採樣量（1000條以上路徑）場景下的表現還未經過驗證，以及目前只支持固定位置的單階段剪枝，尚未探索在推理過程中多個時間點分級篩選的策略。

贊助商廣告

這些問題留給了後來的研究者，而這本身也是一篇好論文應有的樣子——解決了一個真實的問題，同時清晰地指出了下一步可以走的方向。有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.16029查閱完整原文。

---

Q&A

Q1：STOP方法需要對原來的AI推理模型做什麼改動嗎？

A：STOP不改動原有的AI推理模型，原模型的參數全程保持凍結狀態。STOP以插件形式接入，只訓練一個輕量級的LoRA適配器和分類頭，以及一個新加入詞彙表的特殊標記[STOP]。推理時，STOP復用已有的KV緩存完成評分，額外時間開銷不到原始生成時間的1%。

Q2：路徑剪枝會不會誤殺本來正確的推理路徑，導致答案變差？

A：存在這種風險，但STOP通過蒙特卡洛軟標籤訓練，學到的是路徑的"成功概率"而非單次對錯。實驗結果顯示，在幾乎所有測試場景中，剪枝後篩選出的路徑集合質量高於不剪枝時的全部路徑集合，平均準確率普遍有所提升，說明誤殺的損失遠小於去除壞路徑帶來的收益。

Q3：STOP的訓練數據是怎麼來的，普通研究者能自己復現嗎？

A：訓練數據由研究團隊通過對AIME競賽題和GPQA科學問答題進行蒙特卡洛採樣構建，每個前綴跑32次續寫來估算成功概率。這個構建過程對於20B模型大約需要8張H100顯卡運行76小時，一次性成本較高。研究團隊已承諾開放構建好的數據集和訓練好的模型權重，普通研究者可以直接下載使用，無需自行重複數據構建過程。