當AI「答對了卻還在嘮叨」：新加坡科技設計大學等機構揭示訓練數據中的隱形陷阱

這項由新加坡科技設計大學、新加坡管理大學與電子科技大學聯合開展的研究，以預印本形式發表於2026年5月，論文編號為arXiv:2605.29288。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**一、一個讓人頭疼的怪現象**

假設你正在培訓一批新員工解題，你給他們看了大量的解題示範。這些示範全都得到了正確答案，按理說應該是很好的學習材料。然而，有些員工學完之後表現得很好，另一些員工學完之後表現卻差得多——而他們看的範例答案都是對的。

這個困惑，正是這篇論文要解決的核心問題。只不過這裡的"員工"是大型語言模型（也就是類似ChatGPT的AI系統），而那些"解題示範"是所謂的"長鏈式思維軌跡"（Long Chain-of-Thought traces），簡單說就是AI在回答問題時寫下的一長串推理過程。

答案對了，推理過程也對了，為什麼訓練效果還是天壤之別？研究團隊經過深入調查，發現了一個此前沒人系統研究過的隱藏問題：有些推理過程在給出正確答案之後，還在繼續喋喋不休地推理、驗證、反覆確認……這部分"多餘的尾巴"，就是讓訓練效果變差的罪魁禍首。研究團隊把這種現象命名為"有害延續當AI答對了卻還在嘮叨新加坡科技設計大學等機構揭示訓練數據中的隱形陷阱 "（Harmful Continuation）。

**二、推理"尾巴"究竟是什麼**

要理解這個問題，可以把AI的推理過程想像成一個偵探破案的故事。偵探（AI）收到一道數學題，開始一步步分析線索，最終鎖定了嫌疑人（得出正確答案）。正常情況下，案子破了，故事結束。

但"有害延續"的情況是這樣的：案子其實已經破了，嫌疑人也已經被明確指認，但偵探還在繼續翻箱倒櫃、反覆查閱已經看過的證據、重新梳理早就確認過的線索，甚至開始懷疑自己之前的結論，轉而得出一個互相矛盾的結果——然後又重新驗證一遍，再驗證一遍……這段多餘的"偵查過程"，雖然最終沒有改變案件結論，卻占據了大量篇幅，而且充滿了混亂和不確定性。

贊助商廣告

當AI在訓練時把這整段記錄（包括那條又長又亂的"尾巴"）當作學習範本，它就會學到一種壞習慣：即使已經有了答案，也要繼續繞圈子、反覆自我質疑。這就是為什麼訓練出來的模型表現會下降。

研究團隊特別強調，他們的結論並不是說"推理越短越好"，也不是說所有的長推理都有問題。真正的問題在於：當推理過程已經充分支撐了正確答案之後，那些繼續運行的額外推理步驟，在特定條件下會對訓練產生負面影響。

**三、研究團隊是怎麼發現這個問題的**

為了證明這個推斷，研究團隊設計了一套非常精巧的實驗方案。他們使用了兩個當前最先進的AI模型——Qwen3-235B和DeepSeek-R1——來生成大量的推理軌跡，總共收集了4780條答案正確的長推理樣本，作為研究對象。

接下來，他們引入了一個關鍵工具：一個"只刪不改"的編輯器（delete-only editor）。這個編輯器由另一個27B參數的AI模型（Qwen3.5-27B）擔任，它的任務非常明確：找出推理過程中那些在答案已經得到充分支撐之後仍然繼續的句子，並把它們標記為可以刪除的部分——但絕對不改寫、不替換原有內容，只是做刪除操作，同時保留原始的正確答案。

這種"只刪不改"的設計非常關鍵。如果編輯器可以重寫推理過程，那實驗結論就變成了"重寫後的內容更好用"，而不是"原來的尾巴有害"。通過只刪除而不修改，研究團隊能夠最乾淨地測試：把那條"尾巴"去掉之後，訓練效果是否真的會改善？

實驗結果非常清晰：在刪除了編輯器標記的後續內容之後，用這些處理過的推理軌跡訓練AI，所得到的模型在數學推理測試中的表現明顯優於用原始完整軌跡訓練的模型。這就是"有害延續"這一說法獲得實證支持的核心依據。

**四、從兩個角度解剖"有害尾巴"的特徵**

光知道"尾巴有害"還不夠，研究團隊進一步追問：這條"尾巴"究竟有什麼具體特徵，能讓我們識別它？他們從兩個不同的維度展開了診斷分析，就像偵探同時從心理畫像和行為軌跡兩個角度來刻畫嫌疑人。

贊助商廣告

第一個維度是"不確定性"視角。研究團隊使用一個專門的評估模型，來測量推理過程中每一步對於最終答案的支持程度。打一個形象的比方：如果把推理過程比作一條通向目標的山路，那"不確定性"就是路上的迷霧濃度——迷霧越濃，說明走這一步對到達目標的幫助越不清晰。

分析結果顯示，在編輯器保留的推理部分（稱為"保留推理"），迷霧雖然有時會短暫變濃，但總體上路越走越清晰，到達目標的預期逐漸變得確定。然而一旦進入被標記為可刪除的後續部分，情況發生了戲劇性的反轉：迷霧不僅沒有消散，反而越來越濃，而且路也越走越不像是在朝目標靠近。換句話說，這段推理讓AI越來越不確定自己的答案，而不是越來越確定。

第二個維度是"幾何進展"視角。這個視角更加抽象，但道理其實很直觀。研究人員借用了一種分析AI內部狀態變化的技術：每走一步推理，AI內部的"思維狀態"（用數學向量表示）都會發生一次移動。如果把這個過程比作在一張巨大地圖上的行軍，那"隱藏狀態位移"（hidden displacement）就是每一步邁出的步伐大小，而"前向進展"（forward progress）則是每一步實際向終點方向推進的距離。

對比兩組數據後，研究團隊發現：在保留推理部分，每一步都在紮實地向最終答案的方向推進，步伐有力；而在被刪除的後續部分，步伐變得細碎而虛浮，雖然也在走，但方向並不對準終點，很多精力被浪費在無效的"原地踏步"上。具體數字非常說明問題：保留推理的平均隱藏狀態位移是44.92，而可刪除部分只有21.91；前向進展分別是20.50和10.79。在79%的樣本中，被刪除的部分都比保留的部分表現更差。

把這兩個維度的發現合在一起，就構成了研究團隊所定義的"不確定性-幾何錯配當AI答對了卻還在嘮叨新加坡科技設計大學等機構揭示訓練數據中的隱形陷阱 "（uncertainty-geometry mismatch）：在那條有害的"尾巴"里，推理過程既在製造更多的混亂和不確定性，又沒有相應地在向答案方向取得更多進展。這兩件壞事同時發生，就是識別有害延續的核心特徵。

贊助商廣告

**五、一把輕便的"剪刀"：HCC方法的誕生**

發現了問題，下一步當然是想辦法解決它。然而，用一個27B參數的大模型來充當編輯器，在實際應用中代價太高——每處理一條訓練數據，都需要動用這麼大的算力，根本不現實。研究團隊因此設計了一個輕量級的替代方案，稱為"有害延續裁剪當AI答對了卻還在嘮叨新加坡科技設計大學等機構揭示訓練數據中的隱形陷阱 "（Harmful Continuation Cut，簡稱HCC）。

HCC的構思可以用一個類比來理解：你請了一位經驗豐富的大廚（27B編輯器）品嘗了大量菜餚並記下了哪些部分該扔掉，然後你訓練了一個小學徒（HCC），讓他看著大廚的示範學習判斷標準。這位小學徒只有498M參數，不到大廚的2%，但他通過學習大廚的判斷積累了識別"該扔掉的部分"的能力。

HCC的技術構成可以分三個層次來理解。第一層是"感知層"：HCC使用一個凍結的小型語言模型（Qwen2.5-0.5B-Instruct）來讀取整個推理過程，並在每個句子的結尾提取一個代表當前推理狀態的數學信號。這就像是學徒在品嘗每一道工序的半成品，記錄下當前的口感特徵。第二層是"診斷層"：HCC會同時估算兩個指標——當前這步推理的不確定性有多高，以及當前這步推理在幾何方向上的進展有多少。這正是對前面分析的"不確定性-幾何錯配"的直接運用。第三層是"決策層"：HCC把這兩個信號綜合起來，用一個專門訓練的"切割頭"（cut head）來預測：推理應該在哪個句子之後停止，後面的內容可以安全刪除。

為了讓HCC學得更好，研究團隊還在其內部加入了一種"連續潛在變量"機制，讓模型能夠感知推理步驟之間的順序關係，而不是孤立地判斷每一個句子。這就好比學徒不只是品嘗單獨的食材，而是理解整道菜從生到熟的演變過程，從而更準確地判斷何時應該停止加熱。

在計算成本上，HCC只需要2.5萬億次乘加運算（MACs），而27B編輯器需要137.1萬億次——節省了大約54倍的計算量。這使得大規模處理訓練數據成為可能。

贊助商廣告

**六、實驗效果：數字說話**

研究團隊在多個基準測試上驗證了HCC的效果，使用了兩種骨幹模型：一個是LLaMA3.2-3B（一個相對輕量的模型），另一個是Qwen2.5-Math-7B-Instruct（一個專門針對數學優化的模型），測試集包括MATH500、AMC23和GSM8K三個數學推理基準。

以LLaMA3.2-3B為例，直接用原始未處理的推理軌跡訓練（Vanilla），在MATH500上的得分是29.8，AMC23是10.0，GSM8K是69.0，平均36.3分。而用HCC處理後的軌跡訓練，三項分別提升至43.2、17.5、75.1，平均45.2分——提升幅度非常顯著。更重要的是，HCC的成績與使用27B大模型編輯器處理後的結果（平均45.7分）幾乎持平，在某些子項上甚至超過了大模型編輯器。這說明這個只有500M參數的輕量代理，確實學到了大模型判斷的核心邏輯。

與此形成對比的是"啟發式截斷"方法（Heuristic），也就是按照某些經驗規則簡單截短推理過程——這種方法的平均得分只有40.2，明顯低於HCC。這說明HCC的提升並不僅僅來自"把推理變短"，而是真的找到了該刪的地方。

為了進一步排除"只是變短了所以變好"這個可能性，研究團隊還設計了一個"隨機切割"（Random Cut）對照實驗：同樣保留答案、同樣刪除一段與HCC等長的推理尾部，但是隨機決定從哪裡開始刪。結果，隨機切割的平均得分只有29.0，遠低於HCC的49.3（此處使用的是{T}R數據集下的結果）。這個對比非常有力地說明：關鍵不是刪了多少，而是刪的位置對不對。

**七、效果的廣泛性驗證**

研究團隊並不滿足於僅在數學基準上驗證效果，他們進行了更廣泛的測試。

在非數學領域，他們在MMLU測試集上選取了六個不同學科（大學物理、大學生物、臨床醫學、職業心理學、高中統計學、高中生物），測試HCC訓練的模型在這些領域的表現。結果發現，即使是用數學推理數據訓練的模型，經過HCC處理後，在這些完全不同的知識型測試上的表現也優於未處理版本，且與大模型編輯器版本旗鼓相當。這意味著HCC帶來的改進不只是讓模型更擅長解數學題，而是讓模型整體的推理習慣變得更健康。

贊助商廣告

研究團隊還測試了HCC是否能夠跨模型家族遷移。他們用來自Qwen3-235B的推理軌跡訓練HCC，然後用訓練好的HCC去處理來自DeepSeek-R1的推理軌跡，反之亦然。結果顯示，HCC學到的判斷規則具有一定的通用性，不只是記住了某一個模型的特定風格。

此外，研究團隊還測試了HCC在強化學習（RL）階段的效果。具體做法是：先用HCC處理過的數據進行監督微調（SFT），再在此基礎上繼續做GRPO（一種強化學習方法）訓練，與直接用原始數據SFT後再做GRPO相比。結果顯示，從HCC-SFT出發的模型，在每個強化學習訓練步驟上的表現都持續優於從Vanilla-SFT出發的模型——在MATH500上，步驟40時分別是49.4對36.4。這說明訓練數據的質量影響會持續到後續的強化學習階段，起點好，終點也好。

**八、模型訓練後的行為變化**

研究團隊還做了一個非常有趣的"回溯診斷"：訓練完成後，讓各版本的模型去解答新問題，然後分析它們生成的推理過程是否還帶有"有害延續"的特徵。

結果顯示，用原始數據訓練的模型（Vanilla）在解答過程中，隨著推理的進行，答案NLL（不確定性的一種度量）會在後期急劇上升——這正是模型"學會了繞圈子"的表現。而用HCC或大模型編輯器處理過的數據訓練的模型，其生成的推理過程中，答案NLL保持了相當穩定的水平，幾乎沒有後期反彈。

從幾何角度看，Vanilla模型生成的推理在中後期出現了明顯的"高不確定性伴隨低幾何進展"的錯配模式；而HCC和編輯器版本的模型則將這種錯配壓縮到了接近零的水平，尤其在推理末尾的表現尤為明顯。兩條曲線（HCC與編輯器）幾乎重合，進一步印證了輕量級代理成功習得了大模型的判斷邏輯。

用HCC檢測器分析這些生成結果時也有類似發現：Vanilla模型生成的推理中，有81.73%被檢測為含有可刪除的後續延續模式，句子級別的占比高達51.84%；而HCC訓練的模型，這兩個數字分別降至60.42%和19.45%。

贊助商廣告

**九、一個生動的案例**

論文最後給出了一個具體的案例，非常直觀地展示了兩種模型的差異。題目是一道關於John開車回家的距離計算題：John先開了3小時（60英里/小時），然後因為忘了東西要返回，但塞車2小時沒動，接著開了半小時（30英里/小時），最後以80英里/小時駛完剩餘時間，問最終離家多遠。

用HCC數據訓練的模型表現像一個乾淨利落的偵探：清晰地拆解了四個階段，逐步計算每段距離和剩餘距離，很快得出正確答案45英里，乾淨利落地結束。

而用原始數據訓練的模型則像是陷入了強迫症：它先是正確地計算出了45英里，但隨即又從另一個角度重新計算，得出了315英里的結論——兩個結果互相矛盾。然後模型開始反覆比較兩個答案，用不同方法重新驗算時間分配，每次算出來都不一樣（315、175……），不停地質疑自己，反覆回頭檢查"John最初3小時的計算有沒有問題"。最終，這個模型在反覆循環中耗盡了允許輸出的最大長度，沒能給出最終答案。

這個案例非常直觀地說明了"有害延續"的危害：模型學會了在已有答案之後繼續無休止地探索，最終把自己繞進了死胡同。

**十、研究的邊界與局限**

研究團隊在論文中非常誠實地說明了這項工作的局限性，這是這項研究讓人信服的重要原因之一。

首先，"只刪不改"的編輯器給出的是一個"操作性"的邊界，而不是推理過程中"真正有害"的精確位置。換句話說，編輯器的標註代表的是"這部分可以刪掉而不影響恢復正確答案"，而不是"這部分一定對訓練有害"。

其次，不確定性和幾何進展的測量都是基於特定評估模型的代理指標，不是對推理過程"真實狀態"的直接測量。

此外，HCC學習的是逼近編輯器所標註的邊界，而不是在學習"何為本質性的有害"。更細粒度的成因分析是未來研究的方向。

最後，這項研究的所有實驗都基於數學推理場景，儘管MMLU實驗給出了一定的跨域泛化信號，但有害延續在其他類型推理任務（如代碼生成、常識推理等）中是否同樣存在，還有待進一步驗證。

贊助商廣告

歸根結底，這項研究揭示了一個此前被忽視的、隱藏在"正確答案"背後的訓練數據質量問題。它告訴我們，教AI學習推理，不只是要給它看"最終答對了"的例子，還要確保那些推理過程在答案成立之後能夠適時停止，而不是繼續無謂地繞圈子。這就像培訓一名偵探，不只是要讓他最終破案，還要教會他在鎖定嫌疑人之後停止無效的重複調查，把精力用在更值得做的事情上。

這項發現對AI訓練數據的篩選和處理方式有著實際的指導意義。隨著越來越多的AI系統依賴長鏈式推理來解決複雜問題，如何識別並去除這種"有害的推理尾巴"，將成為構建高質量訓練數據的重要一環。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.29288查閱完整論文。

---

Q&A

Q1：有害延續（Harmful Continuation）是什麼意思？

A：有害延續指的是AI推理過程中，在答案已經得到充分支撐之後仍然繼續運行的那段額外推理。這段多餘的"尾巴"雖然不影響最終答案的正確性，但會讓AI在訓練時學會不必要的反覆驗證和繞圈子的壞習慣，導致訓練出來的模型表現下降。

Q2：HCC方法和直接截短推理過程有什麼區別？

A：HCC是根據推理內容的質量來判斷在哪裡停止，而不是簡單地按照長度截斷。研究中的隨機切割實驗證明，同樣刪除相同長度的推理尾部，隨機位置刪除的平均得分只有29.0，而HCC能達到49.3。關鍵在於刪的位置對不對，而不是刪了多少。

Q3：用HCC處理過的訓練數據會影響AI在數學以外的能力嗎？

A：不會變差，反而會有所改善。研究團隊在MMLU測試集的多個學科（大學物理、臨床醫學、職業心理學等）上進行了測試，發現用HCC處理的數學推理數據訓練的模型，在這些非數學學科上的表現也優於用原始數據訓練的模型，說明去除有害延續對模型的整體推理質量有正面影響。