這項由喬治亞理工學院、加州大學伯克利分校、斯坦福大學與微軟聯合開展的研究,於2026年5月19日以預印本形式發布在arXiv平台,編號為arXiv:2605.20075。感興趣的讀者可以通過該編號檢索到完整論文。
說起人工智慧怎麼"思考",你可能以為它跟人一樣——先在腦子裡想清楚,再開口說答案。事實上,目前主流的大語言模型確實是這樣做的:面對一道題,先洋洋灑灑寫出一大段推理過程,再給出最終答案。這種方式被稱為"鏈式思維"(Chain-of-Thought,CoT)。
但這套流程有個你可能沒想到的尷尬:很多時候,模型其實早就"心裡有數"了,卻還在裝模作樣地走完整個推理流程。就像一個學生明明一眼就看出答案是42,卻還要在草稿紙上演算半頁,才肯動筆寫答案。研究人員把這種現象叫做"表演性推理"——推理過程是做給別人看的,不是真的必要。
這個問題帶來的代價是實實在在的:模型每多輸出一個詞,都要消耗時間和計算資源。在實際應用中,用戶等待的時間也會相應拉長。能不能讓模型更聰明一點,該簡潔時簡潔,該深思時深思?來自上述四所頂尖機構的研究團隊給出了他們的答案,並將這套新方法命名為CopT(Contrastive On-Policy Thinking,對比式在策思考)。
一、先說答案,再決定要不要思考
CopT的核心思路可以用一個生活場景來理解。假設你是一位經驗豐富的老醫生,病人進來描述症狀,你掃一眼就有了初步判斷。這時候有兩條路:如果你對這個判斷很有把握,就直接告訴病人;如果你心裡沒底,才會進一步問診、做檢查,然後修正或確認最初的判斷。
CopT讓AI也採用這套邏輯。模型拿到問題後,先直接給出一個"草稿答案",跳過漫長的推理環節。然後,系統會評估這個草稿答案靠不靠譜。如果靠譜,直接輸出,省時省力;如果不靠譜,再啟動後續的推理過程,對草稿答案進行反思和修正。
這與傳統的CoT恰好相反——CoT是"先思考,後回答",而CopT是"先回答,後(按需)思考"。這個順序的調換,帶來了兩個直接好處:用戶可以更快看到答案的初步版本,而且對於那些模型本就掌握的簡單問題,可以大幅減少不必要的推理開銷。
不過,這個方案立刻引出了兩個繞不開的問題:怎麼判斷草稿答案是否可信?以及,一旦啟動後續推理,應該如何利用那個也許不太可靠的草稿答案?這兩個問題,正是CopT需要解決的核心難題。
二、用"平行宇宙"來衡量答案的可信度
為了評估草稿答案靠不靠譜,CopT發明了一套頗為巧妙的檢驗機制,核心思路是:用兩種不同的方式"回放"模型的生成過程,看看結果有多大差異。
正常情況下,模型生成文字時,每次只挑一個最可能的詞,然後把這個已經確定的詞作為下一步的輸入繼續生成。這就像走迷宮時,每到一個路口只選一條路,之後就再也看不到其他岔路了。
但實際上,在模型"心裡",每個位置上並不是只有一個選項,而是有一整張概率分布表——所有可能的詞都有對應的概率值。CopT的做法是,把這張概率分布表本身轉換成一個"軟性輸入"(連續嵌入),送回模型,讓模型在保留所有可能性的狀態下重新生成同一段答案。
你可以把它理解為:第一次是模型在"已做決定"的狀態下重新讀自己的答案;第二次是模型在"還沒做決定、所有可能性都還懸著"的狀態下重新讀同一段答案。如果這兩種狀態下,模型對同一段答案的支持程度差不多,說明草稿答案比較可靠——無論模型在每個步驟上"可能走哪條路",最終都傾向於給出類似的答案。如果差異很大,說明那些"未走的路"會導致截然不同的結果,草稿答案就值得懷疑。
這個差異被量化為一個叫做κ_a的分數,數學上它是兩種分布之間的"逆向KL散度"的歸一化估計。分數越高,說明草稿答案越不可靠,越需要後續推理來糾正;分數低於某個閾值τ_a,模型就可以放心地直接採納草稿答案。
研究團隊還對這個機制給出了嚴格的理論解釋:在一定假設條件下,這個估計值的期望等於"潛在狀態"與"答案詞"之間的互資訊。用人話說,這個分數衡量的不是模型"整體上有多不確定",而是模型的不確定性是否真的會影響到答案本身。如果模型心裡有多種可能的推理路徑,但所有路徑都會導向同一個答案,那分數就會很低,草稿答案依然可信。只有當不同推理路徑會導致不同答案時,分數才會升高,觸發後續推理。
三、推理時,要不要讓模型"看見"自己的草稿答案
一旦κ_a超過閾值,說明草稿答案不夠可靠,CopT會觸發後續的在策思考(on-policy thinking)階段。此時模型會重新進入"思考模式",基於問題和草稿答案展開推理,試圖驗證、修正或推翻最初的判斷。
但這裡有個微妙的兩難困境:草稿答案雖然不夠可靠,但也許包含部分有用資訊,完全忽略它可能是種浪費;然而,如果整個推理過程都盯著這個有問題的草稿答案,模型可能會被它帶歪,越想越偏。
CopT的解法是動態控制草稿答案的"可見性"。推理過程被切分成一段一段的"思考塊"(chunk),每段結束時,系統會用類似的對比機制評估當前這段推理的穩定程度,得到一個分數κ_r。如果這段推理比較穩定(κ_r低於閾值τ_r),說明模型當前的思路比較清晰,可以讓它看見草稿答案,利用其中可能有價值的資訊;如果這段推理比較混亂(κ_r超過閾值),說明模型當前狀態容易受干擾,就把草稿答案"藏起來",讓模型在不受其影響的情況下獨立推理。
這個機制的效果可以從實驗數據中直接觀察到:當τ_r設置得越嚴格(草稿越少暴露),模型在後續推理中能糾正的初始錯誤就越多。這說明,當推理狀態不穩定時,草稿答案的可見性確實會起到負面作用,阻礙模型自我糾錯。而在推理狀態穩定時,適度暴露草稿答案則可以提供有用的資訊支撐。
從實現角度看,κ_a和κ_r都是在模型正常生成文字的過程中順帶計算的,生成時緩存的概率值和連續嵌入被復用,額外開銷很小。
四、在數學、編程和智能體任務上的表現
研究團隊在10個基準測試上對CopT進行了系統評估,覆蓋數學推理(GSM8K、Math500、AIME 2024、AIME 2025、GPQA Diamond)、編程推理(HumanEval、MBPP、LeetCode競賽題)以及智能體推理(BFCL v4、ZebraArena多輪交互),並在Qwen3和Qwen3.5系列的2B、8B、35B多個規模模型上進行了驗證。
在數學任務上,CopT展現出雙重優勢。對於比較簡單的題目,CopT允許可靠的草稿答案直接被採納,大幅削減了不必要的推理開銷。以GSM8K(小學奧數級別的數學題)為例,CopT在準確率持平甚至小幅提升的前提下,把生成的詞數減少了55%以上,實際推理延遲降低了37%。Math500上也有類似表現,詞數減少約28%,延遲降低20%。
對於更難的題目,CopT通過激活後續推理獲得了精度提升。在AIME 2024(美國數學邀請賽)上,準確率提升了3.34個百分點;在AIME 2025上提升了2.92個百分點。這類題目對模型來說本就容易出錯,草稿答案的不可靠率更高,觸發修正推理的機會也更多。
編程任務上的改善同樣顯著。HumanEval(Python編程題)上,CopT在減少57%詞數的同時,準確率提升了1.83個百分點;若進一步增加推理強度,準確率最高可提升3.66個百分點。LeetCode競賽難題集上,CopT的整體準確率從59.44%提升至66.11%,其中最難題目的準確率從43.18%跳升至54.55%,絕對提升超過11個百分點。
智能體推理任務上,CopT在單輪函數調用基準BFCL v4上,2B模型減少40.6%的詞數、35B模型減少44.7%的詞數,同時準確率均有小幅提升。在多輪交互的ZebraArena基準上,效果隨問題複雜度增加而愈發明顯:小規模問題準確率提升2.98個百分點,中等規模提升13.14個百分點,大規模問題準確率更是提升了23.03個百分點,詞數也相應減少了近20%。這意味著在需要多輪對話和工具調用的複雜智能體場景中,CopT的優勢會隨著交互輪次積累而不斷放大。
五、與其他"連續空間"推理方法的對比
近年來,學界還有另一條提升推理效率的技術路線:讓模型在推理時不輸出人類可讀的文字,而是直接在連續向量空間中"思考",這類方法被稱為潛在推理(Latent Reasoning)或連續思維(Continuous CoT)。代表方法包括Soft-Thinking和SwiReasoning。
這些方法的優勢在於,連續空間可以編碼更豐富的不確定性資訊,比離散詞語承載的資訊量更大。但它們也有明顯的副作用:推理過程不再是人類可讀的自然語言,用戶無法檢查模型的推理是否合理;此外,直接使用連續嵌入生成還會面臨分布漂移(模型可能逐漸"飄"到訓練時沒見過的表示空間)和多樣性退化等問題。
CopT選擇了一條折中路線:推理全程保持自然語言的可讀性,只在"驗證答案可靠性"這個特定環節借用連續嵌入的資訊優勢,而不用它來生成內容。結果是,CopT在詞數相近或更少的情況下,準確率超過了Soft-Thinking和SwiReasoning。以Qwen3-8B為例,與SwiReasoning相比,CopT在GSM8K上減少18.3%詞數的同時提升0.30%準確率;在HumanEval上減少36.4%詞數同時提升0.61%準確率;在GPQA Diamond上減少18.0%詞數同時提升0.51%準確率。與此同時,CopT的推理過程完全可讀,用戶可以完整看到模型的思考鏈路。
六、兩個控制旋鈕,一條準確率-效率曲線
CopT提供了兩個可以靈活調節的參數:草稿答案的可信度閾值τ_a和推理穩定性閾值τ_r。
把τ_a調低(更容易接受草稿答案),模型會更頻繁地跳過後續推理,詞數大幅減少,但準確率可能略有下降;把τ_a調高,更多草稿答案會被視為不可靠而觸發推理,準確率可以進一步提升,代價是更多詞數消耗。把τ_r調低(推理時更少暴露草稿答案),自我糾錯能力增強;調高則允許模型更多地參考草稿答案中可能存在的有效資訊。
這意味著用戶可以根據實際需求靈活控制準確率與效率之間的權衡——對於實時性要求高的場景,可以偏向效率;對於精度要求高的場景,可以偏向準確率。實驗中,通過調整這兩個參數繪製出的準確率-詞數曲線顯示,CopT的效率邊界整體優於標準CoT,即在相同詞數下能達到更高準確率,或在相同準確率下消耗更少詞數。
七、可信度估計器真的有區分能力嗎
研究團隊專門對κ_a的區分能力進行了消融實驗,將其與"隨機選一批答案觸發推理"的均勻分配策略進行對比。結果顯示,隨著τ_a變嚴格,CopT選中的"不可靠答案"中,真正包含錯誤的比例(精確率)會持續上升,而均勻分配策略的精確率則始終在低位徘徊、幾乎沒有識別能力。換句話說,κ_a確實捕捉到了真實的答案不確定性,而不是隨機噪聲。
在草稿答案可見性控制的消融實驗中,當τ_r設置為始終暴露草稿答案時,能被糾正的錯誤數量最少;隨著τ_r變嚴格,逐步減少草稿答案的可見性,被成功糾正的錯誤數量穩步增加。這直接說明,在推理不穩定時讓模型"看見"自己的錯誤草稿,確實會阻礙自我糾正。
研究團隊還測試了計算κ_a時使用的文本範圍:默認設置是在整個草稿答案上計算,而如果只在最終答案內容(如數學題中被`oxed{}`包裹的部分)上計算,準確率可以進一步提升、詞數進一步減少。這表明更精準的答案定位能提供更有效的可靠性估計,但由於不是所有任務都能方便地提取出答案區域,研究團隊在所有實驗中統一使用了全草稿計算的默認設置,以保證跨任務的通用性。
此外,最大草稿長度的設置(默認1024個詞)同樣經過了消融驗證。實驗表明這個上限主要起到"防止草稿階段失控蔓延"的保護作用,並非敏感的性能超參數:在GSM8K上,1024的默認設置達到最佳精度-效率組合;Math500上,適當縮短上限能帶來額外提升;但放寬到2048反而沒有幫助。
說到底,CopT做的事情用一句話概括就是:讓AI學會"先亮底牌,再看需不需要復盤"。這套邏輯聽起來簡單,實現起來卻需要一套精心設計的信號——連續嵌入充當了這個信號源,讓模型能夠在不額外訓練的情況下,從自身的推理過程中提取出可靠性資訊。
對普通用戶而言,這意味著未來使用AI助手時,簡單的問題會得到更快的回覆,而複雜的問題依然能獲得深思熟慮的答案,而不是兩種情況都要等一樣長的時間。對AI開發者而言,CopT提供了一個無需重新訓練模型、直接在推理階段部署的優化方案,成本極低。
當然,這套方案也有其局限:κ估計是基於單次生成路徑的,理論上比多次採樣的估計方差更高;它還需要模型能夠輸出完整的概率分布(即logits),對於只返回文本的封閉API暫時難以適用。不過這些都是未來可以進一步改進的方向。有興趣深入了解技術細節的讀者,可以通過arXiv編號arXiv:2605.20075查閱完整論文,代碼也已在GitHub上公開發布(https://github.com/sdc17/CopT)。
---
Q&A
Q1:CopT和普通的鏈式思維(CoT)有什麼本質區別?
A:傳統CoT強制模型先寫出完整推理過程再給答案,而CopT反其道而行之——先給出一個草稿答案,再用一套基於連續嵌入的對比機制判斷這個答案是否可信,只在不可信時才觸發後續推理。這樣對簡單問題可以大幅節省詞數,對難題則通過動態推理提升準確率。
Q2:CopT需要重新訓練大語言模型嗎?
A:不需要。CopT是一種完全無需訓練的推理階段方法,直接應用於現有模型的推理過程中。它通過在正常生成時順帶緩存概率分布和連續嵌入,再做一次對比計算來評估可靠性,額外計算開銷很小,不改變模型本身的任何參數。
Q3:CopT在哪類任務上效果最明顯?
A:CopT在兩類場景下效果最突出:一是簡單任務(如基礎數學題、常規編程題),模型本就知道答案,CopT可以跳過推理直接給出,詞數減少幅度可達55%以上;二是需要多輪交互的複雜智能體任務,如ZebraArena大規模問題,準確率提升可達23個百分點,因為推理質量的改善在多輪對話中會持續積累放大。






