喬治理工、UC伯克利、斯坦福聯手出招：讓AI先說答案再思考，推理速度提升近一倍

這項由喬治亞理工學院、加州大學伯克利分校、斯坦福大學與微軟聯合開展的研究，於2026年5月19日以預印本形式發布在arXiv平台，編號為arXiv:2605.20075。感興趣的讀者可以通過該編號檢索到完整論文。

贊助商廣告

說起人工智慧怎麼"思考"，你可能以為它跟人一樣——先在腦子裡想清楚，再開口說答案。事實上，目前主流的大語言模型確實是這樣做的：面對一道題，先洋洋灑灑寫出一大段推理過程，再給出最終答案。這種方式被稱為"鏈式思維"（Chain-of-Thought，CoT）。

但這套流程有個你可能沒想到的尷尬：很多時候，模型其實早就"心裡有數"了，卻還在裝模作樣地走完整個推理流程。就像一個學生明明一眼就看出答案是42，卻還要在草稿紙上演算半頁，才肯動筆寫答案。研究人員把這種現象叫做"表演性推理"——推理過程是做給別人看的，不是真的必要。

這個問題帶來的代價是實實在在的：模型每多輸出一個詞，都要消耗時間和計算資源。在實際應用中，用戶等待的時間也會相應拉長。能不能讓模型更聰明一點，該簡潔時簡潔，該深思時深思？來自上述四所頂尖機構的研究團隊給出了他們的答案，並將這套新方法命名為CopT（Contrastive On-Policy Thinking，對比式在策思考）。

一、先說答案，再決定要不要思考

CopT的核心思路可以用一個生活場景來理解。假設你是一位經驗豐富的老醫生，病人進來描述症狀，你掃一眼就有了初步判斷。這時候有兩條路：如果你對這個判斷很有把握，就直接告訴病人；如果你心裡沒底，才會進一步問診、做檢查，然後修正或確認最初的判斷。

CopT讓AI也採用這套邏輯。模型拿到問題後，先直接給出一個"草稿答案"，跳過漫長的推理環節。然後，系統會評估這個草稿答案靠不靠譜。如果靠譜，直接輸出，省時省力；如果不靠譜，再啟動後續的推理過程，對草稿答案進行反思和修正。

贊助商廣告

這與傳統的CoT恰好相反——CoT是"先思考，後回答"，而CopT是"先回答，後（按需）思考"。這個順序的調換，帶來了兩個直接好處：用戶可以更快看到答案的初步版本，而且對於那些模型本就掌握的簡單問題，可以大幅減少不必要的推理開銷。

不過，這個方案立刻引出了兩個繞不開的問題：怎麼判斷草稿答案是否可信？以及，一旦啟動後續推理，應該如何利用那個也許不太可靠的草稿答案？這兩個問題，正是CopT需要解決的核心難題。

二、用"平行宇宙"來衡量答案的可信度

為了評估草稿答案靠不靠譜，CopT發明了一套頗為巧妙的檢驗機制，核心思路是：用兩種不同的方式"回放"模型的生成過程，看看結果有多大差異。

正常情況下，模型生成文字時，每次只挑一個最可能的詞，然後把這個已經確定的詞作為下一步的輸入繼續生成。這就像走迷宮時，每到一個路口只選一條路，之後就再也看不到其他岔路了。

但實際上，在模型"心裡"，每個位置上並不是只有一個選項，而是有一整張概率分布表——所有可能的詞都有對應的概率值。CopT的做法是，把這張概率分布表本身轉換成一個"軟性輸入"（連續嵌入），送回模型，讓模型在保留所有可能性的狀態下重新生成同一段答案。

你可以把它理解為：第一次是模型在"已做決定"的狀態下重新讀自己的答案；第二次是模型在"還沒做決定、所有可能性都還懸著"的狀態下重新讀同一段答案。如果這兩種狀態下，模型對同一段答案的支持程度差不多，說明草稿答案比較可靠——無論模型在每個步驟上"可能走哪條路"，最終都傾向於給出類似的答案。如果差異很大，說明那些"未走的路"會導致截然不同的結果，草稿答案就值得懷疑。

這個差異被量化為一個叫做κ_a的分數，數學上它是兩種分布之間的"逆向KL散度"的歸一化估計。分數越高，說明草稿答案越不可靠，越需要後續推理來糾正；分數低於某個閾值τ_a，模型就可以放心地直接採納草稿答案。

贊助商廣告

研究團隊還對這個機制給出了嚴格的理論解釋：在一定假設條件下，這個估計值的期望等於"潛在狀態"與"答案詞"之間的互資訊。用人話說，這個分數衡量的不是模型"整體上有多不確定"，而是模型的不確定性是否真的會影響到答案本身。如果模型心裡有多種可能的推理路徑，但所有路徑都會導向同一個答案，那分數就會很低，草稿答案依然可信。只有當不同推理路徑會導致不同答案時，分數才會升高，觸發後續推理。

三、推理時，要不要讓模型"看見"自己的草稿答案

一旦κ_a超過閾值，說明草稿答案不夠可靠，CopT會觸發後續的在策思考（on-policy thinking）階段。此時模型會重新進入"思考模式"，基於問題和草稿答案展開推理，試圖驗證、修正或推翻最初的判斷。

但這裡有個微妙的兩難困境：草稿答案雖然不夠可靠，但也許包含部分有用資訊，完全忽略它可能是種浪費；然而，如果整個推理過程都盯著這個有問題的草稿答案，模型可能會被它帶歪，越想越偏。

CopT的解法是動態控制草稿答案的"可見性"。推理過程被切分成一段一段的"思考塊"（chunk），每段結束時，系統會用類似的對比機制評估當前這段推理的穩定程度，得到一個分數κ_r。如果這段推理比較穩定（κ_r低於閾值τ_r），說明模型當前的思路比較清晰，可以讓它看見草稿答案，利用其中可能有價值的資訊；如果這段推理比較混亂（κ_r超過閾值），說明模型當前狀態容易受干擾，就把草稿答案"藏起來"，讓模型在不受其影響的情況下獨立推理。

這個機制的效果可以從實驗數據中直接觀察到：當τ_r設置得越嚴格（草稿越少暴露），模型在後續推理中能糾正的初始錯誤就越多。這說明，當推理狀態不穩定時，草稿答案的可見性確實會起到負面作用，阻礙模型自我糾錯。而在推理狀態穩定時，適度暴露草稿答案則可以提供有用的資訊支撐。

贊助商廣告

從實現角度看，κ_a和κ_r都是在模型正常生成文字的過程中順帶計算的，生成時緩存的概率值和連續嵌入被復用，額外開銷很小。

四、在數學、編程和智能體任務上的表現

研究團隊在10個基準測試上對CopT進行了系統評估，覆蓋數學推理（GSM8K、Math500、AIME 2024、AIME 2025、GPQA Diamond）、編程推理（HumanEval、MBPP、LeetCode競賽題）以及智能體推理（BFCL v4、ZebraArena多輪交互），並在Qwen3和Qwen3.5系列的2B、8B、35B多個規模模型上進行了驗證。

在數學任務上，CopT展現出雙重優勢。對於比較簡單的題目，CopT允許可靠的草稿答案直接被採納，大幅削減了不必要的推理開銷。以GSM8K（小學奧數級別的數學題）為例，CopT在準確率持平甚至小幅提升的前提下，把生成的詞數減少了55%以上，實際推理延遲降低了37%。Math500上也有類似表現，詞數減少約28%，延遲降低20%。

對於更難的題目，CopT通過激活後續推理獲得了精度提升。在AIME 2024（美國數學邀請賽）上，準確率提升了3.34個百分點；在AIME 2025上提升了2.92個百分點。這類題目對模型來說本就容易出錯，草稿答案的不可靠率更高，觸發修正推理的機會也更多。

編程任務上的改善同樣顯著。HumanEval（Python編程題）上，CopT在減少57%詞數的同時，準確率提升了1.83個百分點；若進一步增加推理強度，準確率最高可提升3.66個百分點。LeetCode競賽難題集上，CopT的整體準確率從59.44%提升至66.11%，其中最難題目的準確率從43.18%跳升至54.55%，絕對提升超過11個百分點。

智能體推理任務上，CopT在單輪函數調用基準BFCL v4上，2B模型減少40.6%的詞數、35B模型減少44.7%的詞數，同時準確率均有小幅提升。在多輪交互的ZebraArena基準上，效果隨問題複雜度增加而愈發明顯：小規模問題準確率提升2.98個百分點，中等規模提升13.14個百分點，大規模問題準確率更是提升了23.03個百分點，詞數也相應減少了近20%。這意味著在需要多輪對話和工具調用的複雜智能體場景中，CopT的優勢會隨著交互輪次積累而不斷放大。

贊助商廣告

五、與其他"連續空間"推理方法的對比

近年來，學界還有另一條提升推理效率的技術路線：讓模型在推理時不輸出人類可讀的文字，而是直接在連續向量空間中"思考"，這類方法被稱為潛在推理（Latent Reasoning）或連續思維（Continuous CoT）。代表方法包括Soft-Thinking和SwiReasoning。

這些方法的優勢在於，連續空間可以編碼更豐富的不確定性資訊，比離散詞語承載的資訊量更大。但它們也有明顯的副作用：推理過程不再是人類可讀的自然語言，用戶無法檢查模型的推理是否合理；此外，直接使用連續嵌入生成還會面臨分布漂移（模型可能逐漸"飄"到訓練時沒見過的表示空間）和多樣性退化等問題。

CopT選擇了一條折中路線：推理全程保持自然語言的可讀性，只在"驗證答案可靠性"這個特定環節借用連續嵌入的資訊優勢，而不用它來生成內容。結果是，CopT在詞數相近或更少的情況下，準確率超過了Soft-Thinking和SwiReasoning。以Qwen3-8B為例，與SwiReasoning相比，CopT在GSM8K上減少18.3%詞數的同時提升0.30%準確率；在HumanEval上減少36.4%詞數同時提升0.61%準確率；在GPQA Diamond上減少18.0%詞數同時提升0.51%準確率。與此同時，CopT的推理過程完全可讀，用戶可以完整看到模型的思考鏈路。

六、兩個控制旋鈕，一條準確率-效率曲線

CopT提供了兩個可以靈活調節的參數：草稿答案的可信度閾值τ_a和推理穩定性閾值τ_r。

把τ_a調低（更容易接受草稿答案），模型會更頻繁地跳過後續推理，詞數大幅減少，但準確率可能略有下降；把τ_a調高，更多草稿答案會被視為不可靠而觸發推理，準確率可以進一步提升，代價是更多詞數消耗。把τ_r調低（推理時更少暴露草稿答案），自我糾錯能力增強；調高則允許模型更多地參考草稿答案中可能存在的有效資訊。

這意味著用戶可以根據實際需求靈活控制準確率與效率之間的權衡——對於實時性要求高的場景，可以偏向效率；對於精度要求高的場景，可以偏向準確率。實驗中，通過調整這兩個參數繪製出的準確率-詞數曲線顯示，CopT的效率邊界整體優於標準CoT，即在相同詞數下能達到更高準確率，或在相同準確率下消耗更少詞數。

贊助商廣告

七、可信度估計器真的有區分能力嗎

研究團隊專門對κ_a的區分能力進行了消融實驗，將其與"隨機選一批答案觸發推理"的均勻分配策略進行對比。結果顯示，隨著τ_a變嚴格，CopT選中的"不可靠答案"中，真正包含錯誤的比例（精確率）會持續上升，而均勻分配策略的精確率則始終在低位徘徊、幾乎沒有識別能力。換句話說，κ_a確實捕捉到了真實的答案不確定性，而不是隨機噪聲。

在草稿答案可見性控制的消融實驗中，當τ_r設置為始終暴露草稿答案時，能被糾正的錯誤數量最少；隨著τ_r變嚴格，逐步減少草稿答案的可見性，被成功糾正的錯誤數量穩步增加。這直接說明，在推理不穩定時讓模型"看見"自己的錯誤草稿，確實會阻礙自我糾正。

研究團隊還測試了計算κ_a時使用的文本範圍：默認設置是在整個草稿答案上計算，而如果只在最終答案內容（如數學題中被`oxed{}`包裹的部分）上計算，準確率可以進一步提升、詞數進一步減少。這表明更精準的答案定位能提供更有效的可靠性估計，但由於不是所有任務都能方便地提取出答案區域，研究團隊在所有實驗中統一使用了全草稿計算的默認設置，以保證跨任務的通用性。

此外，最大草稿長度的設置（默認1024個詞）同樣經過了消融驗證。實驗表明這個上限主要起到"防止草稿階段失控蔓延"的保護作用，並非敏感的性能超參數：在GSM8K上，1024的默認設置達到最佳精度-效率組合；Math500上，適當縮短上限能帶來額外提升；但放寬到2048反而沒有幫助。

說到底，CopT做的事情用一句話概括就是：讓AI學會"先亮底牌，再看需不需要復盤"。這套邏輯聽起來簡單，實現起來卻需要一套精心設計的信號——連續嵌入充當了這個信號源，讓模型能夠在不額外訓練的情況下，從自身的推理過程中提取出可靠性資訊。

對普通用戶而言，這意味著未來使用AI助手時，簡單的問題會得到更快的回覆，而複雜的問題依然能獲得深思熟慮的答案，而不是兩種情況都要等一樣長的時間。對AI開發者而言，CopT提供了一個無需重新訓練模型、直接在推理階段部署的優化方案，成本極低。

贊助商廣告

當然，這套方案也有其局限：κ估計是基於單次生成路徑的，理論上比多次採樣的估計方差更高；它還需要模型能夠輸出完整的概率分布（即logits），對於只返回文本的封閉API暫時難以適用。不過這些都是未來可以進一步改進的方向。有興趣深入了解技術細節的讀者，可以通過arXiv編號arXiv:2605.20075查閱完整論文，代碼也已在GitHub上公開發布（https://github.com/sdc17/CopT）。

---

Q&A

Q1：CopT和普通的鏈式思維（CoT）有什麼本質區別？

A：傳統CoT強制模型先寫出完整推理過程再給答案，而CopT反其道而行之——先給出一個草稿答案，再用一套基於連續嵌入的對比機制判斷這個答案是否可信，只在不可信時才觸發後續推理。這樣對簡單問題可以大幅節省詞數，對難題則通過動態推理提升準確率。

Q2：CopT需要重新訓練大語言模型嗎？

A：不需要。CopT是一種完全無需訓練的推理階段方法，直接應用於現有模型的推理過程中。它通過在正常生成時順帶緩存概率分布和連續嵌入，再做一次對比計算來評估可靠性，額外計算開銷很小，不改變模型本身的任何參數。

Q3：CopT在哪類任務上效果最明顯？

A：CopT在兩類場景下效果最突出：一是簡單任務（如基礎數學題、常規編程題），模型本就知道答案，CopT可以跳過推理直接給出，詞數減少幅度可達55%以上；二是需要多輪交互的複雜智能體任務，如ZebraArena大規模問題，準確率提升可達23個百分點，因為推理質量的改善在多輪對話中會持續積累放大。