這項由加拿大不列顛哥倫比亞大學(University of British Columbia)奧卡納根校區電腦科學系主導的研究,以預印本形式於2026年5月7日發布在arXiv平台上,編號為arXiv:2606.27378v1,歸類於計算語言學(cs.CL)方向。
當你在使用ChatGPT或其他大語言模型時,有沒有想過一個問題:這些模型在給出答案之前,腦子裡到底發生了什麼?它們是真的在"思考",還是只是在表演思考的樣子?這個問題聽起來像哲學討論,但實際上有著非常實際的技術意義。近年來,AI研究圈裡有一股熱潮,就是想讓模型不再用文字一步一步地寫出思考過程,而是把這個過程"藏"在一種叫做"潛在表示"的數學向量里——說白了,就是讓模型用一種人類看不懂的內部語言來思考,然後直接給出答案。這樣不僅更快,理論上還可能更聰明。
然而,這個"潛在思考"到底靠不靠譜,一直缺乏一套科學的評估標準。大家評價模型好不好,幾乎都只看最終答案的準確率——答對了,就說明思考過程沒問題。但這就像評價一個廚師做菜,只嘗最終成品,從不看他是不是真的在廚房裡認真炒菜,還是把外賣裝進自己的盤子裡端出來。
不列顛哥倫比亞大學的研究團隊決定打開這個"廚房",看看模型的內部思考過程——也就是"潛在思維
表示"——到底是否貨真價實。他們設計了四條標準(稱為"公理"),並開發了一套可以直接測量這些內部表示
質量的工具,完全不依賴最終答案的對錯。這是一個此前從未有人系統做過的事情。他們對五個主流開源大語言模型進行了全面檢測,結果令人大跌眼鏡。
一、為什麼"答對了"不等於"真的在想"
要理解這項研究的意義,先得搞清楚一個關鍵區別:表演思考和真正思考。
在AI領域,有一種技術叫做"思維鏈"(Chain-of-Thought),就是讓模型在回答問題之前,先一步一步地用文字寫出推理過程,比如"首先,這道題要求我計算...其次,根據公式...最終得到答案..."。這種方式讓模型的表現提升了很多,但有個明顯的缺點:太慢太占資源。每生成一個字都要消耗計算資源,寫一大段推理過程下來,成本很高。
於是研究者們想到一個辦法:能不能讓模型不用寫出這些文字,而是把推理過程"壓縮"成一個內部的數學向量,直接在腦子裡完成?這就是"潛在思維表示"的概念。好幾個前沿研究成果,比如COCONUT、Soft Thinking等,都在朝這個方向努力,並且在某些基準測試上報告了不錯的準確率。
問題在於,準確率高,並不能證明這個內部表示真的在"思考"。現有的評估體系存在一個根本性的混淆:它把"表示的質量"和"模型的能力"攪在了一起。一個模型即便它的內部思考表示一團糟,只要它足夠聰明,可能依然能蒙對答案。反過來說,如果一個模型在某道題上答錯了,你也沒辦法判斷是內部表示出了問題,還是後續的解碼過程出了問題。這就像一個學生考試不及格,你不知道是他沒理解題目,還是理解了但表達有誤。
這個混淆導致了一個嚴重的後果:研究者們在優化這些"潛在思考"方法時,根本不知道自己優化的是什麼,也不知道瓶頸在哪裡。
二、四條診斷標準:給"思考質量"建立體檢指標
不列顛哥倫比亞大學的研究團隊提出了一套完全獨立於最終答案準確率的評估框架,核心是四條"公理"。可以把這套框架理解為一套對大腦的"體檢報告",每條公理對應一個具體的健康指標。
第一條叫做"因果性"。一個有效的內部思考表示,必須真的能夠替代顯式的推理步驟,對最終答案的生成產生實質影響。研究團隊的測量方法是:把模型正在生成的答案分成前半段(推理過程)和後半段(最終結論),然後把前半段的文字替換成對應的"潛在表示"向量,看看後半段的概率分布有沒有變化。如果替換後模型生成後半段的方式幾乎沒變,說明這個潛在表示確實傳遞了推理資訊;如果變化很大,說明這個向量根本沒有承載推理內容。
第二條叫做"最小性"。一個好的內部表示,應該只保留和答案相關的資訊,過濾掉無關的噪音。這來自一個經典的資訊論概念:資訊瓶頸原理。打個比方,如果你問模型"13是質數嗎",但同時給了它一大段關於莎士比亞的文字,好的內部表示應該只記錄"質數判斷"相關的內容,把莎士比亞的部分丟掉。研究團隊用一個數學替代指標來估算這個"有效壓縮度",數值越高,說明表示越乾淨。
第三條叫做"可分性"。不同的問題,應該在內部表示空間裡分開站著;相似的問題,應該站得近一些。這就像你把一群人按職業分組站隊——廚師站一塊兒,工程師站一塊兒——好的內部表示應該能讓模型自然地把不同類型的問題區分開。研究團隊訓練了一個"辨別器"——一個簡單的分類器——來測試這種可分性:這個分類器能不能通過看內部表示,判斷兩道題是不是來自同一類任務,或者是不是同一道題?
第四條叫做"穩定性"。對於同一道題,就算答案的表達方式不同(比如一個說"13是質數",另一個說"13不能被整除"),內部表示應該是相似的;而如果模型自己對一道題拿不準,內部表示應該能反映出這種不確定性。研究團隊用一種叫做"語義熵"的工具來衡量:當模型對同一道題生成多個不同答案時,這些答案在意義上是否相似?內部表示能不能預測這種"拿不準"的程度?
這四條標準有一個重要的理論保障:研究團隊在論文附錄中嚴格證明了,這四條是相互獨立的——違反其中任何一條,並不會自動違反其他三條;而且這四條合在一起,理論上足以完整描述一個"好的"內部思考表示所應具備的性質。
三、被檢測的"思考"方法們
確定了評估標準之後,研究團隊選取了幾類主流的"潛在思維"方法作為檢測對象,並在五個開源大語言模型上展開實驗。
被檢測的方法主要分成幾大類。第一類是最簡單的基準:直接取模型在處理完輸入之後、開始生成答案之前,最後一個位置的隱藏層狀態——這個向量編碼了模型對輸入的全部理解。第二類是"軟思考"(Soft Thinking):不再生成離散的文字token,而是在每一步生成一個所有可能詞彙的加權平均向量,相當於把"所有可能的下一個詞"混在一起,形成一個連續的向量。第三類是帶噪聲的軟思考(Soft Thinking with Gumbel Noise):在上面的基礎上加入隨機擾動,鼓勵模型探索更多可能性。第四類是"潛在思考"(Latent Thinking):借鑑COCONUT的思路,讓模型在潛在空間裡疊代更新一個狀態向量,類似於在腦子裡反覆推演。
被測試的五個模型覆蓋了當前主流的幾大類型:參數規模較小的Llama-3.1 8B,參數規模較大的Llama-3.3 70B,經過強化學習專門訓練推理能力的DeepSeek-R1-Distill-Qwen 32B和Skywork-OR1 32B,以及混合專家架構的GPT-OSS 20B。選這五個模型,是為了覆蓋"密集型"、"稀疏混合專家型"、"推理蒸餾型"、"原生強化學習型"等不同範式,看看結論是否具有普遍性。
測試所用的基準是Big Bench Extra Hard(BBEH),一個包含23類推理任務的高難度基準,涵蓋空間推理、事實問答、邏輯推理、數學計算等多種類型,每類任務都有若干具體問題。整個實驗共涉及4520道題,每道題生成8個候選答案(通過束搜索),形成一個龐大的評估數據集。
四、檢測結果:潛在思維大面積"假裝在思考"
檢測結果出來之後,研究團隊形容其為"暴露了大面積的表示性崩潰"。具體來看,情況是這樣的。
在因果性維度上,所有被測試的"潛在思維"表示都比隨機向量好得多——說明它們至少確實攜帶了一些和答案相關的資訊。但是,沒有任何一種方法顯著超過"直接使用輸入嵌入(Input Embedding)"這個最基礎的基準。換句話說,把問題本身的文本直接嵌入向量,其對答案生成的預測能力,和那些精心設計的"思考"過程不相上下。模型在經歷了所謂的"思考"之後,對答案的預測能力並沒有比"直接看題"好多少。
在最小性維度上,結果參差不齊。不同模型、不同方法之間有差異,但總體來看,沒有任何一種方法能穩定地超過輸入嵌入基準。軟思考類方法表現略好,但最後一個輸入token的隱藏狀態反而比基準更差——說明這個向量包含了大量輸入相關但和答案無關的冗餘資訊。
最戲劇性的結果出現在可分性維度。研究團隊測試了兩種情況:跨任務分辨(能不能區分"這是一道數學題"和"這是一道空間推理題")和任務內分辨(能不能區分同一類任務里的兩道不同題目)。跨任務分辨幾乎所有方法都接近滿分,連隨機向量加一個簡單分類器都能輕鬆區分不同類型的任務——說明這根本不是個有挑戰性的測試。
但任務內分辨的結果讓人驚掉下巴:除了直接用答案文本生成的"輸出嵌入"之外,所有方法的得分都在50%左右——和隨機猜測沒有區別。也就是說,面對同一類任務里的兩道不同題目,模型的內部"思考"表示無法區分它們。同一類23道數學題,模型的內部狀態對每道題都長得差不多,完全無法告訴你這道題和那道題有什麼不同。研究團隊在附錄中進一步分析了幾何結構,證明這種失敗不是分類器太弱導致的,而是內部表示本身在同一任務內的幾何結構過於"扁平",幾乎所有題目的表示都擠在一起,沒有足夠的分布維度來區分不同實例。即便換用參數量大十倍的分類器,結論也完全一樣。
在穩定性維度上,結果相對好一些。多數模型的潛在表示能以較高的準確率預測"這道題模型是否會給出不同的答案"——說明內部表示確實在一定程度上編碼了模型的不確定性。但有一個值得注意的現象:直接使用題目文本的輸入嵌入,其穩定性得分有時候等於甚至超過那些經歷了複雜"思考"過程的方法。這意味著,模型對一道題有沒有把握,光從題目本身就能基本預測到,並不需要內部的思考過程來揭示。
五、疊代"思考"步數越多越糟糕
研究團隊還考察了一個有趣的問題:給模型更多的"思考步數",會不會讓內部表示更好?畢竟,讓模型在潛在空間裡多疊代幾輪,直覺上應該能積累更豐富的資訊。
結果恰恰相反。對於軟思考和潛在思考這兩類方法,當思考步數從1增加到128時,在綜合四個維度的評估中,表現反而系統性地下滑。在穩定性維度,疊代越多,得分下降越明顯,對於潛在思考方法尤其顯著。在可分性的幾何分析中,隨著步數增加,模型內部表示的"任務內參與比"確實提升了(說明向量展開到了更多維度),但與此同時,各維度上的有效信號密度卻在下降——更多的維度在做"噪聲鋪墊",而不是承載有意義的資訊。
這個發現對於那些追求"更多思考步數=更好"的設計思路來說是個警醒:在沒有適當約束的情況下,讓模型在潛在空間裡疊代更多輪,並不能自動產生更有質量的思維表示,反而可能讓資訊逐漸擴散和稀釋。
六、這套診斷工具意味著什麼
這項研究的核心貢獻是提供了一把尺子,而不是一個答案。研究團隊沒有說"哪種方法最好",因為目前沒有任何一種方法能同時滿足所有四條標準。他們提供的是一個分診系統:當你開發了一種新的"潛在思維"方法,你可以用這套工具來知道,自己在哪個方向上進步了,在哪個方向上還有缺口。
這解決了一個長期困擾研究者的問題。過去,改進一種方法後,往往只能看到基準測試準確率的變化——但這個變化可能來自推理能力的提升,也可能來自解碼策略的改變,還可能是訓練數據碰巧覆蓋了測試題。四條公理提供了正交的診斷維度:如果準確率提升但因果性沒提升,說明問題出在解碼,不在思考表示本身;如果可分性很低,說明需要在訓練目標上施加約束,讓內部狀態能夠區分不同的問題實例。
研究團隊還特別檢驗了一個關鍵問題:這種任務內可分性的崩潰,是不是因為某些任務本身太難,導致模型的輸出分布就沒有區分度?如果是這樣,那問題出在模型能力而不是表示質量。他們把任務內可分性得分和每個任務的基準準確率做了相關性分析,發現兩者幾乎沒有關係(相關係數約為0.10,統計上不顯著)。難的任務和簡單的任務,內部表示的可分性同樣低。這排除了"任務難度"的解釋,進一步說明問題是結構性的,存在於所有類型的任務中。
七、失敗是普遍的,不是偶然的
或許這項研究最令人警醒的發現,是這些失敗模式在所有五個模型上都一致出現,無論是小模型還是大模型,無論是通用指令微調模型還是專門為推理優化的強化學習模型。DeepSeek-R1-Distill-Qwen 32B和Skywork-OR1 32B經過了專門的推理訓練,按理說應該在內部推理表示上表現更好,但在這套框架下,它們的表現與普通的Llama模型幾乎沒有區別。
研究團隊由此得出結論:這種失敗不是某個模型或某個訓練方法的特有問題,而是當前"潛在思維"技術路線的結構性缺陷。目前的方法在提取和利用內部表示時,都沒有針對"區分同一任務內不同問題實例"這一能力進行明確優化,導致內部表示無論多麼複雜,都退化成了"知道在做什麼類型的任務",而不是"知道在做這道具體的題目"。
這就好像一個助理能夠區分"這是數學作業"和"這是語文作業",但拿到兩道數學題時,腦子裡對兩道題的"理解"長得一模一樣——自然就會在具體的計算步驟上出錯或混淆。
說到底,這項研究告訴我們,當前那些聲稱模型在"潛在空間中思考"的技術,很可能是在表演思考,而不是真的在進行有實質內容的推理。這套評估框架的價值在於,它讓這種"表演"變得可以被量化和檢測,而不再是玄學。對於普通用戶來說,這意味著在AI宣稱自己"想清楚了"的時候,我們需要更謹慎地對待這種說法;而對於研究者來說,這四條公理提供了明確的優化靶點,指向了讓AI真正"思考"而不是模擬思考的技術路徑。
有興趣深入了解完整研究方法和實驗數據的讀者,可以通過arXiv編號2606.27378查閱原論文全文。
Q&A
Q1:什麼是"潛在思維表示",為什麼它比普通的文字推理更受關注?
A:潛在思維表示是讓AI模型在內部用數學向量完成推理過程,而不是像普通思維鏈那樣一步一步寫出文字。之所以受關注,是因為這種方式理論上更快、更省資源,而且不受人類語言表達限制,可能捕捉到更複雜的推理結構。但不列顛哥倫比亞大學的研究發現,目前的潛在思維方法在質量上存在嚴重缺陷,無法通過因果性、最小性、可分性、穩定性四項關鍵指標的檢驗。
Q2:為什麼光看準確率不夠,還需要專門評估內部表示的質量?
A:準確率只能告訴你最終答案對不對,卻無法區分"模型真正理解了問題並推理出答案"和"模型恰好蒙對了答案"這兩種情況。研究發現,模型可以在基準測試上得高分,但其內部的思維表示卻無法區分同一類任務中的不同題目,說明內部"思考"過程並沒有真正攜帶題目的具體資訊。只有獨立於準確率的評估工具,才能診斷出這種隱藏的失敗。
Q3:增加模型的思考步數,為什麼反而會讓潛在思維質量下降?
A:當模型在潛在空間中疊代更多步時,向量確實擴展到了更多維度,但這些新增的維度大多承載的是噪聲,而不是有效資訊。結果是向量變得更"寬"但信號密度更低,穩定性和可分性都隨之下降。這意味著單純增加思考步數,在沒有針對性訓練約束的情況下,並不能讓模型"想得更清楚",反而可能讓內部狀態變得更模糊。






