這項由Snowflake AI Research完成的研究於2026年6月22日發布於arXiv預印本平台,論文編號為arXiv:2606.22936,有興趣深入了解的讀者可通過該編號查詢完整論文。
假設你雇了一位偵探幫你查案。案發第一天,偵探看了幾條線索後,心裡已經認定是隔壁鄰居乾的。接下來幾天,不管你塞給他多少新線索,他都會想方設法把這些線索往"鄰居有罪"的方向解讀。他看起來邏輯嚴密、結論一貫,讓你以為他胸有成竹——但他其實已經在第一天就停止了真正的推理,後面不過是在為最初那個草率的判斷找補。
這就是這項研究所揭示的大型語言模型(也就是ChatGPT、Llama這類AI)在複雜任務中的一種隱秘失敗方式,研究者稱之為"過早承諾"。更麻煩的是,這種失敗方式幾乎不會觸發任何警報——AI給出的答案看起來完全正常,甚至每次都一模一樣。只有深入AI的"大腦內部",才能發現它其實早就"認死理"了。
一、AI偵探的隱秘毛病:表面一致,內里已死
當AI被要求做多步驟推理任務時,比如回答"某個歷史人物在哪個城市出生,那個城市的市長是誰"這類需要分步查找的問題,AI並不是一次性給出答案的。它會像偵探一樣,一步一步思考、查資料、再思考、再查資料,直到認為自己找到了答案。
這種工作方式被稱為"ReAct框架",可以把它理解為一個循環執行的思考-行動-觀察三步驟。每一個循環叫做"一步",第四步就是第四個循環。在實驗裡,AI最多被允許走25步才強制停止。
研究團隊發現,某些AI在走到第四步左右的時候,已經在腦子裡悄悄"鎖定"了一個方向,後面無論看到什麼新資訊,它的內心世界其實已經不再真正開放了。對外,它還在認認真真地繼續查資料、繼續推理;對內,它已經變成了那個認定鄰居有罪的偵探,只是在表演推理的過程。
研究者把這種現象叫做"代表性承諾"——AI在內部已經穩定下來、不再動搖了。表面上看不出來,但通過檢測AI神經網路深處的激活狀態可以發現。
二、測量"認死理":把AI的腦電波拍下來比較
研究者設計了一個頗為聰明的實驗方法,核心思路就像給同一道題拍多張X光,然後比較這些X光片的相似程度。
具體來說,他們讓同一個AI模型用同一個問題重複跑10次,每次跑的時候溫度參數設置為0.5(溫度在這裡控制AI回答的隨機性,設為0意味著每次一模一樣,設為1意味著每次差異很大,0.5是一個適中的值,保證每次跑都會有一定差異)。然後,在第四步結束的那個時刻,研究者提取AI某一層神經網路的"激活狀態"——這個激活狀態可以理解為一個幾千維度的數字向量,是AI當時"腦子裡在想什麼"的數字化快照。
接下來,研究者計算同一個問題10次跑的10個快照之間的相似程度,用的是一個叫"餘弦相似度"的指標,可以簡單理解為兩個向量方向的一致程度,越接近1說明越相似,越接近0說明越不同。把所有配對的相似度平均起來,就得到了這個問題的"激活相似度"。
這個數字越高,說明AI不管走哪條路,到第四步時腦子裡想的東西都高度一致——也就是說,AI已經在內部收斂到了同一個判斷,不再因為走不同的路徑而產生不同的想法。
研究者隨後把激活相似度和另一個叫"行為變異係數"(簡稱CV)的指標放在一起比較。CV衡量的是10次跑步數上的波動程度,步數越一致說明AI的行為越穩定,CV越小;步數波動越大說明AI每次走的路徑很不一樣,CV越大。
實驗結論出來了:激活相似度越高的問題,CV越小。相關係數r=-0.35,這是一個中等強度的負相關。換句話說,AI腦子裡越快收斂統一,它的行為就越趨於一致,對外表現出的路徑就越穩定。
三、信號的"指紋":時機精準,位置固定
僅僅發現兩個數字之間有關聯還不夠,研究者進一步追問:這個信號是在什麼時間、AI哪個位置出現的?
研究團隊對所有步驟(第1到第5步)和多個神經網路層(從第0層到第80層,每隔8層取一個)做了系統性掃描,共檢驗了66個"時間×位置"的組合。結果發現,這個信號不是均勻分布在整個推理過程中的,而是高度集中在第4步、網路的第32到第80層之間,最強點在第40層(r=-0.348,p=0.0006)。
這個發現很重要,因為它意味著"過早承諾"不是隨機噪音,而是一個有特定時空"指紋"的真實現象。就像驗血要在特定時間抽特定部位的血一樣,捕捉AI的承諾信號也有它的黃金窗口。
為了確認這個峰值不是碰巧挑了一個最漂亮的數字,研究者做了10000次隨機打亂驗證(排列檢驗),並對66個組合用Bonferroni方法做了多重比較校正(簡單說,就是給統計門檻調得更嚴格,防止因為測了太多次而碰巧出現假陽性)。結論經得起這些嚴格檢驗,第4步/第40層的信號在所有校正後仍然顯著(校正後p=0.0003)。
從時間維度來看,信號在第1步和第2步幾乎不存在,第3步開始出現,第4步達到頂峰,第5步開始減弱。這個模式非常符合直覺:偵探剛開始調查時方向未定,中途某個時刻看到關鍵線索後認定了方向,之後就不再開放了。
四、排除干擾:不是題難了就這樣,也不是因為看了相同的資料
發現了信號,下一步要證明這個信號不是被其他因素帶出來的假象。研究者做了幾層驗證。
首先,他們控制了題目難度和正確率。有一種可能是:簡單題本來就容易走出一致的路徑,同時激活狀態也比較相似,這樣就會出現"相關"但實際上只是因為都是簡單題。控制了難度和正確率之後,相關係數不降反升,從r=-0.35升到了偏相關r=-0.45(p
其次,研究者檢查了一個最自然的競爭解釋:因為不同次數的跑步可能檢索到了相同的文檔,所以看了一樣的材料、自然想出一樣的答案、激活狀態也就相似了。為了排除這種可能,研究者用三種方式測量了不同跑步之間檢索到的文檔重疊程度(Jaccard重疊度、TF-IDF餘弦相似度、搜索詞重疊度)。控制文檔相似度之後,激活相似度與CV的關係有所減弱,但在文檔高度重疊的那組問題里仍然能預測行為一致性(偏相關r=-0.31,p=0.003;高重疊子組r=-0.47,p=0.011)。唯一讓信號消失的情況是把全文TF-IDF相似度完全納入控制,研究者也坦誠地承認:在自然條件下,"讀了相似的材料導致想法相似"這個解釋確實能解釋部分現象,要完全排除還需要做專門的控制實驗(固定檢索文檔、只讓推理過程變化)。
此外,研究者也排除了問題長度、上下文長度、第3步思考長度等表面特徵的干擾作用——這些指標與行為CV都沒有顯著相關(r均在0.10到0.12之間,p均不顯著)。
五、最關鍵的發現:承諾不分對錯,認死理的AI不知道自己對不對
這是整個研究里最核心、也是最讓人警惕的發現:激活相似度高(AI腦子裡已經收斂)並不意味著AI是對的,也不意味著AI是錯的。
研究者把100道題分成三類:承諾且正確(10次運行中正確率超過80%,且行為一致)、承諾且錯誤(10次運行中正確率低於20%,且行為一致)、未承諾且錯誤(正確率低但行為不一致)。他們比較了承諾且正確和承諾且錯誤這兩組問題的激活相似度——結果發現,這兩組在激活相似度上幾乎沒有區別(Llama模型:0.935 vs 0.903,p=0.30;Qwen模型:0.968 vs 0.952,p=0.46)。
用偵探比喻來說:一個認定正確答案的偵探和一個認定錯誤答案的偵探,他們腦子裡的狀態看起來是一樣的。外部觀察者無法通過AI的內部激活狀態分辨它是"自信地對"還是"自信地錯"。
這個發現徹底顛覆了一種常見的直覺——很多人認為,如果AI每次都給出一樣的答案,那就意味著它大概率是對的。但事實是,這種一致性只能告訴你AI已經"認死理"了,無法告訴你它認的那條"死理"是不是正確的。
對於難題(需要多步檢索的多跳問題),激活相似度與行為CV的相關幾乎為零(r=-0.02,p=0.88),因為在這類題里,承諾且錯誤的情況占了大頭,使得相關關係在統計上被稀釋消失了。對於簡單題,相關則非常強(r=-0.57,p
六、跨模型、跨任務:這不是某一個AI的特殊問題
為了確認這個現象不是Llama模型獨有的怪癖,研究團隊在另外兩個架構完全不同的模型上重複了實驗。
Qwen-2.5-72B是阿里巴巴開發的模型,與Llama有相同的層數(80層)但是完全不同的訓練方式和架構細節。在這個模型上,信號不僅得到復現,而且更強(r=-0.65,p
Phi-3-Medium-14B是微軟開發的較小模型,只有40層,維度也更小。它在第4步的信號稍弱(r=-0.36),但最強的信號出現在第5步(r=-0.58),比兩個大模型晚了一步。研究者把這解釋為:較小的模型需要多走一步才能完成內部的收斂——就像經驗少的偵探需要更多線索才能下定判斷。
三個模型峰值所在的層深度各不相同:Llama在50%深度,Qwen在80%深度,Phi-3在40%深度。這說明承諾這種現象存在於不同架構中,但收斂的具體"位置"是跟架構綁定的,沒有一個統一的神經網路層。
研究者還在完全不同的任務上做了跨基準測試。HotpotQA是需要從多個文檔拼湊答案的多跳問答題,而StrategyQA則是需要隱式推理的判斷題(比如"亞里士多德活著的時候有沒有用過某種現代技術")。在StrategyQA上,Llama模型的信號在第3步就出現了峰值(r=-0.83,p
七、實時監控系統:在AI"認死理"的時候及時發警報
發現了這個信號,自然要想辦法用上它。研究者訓練了一個邏輯回歸分類器,專門在AI走完第4步的那個時刻讀取激活狀態,預測這次任務最終會不會得到一致的結果。
結果相當出色。用層級相似度曲線作為特徵,在最嚴格的基準上(五等分取頭尾,去掉中間60%模糊樣本),預測準確率達到AUROC=0.97(AUROC是衡量分類器好壞的指標,0.5是隨機猜測,1.0是完美預測)。換成更嚴格的一半對一半分法,Llama的最佳特徵達到AUROC=0.85,Qwen達到0.88。
作為對比,如果用問題長度(這是在AI開始運行之前就能獲得的唯一表面特徵)來預測,AUROC只有0.52到0.65——約等於隨機猜測。激活狀態信號明顯優於任何表面特徵。
更實用的是,這個監控系統不需要跑滿10次才能判斷。把運行次數從10次減到3次,AUROC只降到0.81(±0.07),依然相當有用。一個模擬的"早退出"系統——一旦AI被判定為已經承諾,就不再繼續跑更多次——在節省29%計算量的同時,準確率仍然比簡單多數投票高出20個百分點。
八、能不能用來決定"多算幾次"?誠實的失敗報告
研究者還嘗試了一個更大膽的應用:既然信號能告訴我們AI還沒穩定下來,是不是可以用它來決定哪些題值得花更多計算資源重新跑幾次(自洽性採樣),從而提升整體正確率?
在HotpotQA上這個問題沒有意義——Llama在這個數據集上本來就答對了91%,多跑幾次也沒什麼提升空間。所以研究者換用了MuSiQue,一個更難的多跳問答數據集(共150題,Llama單次運行只能答對59%)。
結果喜憂參半。固定在第4步讀取信號在MuSiQue上效果不佳,因為MuSiQue的推理鏈有15到22步,第4步時承諾信號還沒出現,跟最終是否需要重跑毫無關係。改成在推理鏈的最後一步讀取信號,相關性有所恢復(r=0.48),但實際收益有限:把額外算力分配給"還沒穩定"的題目,比固定樣本自洽性採樣好1.5到3.5個百分點——看起來不錯,但一個更簡單的基準方法——"答案已經出來3次了就停止"的輸出層自適應一致性——在超過3次樣本之後就能追上甚至超過激活信號方法。隱藏狀態信號只在極低預算(約2次樣本)時占優。
研究者在論文裡直接承認了這一點,沒有迴避,把它作為誠實的負面結果報告出來,並指出這是未來工作需要解決的問題。
九、主動干預:用一段話把AI從"認死理"中拉回來
既然過早承諾是一個問題,能不能在AI還沒"認死理"之前就採取干預?研究者在第3步(比通常收斂時間提前一步)向AI插入了一段專門的提示語,內容是:"根據你目前收集到的證據,承諾一個解決這個問題的具體推理策略。在你下一個想法中清楚地說明你承諾的策略,然後貫徹執行。不要改變策略或重新開始;在你已經學到的基礎上繼續推進。"
為了排除"多了幾個字本身"的影響,研究者設計了一個等長的填充對照提示,內容是無意義的鼓勵性廢話,字數與承諾提示完全一樣,但完全不含策略固定的含義。
三組對比(標準控制組、填充對照組、承諾提示組)跑了100道HotpotQA題,每道跑10次。結論如下:填充組相比控制組,行為CV反而有上升趨勢(+18%,p=0.071,不顯著),說明在第3步隨便插一段話會干擾正常推理節奏;承諾提示組相比填充組,行為CV下降了28%(d=0.33,p=0.001,經過多重比較校正後仍顯著),行動序列多樣性下降了24%;三組的準確率沒有任何一組有顯著差異。
這最後一點極為重要,也是研究者反覆強調的。承諾干預使AI更一致了,但對正確率毫無影響。原因是:承諾干預放大的是AI已有的傾向——本來傾向於答對的變得更穩定地答對,本來傾向於答錯的變得更穩定地答錯,兩者在總體正確率上相互抵消。這不是一個讓AI變聰明的工具,這是一個讓AI變得更"認死理"(不管對錯)的工具。
在激活狀態層面,三組條件在第3步之前的激活相似度曲線完全重合,在第4步之後才分叉:承諾組最高(0.995),填充組居中(0.979),控制組最低(0.922)。時間鎖定效應明顯,分叉恰好出現在干預注入後的下一步。
一個進一步的中介分析(5000次bootstrap)發現,承諾提示對行為CV的影響,確實在統計上通過激活相似度這條路徑發揮作用(間接路徑ab=-0.062,p
十、承諾是一個線性方向:AI的"認死理指數"可以被測量
研究者還從幾何角度驗證了一個更深層的結構性發現:承諾在AI的激活空間裡可以用一個線性方向來描述。
他們定義了一個"承諾方向向量":承諾且正確的問題的平均激活狀態,減去未承諾且錯誤的問題的平均激活狀態,就得到這個向量。實驗發現,這個向量與激活狀態空間的第一主成分方向高度一致(餘弦相似度=-0.98,第一主成分解釋了53%的方差),而且與"簡單題 vs 難題"的差異方向也幾乎一致(餘弦相似度=0.95)。
把100道題的激活狀態投影到這個方向上,能夠預測行為CV(r=-0.32,p=0.001)。在Qwen模型上,相同操作的相關係數更強(r=-0.59)。兩個模型的承諾方向經過數學對齊之後,相關性只有適中的水平(餘弦相似度=0.19),說明兩個模型都發展出了自己的承諾方向,但這個方向的具體朝向是跟各自的架構綁定的,不是通用的。研究者把這個情況比作跨語言表示學習中的現象:不同語言的模型都學到了相似的語義結構,但具體的向量坐標系並不一一對應。
一次單層激活引導實驗(把承諾方向向量直接加進推理過程中)的結果參差不齊:5道題里有2道成功減少了行為波動,3道沒有效果甚至略微增加了波動。研究者把這解釋為:承諾不是集中在單個神經網路層的,而是分布在多個層和步驟中。提示語之所以有效,是因為它在第3步就改變了模型生成的內容,從而影響了後續所有層的激活狀態;而單層引導在第4步才介入,時機偏晚,作用面也太窄。
歸根結底,這項研究最珍貴的地方,是它做到了大多數AI研究沒做到的一件事:把一個不可見的、難以用傳統指標捕捉的失敗模式,變成了可測量、可監控、部分可干預的東西。過早承諾既不是崩潰也不是亂答,它是一種危險的穩定——AI帶著一個也許是錯誤的答案,有條不紊地走完了全程,讓人毫無察覺。
現在我們知道,可以在AI走完第4步的時候讀取它的神經激活狀態,判斷它是否已經"認死理"。如果已經認死了,多跑幾次沒有意義,該讓人類或外部系統來核驗了;如果還沒認死,額外的採樣可能真的有幫助。這不能讓AI變得更聰明,但可以讓AI的使用者知道什麼時候需要保持警惕。
當然,研究本身也保持了清醒的認識:所有測試都在問答類任務上進行,代碼編寫、數學推理、實體操作類任務還沒有驗證;所有實驗只用了一個溫度參數0.5,其他溫度的情況未知;檢索文檔的干擾作用只是部分排除,乾淨的控制實驗還沒有做;承諾干預的效果對標準智能體來說並不穩健(校正後不顯著)。研究者把這些都寫進了局限性部分,沒有誇大自己的發現。
---
Q&A
Q1:什麼是大模型的"過早承諾"問題?
A:過早承諾是指AI在執行多步驟推理任務時,在推理鏈的早期階段(比如第4步)就在內部鎖定了一個解讀方向,後續即使獲得新資訊也不再真正改變判斷。從外部看AI還在繼續推理,但實際上內部已經停止開放地探索了。這種失敗模式不會觸發任何警報,因為AI的行為看起來依然連貫、答案依然給出,所以傳統的正確率評估完全發現不了這個問題。
Q2:激活相似度信號能判斷AI答對了嗎?
A:不能。這是這項研究最核心的發現之一。激活相似度高(代表AI內部收斂了)無法區分AI是"自信地對"還是"自信地錯"。承諾且正確和承諾且錯誤的問題,其激活相似度數值幾乎一樣。這個信號只能告訴你AI是否已經停止了真正的探索,而無法告訴你它最終站穩的那個立場是不是正確的。
Q3:承諾提示干預能提高AI的準確率嗎?
A:不能。承諾提示只能讓AI的行為更一致,而不能讓它更正確。本來傾向於答對的題,會更穩定地答對;本來傾向於答錯的題,也會更穩定地答錯。兩者在總體準確率上互相抵消,三組實驗條件的準確率沒有任何統計上的顯著差異。這個干預是一個"放大器",放大AI已有的傾向,而不是一個"糾錯器"。






