AI偵探破案失敗？Snowflake研究揭示：大模型「認死理」的隱藏危機

這項由Snowflake AI Research完成的研究於2026年6月22日發布於arXiv預印本平台，論文編號為arXiv:2606.22936，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

假設你雇了一位偵探幫你查案。案發第一天，偵探看了幾條線索後，心裡已經認定是隔壁鄰居乾的。接下來幾天，不管你塞給他多少新線索，他都會想方設法把這些線索往"鄰居有罪"的方向解讀。他看起來邏輯嚴密、結論一貫，讓你以為他胸有成竹——但他其實已經在第一天就停止了真正的推理，後面不過是在為最初那個草率的判斷找補。

這就是這項研究所揭示的大型語言模型（也就是ChatGPT、Llama這類AI）在複雜任務中的一種隱秘失敗方式，研究者稱之為"過早承諾"。更麻煩的是，這種失敗方式幾乎不會觸發任何警報——AI給出的答案看起來完全正常，甚至每次都一模一樣。只有深入AI的"大腦內部"，才能發現它其實早就"認死理"了。

一、AI偵探的隱秘毛病：表面一致，內里已死

當AI被要求做多步驟推理任務時，比如回答"某個歷史人物在哪個城市出生，那個城市的市長是誰"這類需要分步查找的問題，AI並不是一次性給出答案的。它會像偵探一樣，一步一步思考、查資料、再思考、再查資料，直到認為自己找到了答案。

這種工作方式被稱為"ReAct框架"，可以把它理解為一個循環執行的思考-行動-觀察三步驟。每一個循環叫做"一步"，第四步就是第四個循環。在實驗裡，AI最多被允許走25步才強制停止。

研究團隊發現，某些AI在走到第四步左右的時候，已經在腦子裡悄悄"鎖定"了一個方向，後面無論看到什麼新資訊，它的內心世界其實已經不再真正開放了。對外，它還在認認真真地繼續查資料、繼續推理；對內，它已經變成了那個認定鄰居有罪的偵探，只是在表演推理的過程。

研究者把這種現象叫做"代表性承諾"——AI在內部已經穩定下來、不再動搖了。表面上看不出來，但通過檢測AI神經網路深處的激活狀態可以發現。

贊助商廣告

二、測量"認死理"：把AI的腦電波拍下來比較

研究者設計了一個頗為聰明的實驗方法，核心思路就像給同一道題拍多張X光，然後比較這些X光片的相似程度。

具體來說，他們讓同一個AI模型用同一個問題重複跑10次，每次跑的時候溫度參數設置為0.5（溫度在這裡控制AI回答的隨機性，設為0意味著每次一模一樣，設為1意味著每次差異很大，0.5是一個適中的值，保證每次跑都會有一定差異）。然後，在第四步結束的那個時刻，研究者提取AI某一層神經網路的"激活狀態"——這個激活狀態可以理解為一個幾千維度的數字向量，是AI當時"腦子裡在想什麼"的數字化快照。

接下來，研究者計算同一個問題10次跑的10個快照之間的相似程度，用的是一個叫"餘弦相似度"的指標，可以簡單理解為兩個向量方向的一致程度，越接近1說明越相似，越接近0說明越不同。把所有配對的相似度平均起來，就得到了這個問題的"激活相似度"。

這個數字越高，說明AI不管走哪條路，到第四步時腦子裡想的東西都高度一致——也就是說，AI已經在內部收斂到了同一個判斷，不再因為走不同的路徑而產生不同的想法。

研究者隨後把激活相似度和另一個叫"行為變異係數"（簡稱CV）的指標放在一起比較。CV衡量的是10次跑步數上的波動程度，步數越一致說明AI的行為越穩定，CV越小；步數波動越大說明AI每次走的路徑很不一樣，CV越大。

實驗結論出來了：激活相似度越高的問題，CV越小。相關係數r=-0.35，這是一個中等強度的負相關。換句話說，AI腦子裡越快收斂統一，它的行為就越趨於一致，對外表現出的路徑就越穩定。

三、信號的"指紋"：時機精準，位置固定

僅僅發現兩個數字之間有關聯還不夠，研究者進一步追問：這個信號是在什麼時間、AI哪個位置出現的？

研究團隊對所有步驟（第1到第5步）和多個神經網路層（從第0層到第80層，每隔8層取一個）做了系統性掃描，共檢驗了66個"時間×位置"的組合。結果發現，這個信號不是均勻分布在整個推理過程中的，而是高度集中在第4步、網路的第32到第80層之間，最強點在第40層（r=-0.348，p=0.0006）。

贊助商廣告

這個發現很重要，因為它意味著"過早承諾"不是隨機噪音，而是一個有特定時空"指紋"的真實現象。就像驗血要在特定時間抽特定部位的血一樣，捕捉AI的承諾信號也有它的黃金窗口。

為了確認這個峰值不是碰巧挑了一個最漂亮的數字，研究者做了10000次隨機打亂驗證（排列檢驗），並對66個組合用Bonferroni方法做了多重比較校正（簡單說，就是給統計門檻調得更嚴格，防止因為測了太多次而碰巧出現假陽性）。結論經得起這些嚴格檢驗，第4步/第40層的信號在所有校正後仍然顯著（校正後p=0.0003）。

從時間維度來看，信號在第1步和第2步幾乎不存在，第3步開始出現，第4步達到頂峰，第5步開始減弱。這個模式非常符合直覺：偵探剛開始調查時方向未定，中途某個時刻看到關鍵線索後認定了方向，之後就不再開放了。

四、排除干擾：不是題難了就這樣，也不是因為看了相同的資料

發現了信號，下一步要證明這個信號不是被其他因素帶出來的假象。研究者做了幾層驗證。

首先，他們控制了題目難度和正確率。有一種可能是：簡單題本來就容易走出一致的路徑，同時激活狀態也比較相似，這樣就會出現"相關"但實際上只是因為都是簡單題。控制了難度和正確率之後，相關係數不降反升，從r=-0.35升到了偏相關r=-0.45（p

其次，研究者檢查了一個最自然的競爭解釋：因為不同次數的跑步可能檢索到了相同的文檔，所以看了一樣的材料、自然想出一樣的答案、激活狀態也就相似了。為了排除這種可能，研究者用三種方式測量了不同跑步之間檢索到的文檔重疊程度（Jaccard重疊度、TF-IDF餘弦相似度、搜索詞重疊度）。控制文檔相似度之後，激活相似度與CV的關係有所減弱，但在文檔高度重疊的那組問題里仍然能預測行為一致性（偏相關r=-0.31，p=0.003；高重疊子組r=-0.47，p=0.011）。唯一讓信號消失的情況是把全文TF-IDF相似度完全納入控制，研究者也坦誠地承認：在自然條件下，"讀了相似的材料導致想法相似"這個解釋確實能解釋部分現象，要完全排除還需要做專門的控制實驗（固定檢索文檔、只讓推理過程變化）。

贊助商廣告

此外，研究者也排除了問題長度、上下文長度、第3步思考長度等表面特徵的干擾作用——這些指標與行為CV都沒有顯著相關（r均在0.10到0.12之間，p均不顯著）。

五、最關鍵的發現：承諾不分對錯，認死理的AI不知道自己對不對

這是整個研究里最核心、也是最讓人警惕的發現：激活相似度高（AI腦子裡已經收斂）並不意味著AI是對的，也不意味著AI是錯的。

研究者把100道題分成三類：承諾且正確（10次運行中正確率超過80%，且行為一致）、承諾且錯誤（10次運行中正確率低於20%，且行為一致）、未承諾且錯誤（正確率低但行為不一致）。他們比較了承諾且正確和承諾且錯誤這兩組問題的激活相似度——結果發現，這兩組在激活相似度上幾乎沒有區別（Llama模型：0.935 vs 0.903，p=0.30；Qwen模型：0.968 vs 0.952，p=0.46）。

用偵探比喻來說：一個認定正確答案的偵探和一個認定錯誤答案的偵探，他們腦子裡的狀態看起來是一樣的。外部觀察者無法通過AI的內部激活狀態分辨它是"自信地對"還是"自信地錯"。

這個發現徹底顛覆了一種常見的直覺——很多人認為，如果AI每次都給出一樣的答案，那就意味著它大概率是對的。但事實是，這種一致性只能告訴你AI已經"認死理"了，無法告訴你它認的那條"死理"是不是正確的。

對於難題（需要多步檢索的多跳問題），激活相似度與行為CV的相關幾乎為零（r=-0.02，p=0.88），因為在這類題里，承諾且錯誤的情況占了大頭，使得相關關係在統計上被稀釋消失了。對於簡單題，相關則非常強（r=-0.57，p

六、跨模型、跨任務：這不是某一個AI的特殊問題

為了確認這個現象不是Llama模型獨有的怪癖，研究團隊在另外兩個架構完全不同的模型上重複了實驗。

Qwen-2.5-72B是阿里巴巴開發的模型，與Llama有相同的層數（80層）但是完全不同的訓練方式和架構細節。在這個模型上，信號不僅得到復現，而且更強（r=-0.65，p

贊助商廣告

Phi-3-Medium-14B是微軟開發的較小模型，只有40層，維度也更小。它在第4步的信號稍弱（r=-0.36），但最強的信號出現在第5步（r=-0.58），比兩個大模型晚了一步。研究者把這解釋為：較小的模型需要多走一步才能完成內部的收斂——就像經驗少的偵探需要更多線索才能下定判斷。

三個模型峰值所在的層深度各不相同：Llama在50%深度，Qwen在80%深度，Phi-3在40%深度。這說明承諾這種現象存在於不同架構中，但收斂的具體"位置"是跟架構綁定的，沒有一個統一的神經網路層。

研究者還在完全不同的任務上做了跨基準測試。HotpotQA是需要從多個文檔拼湊答案的多跳問答題，而StrategyQA則是需要隱式推理的判斷題（比如"亞里士多德活著的時候有沒有用過某種現代技術"）。在StrategyQA上，Llama模型的信號在第3步就出現了峰值（r=-0.83，p

七、實時監控系統：在AI"認死理"的時候及時發警報

發現了這個信號，自然要想辦法用上它。研究者訓練了一個邏輯回歸分類器，專門在AI走完第4步的那個時刻讀取激活狀態，預測這次任務最終會不會得到一致的結果。

結果相當出色。用層級相似度曲線作為特徵，在最嚴格的基準上（五等分取頭尾，去掉中間60%模糊樣本），預測準確率達到AUROC=0.97（AUROC是衡量分類器好壞的指標，0.5是隨機猜測，1.0是完美預測）。換成更嚴格的一半對一半分法，Llama的最佳特徵達到AUROC=0.85，Qwen達到0.88。

作為對比，如果用問題長度（這是在AI開始運行之前就能獲得的唯一表面特徵）來預測，AUROC只有0.52到0.65——約等於隨機猜測。激活狀態信號明顯優於任何表面特徵。

更實用的是，這個監控系統不需要跑滿10次才能判斷。把運行次數從10次減到3次，AUROC只降到0.81（±0.07），依然相當有用。一個模擬的"早退出"系統——一旦AI被判定為已經承諾，就不再繼續跑更多次——在節省29%計算量的同時，準確率仍然比簡單多數投票高出20個百分點。

贊助商廣告

八、能不能用來決定"多算幾次"？誠實的失敗報告

研究者還嘗試了一個更大膽的應用：既然信號能告訴我們AI還沒穩定下來，是不是可以用它來決定哪些題值得花更多計算資源重新跑幾次（自洽性採樣），從而提升整體正確率？

在HotpotQA上這個問題沒有意義——Llama在這個數據集上本來就答對了91%，多跑幾次也沒什麼提升空間。所以研究者換用了MuSiQue，一個更難的多跳問答數據集（共150題，Llama單次運行只能答對59%）。

結果喜憂參半。固定在第4步讀取信號在MuSiQue上效果不佳，因為MuSiQue的推理鏈有15到22步，第4步時承諾信號還沒出現，跟最終是否需要重跑毫無關係。改成在推理鏈的最後一步讀取信號，相關性有所恢復（r=0.48），但實際收益有限：把額外算力分配給"還沒穩定"的題目，比固定樣本自洽性採樣好1.5到3.5個百分點——看起來不錯，但一個更簡單的基準方法——"答案已經出來3次了就停止"的輸出層自適應一致性——在超過3次樣本之後就能追上甚至超過激活信號方法。隱藏狀態信號只在極低預算（約2次樣本）時占優。

研究者在論文裡直接承認了這一點，沒有迴避，把它作為誠實的負面結果報告出來，並指出這是未來工作需要解決的問題。

九、主動干預：用一段話把AI從"認死理"中拉回來

既然過早承諾是一個問題，能不能在AI還沒"認死理"之前就採取干預？研究者在第3步（比通常收斂時間提前一步）向AI插入了一段專門的提示語，內容是："根據你目前收集到的證據，承諾一個解決這個問題的具體推理策略。在你下一個想法中清楚地說明你承諾的策略，然後貫徹執行。不要改變策略或重新開始；在你已經學到的基礎上繼續推進。"

為了排除"多了幾個字本身"的影響，研究者設計了一個等長的填充對照提示，內容是無意義的鼓勵性廢話，字數與承諾提示完全一樣，但完全不含策略固定的含義。

贊助商廣告

三組對比（標準控制組、填充對照組、承諾提示組）跑了100道HotpotQA題，每道跑10次。結論如下：填充組相比控制組，行為CV反而有上升趨勢（+18%，p=0.071，不顯著），說明在第3步隨便插一段話會干擾正常推理節奏；承諾提示組相比填充組，行為CV下降了28%（d=0.33，p=0.001，經過多重比較校正後仍顯著），行動序列多樣性下降了24%；三組的準確率沒有任何一組有顯著差異。

這最後一點極為重要，也是研究者反覆強調的。承諾干預使AI更一致了，但對正確率毫無影響。原因是：承諾干預放大的是AI已有的傾向——本來傾向於答對的變得更穩定地答對，本來傾向於答錯的變得更穩定地答錯，兩者在總體正確率上相互抵消。這不是一個讓AI變聰明的工具，這是一個讓AI變得更"認死理"（不管對錯）的工具。

在激活狀態層面，三組條件在第3步之前的激活相似度曲線完全重合，在第4步之後才分叉：承諾組最高（0.995），填充組居中（0.979），控制組最低（0.922）。時間鎖定效應明顯，分叉恰好出現在干預注入後的下一步。

一個進一步的中介分析（5000次bootstrap）發現，承諾提示對行為CV的影響，確實在統計上通過激活相似度這條路徑發揮作用（間接路徑ab=-0.062，p

十、承諾是一個線性方向：AI的"認死理指數"可以被測量

研究者還從幾何角度驗證了一個更深層的結構性發現：承諾在AI的激活空間裡可以用一個線性方向來描述。

他們定義了一個"承諾方向向量"：承諾且正確的問題的平均激活狀態，減去未承諾且錯誤的問題的平均激活狀態，就得到這個向量。實驗發現，這個向量與激活狀態空間的第一主成分方向高度一致（餘弦相似度=-0.98，第一主成分解釋了53%的方差），而且與"簡單題 vs 難題"的差異方向也幾乎一致（餘弦相似度=0.95）。

把100道題的激活狀態投影到這個方向上，能夠預測行為CV（r=-0.32，p=0.001）。在Qwen模型上，相同操作的相關係數更強（r=-0.59）。兩個模型的承諾方向經過數學對齊之後，相關性只有適中的水平（餘弦相似度=0.19），說明兩個模型都發展出了自己的承諾方向，但這個方向的具體朝向是跟各自的架構綁定的，不是通用的。研究者把這個情況比作跨語言表示學習中的現象：不同語言的模型都學到了相似的語義結構，但具體的向量坐標系並不一一對應。

贊助商廣告

一次單層激活引導實驗（把承諾方向向量直接加進推理過程中）的結果參差不齊：5道題里有2道成功減少了行為波動，3道沒有效果甚至略微增加了波動。研究者把這解釋為：承諾不是集中在單個神經網路層的，而是分布在多個層和步驟中。提示語之所以有效，是因為它在第3步就改變了模型生成的內容，從而影響了後續所有層的激活狀態；而單層引導在第4步才介入，時機偏晚，作用面也太窄。

歸根結底，這項研究最珍貴的地方，是它做到了大多數AI研究沒做到的一件事：把一個不可見的、難以用傳統指標捕捉的失敗模式，變成了可測量、可監控、部分可干預的東西。過早承諾既不是崩潰也不是亂答，它是一種危險的穩定——AI帶著一個也許是錯誤的答案，有條不紊地走完了全程，讓人毫無察覺。

現在我們知道，可以在AI走完第4步的時候讀取它的神經激活狀態，判斷它是否已經"認死理"。如果已經認死了，多跑幾次沒有意義，該讓人類或外部系統來核驗了；如果還沒認死，額外的採樣可能真的有幫助。這不能讓AI變得更聰明，但可以讓AI的使用者知道什麼時候需要保持警惕。

當然，研究本身也保持了清醒的認識：所有測試都在問答類任務上進行，代碼編寫、數學推理、實體操作類任務還沒有驗證；所有實驗只用了一個溫度參數0.5，其他溫度的情況未知；檢索文檔的干擾作用只是部分排除，乾淨的控制實驗還沒有做；承諾干預的效果對標準智能體來說並不穩健（校正後不顯著）。研究者把這些都寫進了局限性部分，沒有誇大自己的發現。

---

Q&A

Q1：什麼是大模型的"過早承諾"問題？

A：過早承諾是指AI在執行多步驟推理任務時，在推理鏈的早期階段（比如第4步）就在內部鎖定了一個解讀方向，後續即使獲得新資訊也不再真正改變判斷。從外部看AI還在繼續推理，但實際上內部已經停止開放地探索了。這種失敗模式不會觸發任何警報，因為AI的行為看起來依然連貫、答案依然給出，所以傳統的正確率評估完全發現不了這個問題。

贊助商廣告

Q2：激活相似度信號能判斷AI答對了嗎？

A：不能。這是這項研究最核心的發現之一。激活相似度高（代表AI內部收斂了）無法區分AI是"自信地對"還是"自信地錯"。承諾且正確和承諾且錯誤的問題，其激活相似度數值幾乎一樣。這個信號只能告訴你AI是否已經停止了真正的探索，而無法告訴你它最終站穩的那個立場是不是正確的。

Q3：承諾提示干預能提高AI的準確率嗎？

A：不能。承諾提示只能讓AI的行為更一致，而不能讓它更正確。本來傾向於答對的題，會更穩定地答對；本來傾向於答錯的題，也會更穩定地答錯。兩者在總體準確率上互相抵消，三組實驗條件的準確率沒有任何統計上的顯著差異。這個干預是一個"放大器"，放大AI已有的傾向，而不是一個"糾錯器"。