以色列理工學院與IBM研究院聯合揭秘：大語言模型真的"知道"自己會不會答錯嗎？

這項由以色列理工學院（Technion – Israel Institute of Technology）與IBM研究院（IBM Research）聯合開展的研究，以預印本形式發表於2026年4月14日，論文編號為arXiv:2604.12373，有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整原文。

贊助商廣告

**一、當AI"照鏡子"：它能看見自己的盲點嗎？**

每個人都有過這樣的經歷：考完試走出考場，有時候心裡篤定某道題答對了，有時候又隱隱感覺哪裡不對勁。這種"對自己答案的感覺"，心理學上叫做內省（introspection）——人類通過感知自己內心的狀態，來判斷自己是否真正理解了某件事。

那麼，現在風靡全球的大語言模型（也就是我們常說的大型AI聊天系統，比如那些能寫文章、做數學題的AI），它們有沒有類似的能力呢？當AI回答一個問題時，它的"內心"是否存在某種信號，能告訴自己"這次我回答對了"或者"這次我可能搞砸了"？

這個問題聽起來有點哲學，但它其實非常實際。如果AI真的擁有這種"內部感知"，我們就可以在AI說錯話之前就察覺到風險，從而更好地防止AI胡說八道（也就是所謂的"幻覺"問題）。反之，如果AI的"內部狀態"和它的正確率毫無關係，那我們就不能依靠AI自己來做質量把關。

這支由以色列理工學院和IBM研究院組成的研究團隊，決定用一套嚴謹的實驗來回答這個問題。他們的核心發現頗為耐人尋味：AI確實在某些領域擁有這種"特權式的自我感知"，但並不是在所有領域都有——而且，過去那些聲稱AI沒有這種能力的研究，其實犯了一個被忽視的方法論錯誤。

**二、"特權知識"是什麼意思？**

在哲學領域，有一個概念叫"認識特權"（epistemic privilege），意思是說，某個人對自己內心狀態擁有獨一無二的訪問權限——這些內部資訊是外人無法直接觀察到的。你頭疼，只有你自己能感受到那種疼痛，醫生只能通過你的描述和外部檢查來推斷。

贊助商廣告

這篇研究把同樣的邏輯搬到了AI身上。當一個AI模型處理一個問題時，它的內部會產生一系列複雜的數學運算，研究者把這些內部狀態稱為"隱藏狀態"（hidden states）。這些隱藏狀態里，是否藏著外界無法得知的資訊——比如這個AI這次能不能答對——就是這篇論文要探究的核心。

研究團隊把這類資訊定義為"特權知識"：只有AI自己的內部狀態才能揭示的、關於自身答題正確性的信號。為了檢驗這種特權知識是否存在，他們設計了一個巧妙的對比實驗。

具體來說，他們訓練了一種叫做"探針"（probe）的小分類器。探針就像一個小偵探，專門盯著AI處理問題時留下的內部痕跡，然後預測：這個AI這次會不會答對？關鍵是，他們訓練了兩類探針：一類使用AI自己的內部狀態來做預測（自我探針），另一類使用另一個不同AI模型的內部狀態來做預測（外部探針）。如果自我探針明顯比外部探針更準確，那就說明AI確實擁有隻有自己才能"感知到"的特權知識。

兩者之間的性能差距，他們稱之為"溢價差距"（premium gap）——就像是說，使用"內部消息"究竟能比使用"公開資訊"多賺多少錢。

**三、第一個發現：表面上，AI看起來沒什麼"內部消息"**

研究團隊選用了三個規模相近的主流AI模型：Qwen-2.5-7B、Llama-3.1-8B和Gemma-2-9B，並在五個不同的數據集上測試它們。這五個數據集涵蓋兩類任務：一類是考察事實知識的（Mintaka、TriviaQA、HotPotQA，類似於問答類知識競賽題），另一類是考察數學推理能力的（MATH、GSM1K，類似於數學應用題）。

按照常規做法，他們先在完整的測試集上比較自我探針與外部探針的準確率。結果乍一看令人沮喪：在數學推理任務上，外部探針的表現幾乎與自我探針完全持平，溢價差距近乎為零；在事實知識任務上，自我探針只有微弱的優勢，而且在三個模型中有兩個模型的自我探針甚至不如來自其他AI的外部探針。

贊助商廣告

這個結果似乎印證了此前一些研究的結論：AI並不具備關於自身正確性的特權知識。外部觀察者和AI自身一樣能判斷它會不會答對。然而，這支研究團隊沒有就此打住，因為他們發現了一個被所有人忽視的重大漏洞。

**四、關鍵陷阱：當大家都答一樣的題，"內部消息"就被淹沒了**

考慮這樣一個場景：你和你的朋友一起參加同一場知識競賽。競賽結束後，有人想判斷你是否真的理解了某道題，於是他去問你的朋友："你覺得這道題，他答對了嗎？"在大多數情況下，你的朋友能給出相當準確的猜測，因為——這道題是公開的，大家看到的題目是一樣的，一道普遍被認為簡單的題，大家都答對；一道公認很難的題，大家都答錯。

這個邏輯放到AI身上同樣成立。研究團隊發現，這三個AI模型在回答同一批問題時，它們互相之間的答題正確率高度一致：在事實知識類問題上，模型之間大約有80%的問題答得一樣（要麼都對，要麼都錯）；在數學推理類問題上，這個比例也高達75%。

這種高度一致性製造了一個嚴重的干擾因素。當外部探針使用另一個AI的內部狀態來預測目標AI的正確性時，它其實是在利用一個便捷的"代理信號"：另一個AI的答題情況本身就能高度預測目標AI的答題情況，因為大家大多數時候答得一樣。這就好比一個偵探不需要掌握內部證據，只需要知道"大家都這麼幹"，就能猜對大多數情況。

這意味著，在這種高度一致的環境下，即使AI真的擁有某種只有自己才能感知到的內部信號，這個信號也會被外部模型的"公共資訊優勢"所淹沒，從而在統計結果上看不出任何溢價差距。這正是過去那些研究得出"AI沒有特權知識"結論的根本原因——他們的評估方式本身就存在系統性偏差。

研究團隊還注意到一個有趣的現象：在他們的實驗中，Gemma模型的表現特別強勢——作為外部探針時，它在線性探針實驗的9個事實知識配對中有7個拔得頭籌，在非線性MLP探針實驗中更是全部9個配對都是第一。但這種"強勢"到底意味著什麼呢？一種可能是：Gemma確實沒有特權知識，它只是對問題難度的公共資訊編碼得更好；另一種可能是：Gemma自己也有特權知識，而且由於它與目標模型高度一致，它的私有信號作為代理也非常有效，從而掩蓋了目標模型自身的內部信號。這兩種解釋在標準測試集上根本無法區分。

贊助商廣告

**五、破解陷阱：只盯住"意見分歧"的題目**

正因如此，這支研究團隊發明了一個精妙的解決方案：他們專門挑出那些"意見分歧"的題目來做評估。所謂分歧子集（disagreement subset），就是目標AI和外部AI在這道題上給出了相反的正確性結果的那部分問題——比如，Llama答對了，但Qwen答錯了。

這個設計的邏輯非常清晰：在這些分歧題目上，外部AI的答題情況與目標AI完全相反，所以外部探針無法再藉助"大家答得一樣"這個代理信號來取巧。如果外部探針此時還能預測準確，那就說明它真的在讀取目標AI的公共資訊；但如果此時只有自我探針還能保持優勢，那就說明AI的內部狀態中確實存在外人無法獲取的私有信號。

值得注意的是，他們在執行這個方案時有一個重要的設計細節：探針的訓練依然使用完整的訓練集，而不是只用分歧子集。這是因為，如果用分歧子集來訓練，自我探針和外部探針的標籤就會形成完美的負相關，外部探針只需要反轉自己的預測就能做到"正確"，這會造成人為的假象。所以，訓練在全集上進行，評估在分歧子集上進行——這樣才能真正隔離出特權知識的信號。

五個數據集中分歧子集的規模大致在整體數據的20%左右，數量仍然足夠進行統計分析。以三個模型兩兩配對為例，在TriviaQA這個數據集上，Gemma與Llama之間的分歧子集有1588個問題，Gemma與Qwen之間有2238個，Llama與Qwen之間有2320個，提供了充分的統計基礎。

**六、真正的答案：事實知識有特權，數學推理沒有**

在分歧子集上的評估結果，揭示了一個非常鮮明的領域分化。

在事實知識任務（Mintaka、TriviaQA、HotPotQA）上，自我探針對外部探針的溢價差距在統計上是顯著的，大約在5%左右，而且這個結論在全部9個實驗配置（3個目標模型×3個數據集）中都成立，無論使用線性探針還是非線性MLP探針，結論都保持一致。以Gemma模型在TriviaQA上的表現為例，分歧子集上的溢價差距為0.034（6.8%），達到統計顯著性（p

贊助商廣告

換句話說，AI在回答事實類知識問題時，它的內部確實藏著一種"只有自己才知道"的信號：它能感受到自己的記憶檢索成功了還是失敗了，而這種感受是外部觀察者無法複製的。

但在數學推理任務（MATH、GSM1K）上，情況截然不同。即使在分歧子集上，外部探針的表現也與自我探針持平甚至更好——在GSM1K上，外部探針經常明顯優於自我探針，溢價差距是負的。這意味著，在數學推理領域，AI並不擁有關於自身正確性的特權知識。一道數學題的難度特徵——它的題目結構、涉及的運算類型、問題的複雜程度——這些都是"公共資訊"，任何AI看到這道題都能大致判斷它有多難，而無需依賴某個特定AI的內部私有狀態。

這兩個發現合在一起，給出了一個清晰的結論：特權知識是領域特異的。它存在於事實知識檢索中，但不存在於數學推理中。

研究團隊還額外測試了一個規模更大的模型——Qwen-3-32B（參數量約為主要測試模型的四倍），結論與主要實驗保持一致。在完整測試集上沒有明顯的溢價差距，但在分歧子集上，事實知識任務中自我探針在TriviaQA和HotPotQA上仍然表現出統計顯著的優勢，而數學推理任務依然沒有特權知識的跡象。

**七、特權知識藏在哪一層？**

確認了特權知識的存在之後，研究團隊進一步追問：這種特權信號究竟是從AI網路的哪一層開始出現的？

大語言模型的內部結構可以理解為一棟多層樓的建築，資訊從底層逐步向上傳遞，每一層都對資訊進行加工和轉化。研究團隊對每隔五層取一次探針（加上最後一層），將自我探針與最佳外部探針在各層的性能差距繪製成曲線，縱軸是分歧子集上的溢價差距，橫軸是標準化的網路深度（0表示最淺層，1表示最深層）。

在事實知識任務上，這條曲線呈現出一個一致的上升趨勢：在最淺的幾層，溢價差距接近於零甚至略為負值，這說明最底層的表示主要編碼的是"公共資訊"，比如問題的語法結構和表面特徵，外部模型同樣能讀取。隨著層數加深，大約從第10到15層開始（對應標準化深度約0.25到0.40），溢價差距開始穩定地正向增加，並持續向更深層延伸。三個模型（Gemma、Llama、Qwen）在三個事實數據集上都呈現出這種一致的模式，儘管具體曲線形態略有差異。

贊助商廣告

這個模式與AI研究領域關於知識儲存機制的已有發現高度吻合。有研究表明，AI中的知識回憶過程主要發生在中間層，資訊在那裡從主題詞流向答案詞，這與這篇論文發現的"特權優勢從中間層開始出現並隨深度增強"完全對應。可以這樣理解：在淺層，AI只是在解析"這是一個關於什麼的問題"，這對所有AI來說都一樣；到了中間層，AI開始真正激活自己的記憶庫去檢索答案，而這個檢索成功與否的信號，是專屬於這個特定AI的私有狀態，外部AI根本沒有這方面的資訊。

在數學推理任務上，MATH的溢價差距曲線在整個網路深度範圍內都在零附近隨機波動，沒有任何上升趨勢；GSM1K的溢價差距在大多數層都是負值，意味著外部探針在絕大多數層都比自我探針更准。無論在哪一層，數學推理都沒有出現穩定的自我優勢，進一步證實了該領域不存在特權知識這一結論。

**八、是什麼在驅動正確率的預測？**

除了探究特權知識的位置，研究團隊還追問了一個更基礎的問題：探針在預測AI答題正確性時，到底依賴的是什麼資訊？

為此，他們設計了一個"詞彙剝離"控制實驗。他們把問題中的所有語法結構都去掉，只保留命名實體（比如人名、地名）和名詞，然後用這個"極簡版"問題輸入AI，提取隱藏狀態，再用這些隱藏狀態訓練探針，預測原始問題的答題正確性。

這個實驗的邏輯在於：如果概念層面的熟悉度（比如AI見過多少關於某個歷史人物的文本）是正確率的主要驅動因素，那麼即使剝去所有語法，只留下關鍵詞，探針也應該能保留大部分預測能力。

結果顯示，在事實知識數據集（Mintaka、TriviaQA、HotPotQA）上，詞彙剝離版本的探針分別保留了53.7%、75.0%和73.5%的原始預測性能（相對於隨機基線0.5 AUC的差距）。這說明，事實知識任務的正確率在很大程度上確實取決於AI對相關概念的熟悉程度——哪個名詞出現在問題里，AI就自動激活與該詞相關的知識儲備，這本身就是預測能否答對的重要線索。

贊助商廣告

MATH數據集上的詞彙剝離也保留了75.6%的預測性能，原因在於數學題中的專業詞彙（比如"特徵值"、"漸近線"）本身就攜帶了難度資訊——這類詞出現的題目天然就比較難。

但GSM1K（小學到初中難度的應用題）卻完全相反：詞彙剝離版本的探針性能幾乎跌至隨機水平（AUC約0.49）。這是因為GSM1K的題目通常涉及"儲蓄賬戶"、"蘋果"、"50美元"之類的日常詞彙，這些詞本身不攜帶任何難度信號；真正決定這道題難不難的，是題目的邏輯結構和運算步驟的複雜性，而這些資訊在去掉語法之後就蕩然無存了。

**九、為什麼這件事對你我都有意義**

說到底，這項研究的意義遠不止於學術層面的知識滿足感。

它首先澄清了一個方法論問題。過去很多研究聲稱AI對自身正確性沒有特權感知，但這篇論文揭示，這些研究的評估方式存在根本性缺陷——模型間的高度一致性使外部探針可以"免費搭車"，偽裝成與自我探針等效。正確的評估方式應該專門針對模型間存在分歧的樣本，才能真正隔離出內部信號。

更實際的含義是：在AI的事實知識領域，模型內部確實藏有一種可以被提取和利用的"自我感知"信號。這對AI幻覺檢測（也就是判斷AI什麼時候在編造資訊）具有直接價值。現有的很多幻覺檢測方法依賴外部手段，而這項研究表明，在事實問答場景中，直接讀取AI自身的內部激活狀態可以提供額外的、不可替代的資訊。

但這種信號是有邊界的——在數學推理任務上，AI並沒有這種內部感知，題目本身的公共結構特徵就決定了一切。這意味著，如果你想監控一個AI在數學計算上會不會出錯，僅靠觀察它的內部狀態是不夠的，你需要更多地關注問題本身的性質。

這項研究本身的分析是相關性的，研究團隊坦誠地指出，他們尚未通過干預實驗來驗證因果關係。一個頗具想像力的後續方向是所謂的"激活引導"：如果研究者能找到正確性信號在殘差流中的方向，然後人為地沿這個方向推動激活值，是否真的能讓AI更頻繁地答對？這種實驗將直接檢驗這條內部信號的因果力量，而非僅僅觀察它的存在。

贊助商廣告

研究團隊還指出了他們工作的其他局限：主要實驗的模型規模集中在70億到90億參數之間，更大規模的模型可能呈現不同的模式；研究範圍局限於事實知識和數學推理這兩類任務，編程、常識推理等混合領域還有待探索；探針方法本質上只能檢測線性或有限非線性的信號，更複雜的內部表示方式可能還需要其他工具來挖掘。

歸根結底，這篇論文講的是一個關於"自知之明"的故事——不是人類的，而是AI的。事實證明，當AI在檢索知識時，它的內部確實留下了只有自己才能感受到的痕跡；但當AI在做數學推理時，它的內心對自己會不會算錯這件事，並沒有任何特別的洞察，和旁觀者一樣"盲目"。這個有趣的不對稱，或許能幫助我們更清醒地理解AI究竟能在哪些地方"信任自己"，在哪些地方仍需要外部校驗。

有興趣深入了解這項研究的完整細節、數學推導和全部實驗數據的讀者，可以通過arXiv編號2604.12373找到完整論文。

---

Q&A

Q1：什麼是大語言模型的"特權知識"，為什麼它對判斷AI是否會答錯很重要？

A：大語言模型的"特權知識"指的是藏在AI內部狀態中、只有AI自身才能"感知到"的關於自己答題正確性的信號，外部觀察者通過查看問題本身或其他AI的表現都無法獲得這些資訊。它的重要性在於：如果這種信號真實存在，就可以在AI給出錯誤答案之前從其內部狀態中提取預警，這對防止AI在事實問答中"一本正經地胡說八道"（即幻覺問題）具有直接實用價值。

Q2：為什麼以前的研究說AI沒有特權知識，而這篇研究說有？

A：以前的研究在完整測試集上做評估，但忽略了一個關鍵問題：不同AI模型對同一批問題的答題正確率高度一致（約75%到80%的問題大家都答一樣），這使得"外部AI的答題情況"本身就是一個強力代理信號，讓外部探針看起來和自我探針一樣好。這篇研究專門針對不同AI給出相反結果的"分歧題目"進行評估，消除了這個代理信號，才真正隔離出了AI內部私有信號的貢獻。

贊助商廣告

Q3：大語言模型在數學題上為什麼沒有關於自身正確性的特權知識？

A：在數學推理任務中，一道題能不能做對，主要取決於題目本身的結構複雜性和運算步驟的難度，這些特徵是"公開可見"的，任何AI看到這道題都能對難度做出大致相同的判斷，不需要依賴某個特定AI的內部私有狀態。換句話說，數學題的難度是一種客觀的公共屬性，而不是某個AI獨有的主觀感受，所以外部觀察者和AI自身對"會不會答對"的判斷能力是相當的。