這項由以色列理工學院(Technion – Israel Institute of Technology)與IBM研究院(IBM Research)聯合開展的研究,以預印本形式發表於2026年4月14日,論文編號為arXiv:2604.12373,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整原文。
**一、當AI"照鏡子":它能看見自己的盲點嗎?**
每個人都有過這樣的經歷:考完試走出考場,有時候心裡篤定某道題答對了,有時候又隱隱感覺哪裡不對勁。這種"對自己答案的感覺",心理學上叫做內省(introspection)——人類通過感知自己內心的狀態,來判斷自己是否真正理解了某件事。
那麼,現在風靡全球的大語言模型(也就是我們常說的大型AI聊天系統,比如那些能寫文章、做數學題的AI),它們有沒有類似的能力呢?當AI回答一個問題時,它的"內心"是否存在某種信號,能告訴自己"這次我回答對了"或者"這次我可能搞砸了"?
這個問題聽起來有點哲學,但它其實非常實際。如果AI真的擁有這種"內部感知",我們就可以在AI說錯話之前就察覺到風險,從而更好地防止AI胡說八道(也就是所謂的"幻覺"問題)。反之,如果AI的"內部狀態"和它的正確率毫無關係,那我們就不能依靠AI自己來做質量把關。
這支由以色列理工學院和IBM研究院組成的研究團隊,決定用一套嚴謹的實驗來回答這個問題。他們的核心發現頗為耐人尋味:AI確實在某些領域擁有這種"特權式的自我感知",但並不是在所有領域都有——而且,過去那些聲稱AI沒有這種能力的研究,其實犯了一個被忽視的方法論錯誤。
**二、"特權知識"是什麼意思?**
在哲學領域,有一個概念叫"認識特權"(epistemic privilege),意思是說,某個人對自己內心狀態擁有獨一無二的訪問權限——這些內部資訊是外人無法直接觀察到的。你頭疼,只有你自己能感受到那種疼痛,醫生只能通過你的描述和外部檢查來推斷。
這篇研究把同樣的邏輯搬到了AI身上。當一個AI模型處理一個問題時,它的內部會產生一系列複雜的數學運算,研究者把這些內部狀態稱為"隱藏狀態"(hidden states)。這些隱藏狀態里,是否藏著外界無法得知的資訊——比如這個AI這次能不能答對——就是這篇論文要探究的核心。
研究團隊把這類資訊定義為"特權知識":只有AI自己的內部狀態才能揭示的、關於自身答題正確性的信號。為了檢驗這種特權知識是否存在,他們設計了一個巧妙的對比實驗。
具體來說,他們訓練了一種叫做"探針"(probe)的小分類器。探針就像一個小偵探,專門盯著AI處理問題時留下的內部痕跡,然後預測:這個AI這次會不會答對?關鍵是,他們訓練了兩類探針:一類使用AI自己的內部狀態來做預測(自我探針),另一類使用另一個不同AI模型的內部狀態來做預測(外部探針)。如果自我探針明顯比外部探針更準確,那就說明AI確實擁有隻有自己才能"感知到"的特權知識。
兩者之間的性能差距,他們稱之為"溢價差距"(premium gap)——就像是說,使用"內部消息"究竟能比使用"公開資訊"多賺多少錢。
**三、第一個發現:表面上,AI看起來沒什麼"內部消息"**
研究團隊選用了三個規模相近的主流AI模型:Qwen-2.5-7B、Llama-3.1-8B和Gemma-2-9B,並在五個不同的數據集上測試它們。這五個數據集涵蓋兩類任務:一類是考察事實知識的(Mintaka、TriviaQA、HotPotQA,類似於問答類知識競賽題),另一類是考察數學推理能力的(MATH、GSM1K,類似於數學應用題)。
按照常規做法,他們先在完整的測試集上比較自我探針與外部探針的準確率。結果乍一看令人沮喪:在數學推理任務上,外部探針的表現幾乎與自我探針完全持平,溢價差距近乎為零;在事實知識任務上,自我探針只有微弱的優勢,而且在三個模型中有兩個模型的自我探針甚至不如來自其他AI的外部探針。
這個結果似乎印證了此前一些研究的結論:AI並不具備關於自身正確性的特權知識。外部觀察者和AI自身一樣能判斷它會不會答對。然而,這支研究團隊沒有就此打住,因為他們發現了一個被所有人忽視的重大漏洞。
**四、關鍵陷阱:當大家都答一樣的題,"內部消息"就被淹沒了**
考慮這樣一個場景:你和你的朋友一起參加同一場知識競賽。競賽結束後,有人想判斷你是否真的理解了某道題,於是他去問你的朋友:"你覺得這道題,他答對了嗎?"在大多數情況下,你的朋友能給出相當準確的猜測,因為——這道題是公開的,大家看到的題目是一樣的,一道普遍被認為簡單的題,大家都答對;一道公認很難的題,大家都答錯。
這個邏輯放到AI身上同樣成立。研究團隊發現,這三個AI模型在回答同一批問題時,它們互相之間的答題正確率高度一致:在事實知識類問題上,模型之間大約有80%的問題答得一樣(要麼都對,要麼都錯);在數學推理類問題上,這個比例也高達75%。
這種高度一致性製造了一個嚴重的干擾因素。當外部探針使用另一個AI的內部狀態來預測目標AI的正確性時,它其實是在利用一個便捷的"代理信號":另一個AI的答題情況本身就能高度預測目標AI的答題情況,因為大家大多數時候答得一樣。這就好比一個偵探不需要掌握內部證據,只需要知道"大家都這麼幹",就能猜對大多數情況。
這意味著,在這種高度一致的環境下,即使AI真的擁有某種只有自己才能感知到的內部信號,這個信號也會被外部模型的"公共資訊優勢"所淹沒,從而在統計結果上看不出任何溢價差距。這正是過去那些研究得出"AI沒有特權知識"結論的根本原因——他們的評估方式本身就存在系統性偏差。
研究團隊還注意到一個有趣的現象:在他們的實驗中,Gemma模型的表現特別強勢——作為外部探針時,它在線性探針實驗的9個事實知識配對中有7個拔得頭籌,在非線性MLP探針實驗中更是全部9個配對都是第一。但這種"強勢"到底意味著什麼呢?一種可能是:Gemma確實沒有特權知識,它只是對問題難度的公共資訊編碼得更好;另一種可能是:Gemma自己也有特權知識,而且由於它與目標模型高度一致,它的私有信號作為代理也非常有效,從而掩蓋了目標模型自身的內部信號。這兩種解釋在標準測試集上根本無法區分。
**五、破解陷阱:只盯住"意見分歧"的題目**
正因如此,這支研究團隊發明了一個精妙的解決方案:他們專門挑出那些"意見分歧"的題目來做評估。所謂分歧子集(disagreement subset),就是目標AI和外部AI在這道題上給出了相反的正確性結果的那部分問題——比如,Llama答對了,但Qwen答錯了。
這個設計的邏輯非常清晰:在這些分歧題目上,外部AI的答題情況與目標AI完全相反,所以外部探針無法再藉助"大家答得一樣"這個代理信號來取巧。如果外部探針此時還能預測準確,那就說明它真的在讀取目標AI的公共資訊;但如果此時只有自我探針還能保持優勢,那就說明AI的內部狀態中確實存在外人無法獲取的私有信號。
值得注意的是,他們在執行這個方案時有一個重要的設計細節:探針的訓練依然使用完整的訓練集,而不是只用分歧子集。這是因為,如果用分歧子集來訓練,自我探針和外部探針的標籤就會形成完美的負相關,外部探針只需要反轉自己的預測就能做到"正確",這會造成人為的假象。所以,訓練在全集上進行,評估在分歧子集上進行——這樣才能真正隔離出特權知識的信號。
五個數據集中分歧子集的規模大致在整體數據的20%左右,數量仍然足夠進行統計分析。以三個模型兩兩配對為例,在TriviaQA這個數據集上,Gemma與Llama之間的分歧子集有1588個問題,Gemma與Qwen之間有2238個,Llama與Qwen之間有2320個,提供了充分的統計基礎。
**六、真正的答案:事實知識有特權,數學推理沒有**
在分歧子集上的評估結果,揭示了一個非常鮮明的領域分化。
在事實知識任務(Mintaka、TriviaQA、HotPotQA)上,自我探針對外部探針的溢價差距在統計上是顯著的,大約在5%左右,而且這個結論在全部9個實驗配置(3個目標模型×3個數據集)中都成立,無論使用線性探針還是非線性MLP探針,結論都保持一致。以Gemma模型在TriviaQA上的表現為例,分歧子集上的溢價差距為0.034(6.8%),達到統計顯著性(p
換句話說,AI在回答事實類知識問題時,它的內部確實藏著一種"只有自己才知道"的信號:它能感受到自己的記憶檢索成功了還是失敗了,而這種感受是外部觀察者無法複製的。
但在數學推理任務(MATH、GSM1K)上,情況截然不同。即使在分歧子集上,外部探針的表現也與自我探針持平甚至更好——在GSM1K上,外部探針經常明顯優於自我探針,溢價差距是負的。這意味著,在數學推理領域,AI並不擁有關於自身正確性的特權知識。一道數學題的難度特徵——它的題目結構、涉及的運算類型、問題的複雜程度——這些都是"公共資訊",任何AI看到這道題都能大致判斷它有多難,而無需依賴某個特定AI的內部私有狀態。
這兩個發現合在一起,給出了一個清晰的結論:特權知識是領域特異的。它存在於事實知識檢索中,但不存在於數學推理中。
研究團隊還額外測試了一個規模更大的模型——Qwen-3-32B(參數量約為主要測試模型的四倍),結論與主要實驗保持一致。在完整測試集上沒有明顯的溢價差距,但在分歧子集上,事實知識任務中自我探針在TriviaQA和HotPotQA上仍然表現出統計顯著的優勢,而數學推理任務依然沒有特權知識的跡象。
**七、特權知識藏在哪一層?**
確認了特權知識的存在之後,研究團隊進一步追問:這種特權信號究竟是從AI網路的哪一層開始出現的?
大語言模型的內部結構可以理解為一棟多層樓的建築,資訊從底層逐步向上傳遞,每一層都對資訊進行加工和轉化。研究團隊對每隔五層取一次探針(加上最後一層),將自我探針與最佳外部探針在各層的性能差距繪製成曲線,縱軸是分歧子集上的溢價差距,橫軸是標準化的網路深度(0表示最淺層,1表示最深層)。
在事實知識任務上,這條曲線呈現出一個一致的上升趨勢:在最淺的幾層,溢價差距接近於零甚至略為負值,這說明最底層的表示主要編碼的是"公共資訊",比如問題的語法結構和表面特徵,外部模型同樣能讀取。隨著層數加深,大約從第10到15層開始(對應標準化深度約0.25到0.40),溢價差距開始穩定地正向增加,並持續向更深層延伸。三個模型(Gemma、Llama、Qwen)在三個事實數據集上都呈現出這種一致的模式,儘管具體曲線形態略有差異。
這個模式與AI研究領域關於知識儲存機制的已有發現高度吻合。有研究表明,AI中的知識回憶過程主要發生在中間層,資訊在那裡從主題詞流向答案詞,這與這篇論文發現的"特權優勢從中間層開始出現並隨深度增強"完全對應。可以這樣理解:在淺層,AI只是在解析"這是一個關於什麼的問題",這對所有AI來說都一樣;到了中間層,AI開始真正激活自己的記憶庫去檢索答案,而這個檢索成功與否的信號,是專屬於這個特定AI的私有狀態,外部AI根本沒有這方面的資訊。
在數學推理任務上,MATH的溢價差距曲線在整個網路深度範圍內都在零附近隨機波動,沒有任何上升趨勢;GSM1K的溢價差距在大多數層都是負值,意味著外部探針在絕大多數層都比自我探針更准。無論在哪一層,數學推理都沒有出現穩定的自我優勢,進一步證實了該領域不存在特權知識這一結論。
**八、是什麼在驅動正確率的預測?**
除了探究特權知識的位置,研究團隊還追問了一個更基礎的問題:探針在預測AI答題正確性時,到底依賴的是什麼資訊?
為此,他們設計了一個"詞彙剝離"控制實驗。他們把問題中的所有語法結構都去掉,只保留命名實體(比如人名、地名)和名詞,然後用這個"極簡版"問題輸入AI,提取隱藏狀態,再用這些隱藏狀態訓練探針,預測原始問題的答題正確性。
這個實驗的邏輯在於:如果概念層面的熟悉度(比如AI見過多少關於某個歷史人物的文本)是正確率的主要驅動因素,那麼即使剝去所有語法,只留下關鍵詞,探針也應該能保留大部分預測能力。
結果顯示,在事實知識數據集(Mintaka、TriviaQA、HotPotQA)上,詞彙剝離版本的探針分別保留了53.7%、75.0%和73.5%的原始預測性能(相對於隨機基線0.5 AUC的差距)。這說明,事實知識任務的正確率在很大程度上確實取決於AI對相關概念的熟悉程度——哪個名詞出現在問題里,AI就自動激活與該詞相關的知識儲備,這本身就是預測能否答對的重要線索。
MATH數據集上的詞彙剝離也保留了75.6%的預測性能,原因在於數學題中的專業詞彙(比如"特徵值"、"漸近線")本身就攜帶了難度資訊——這類詞出現的題目天然就比較難。
但GSM1K(小學到初中難度的應用題)卻完全相反:詞彙剝離版本的探針性能幾乎跌至隨機水平(AUC約0.49)。這是因為GSM1K的題目通常涉及"儲蓄賬戶"、"蘋果"、"50美元"之類的日常詞彙,這些詞本身不攜帶任何難度信號;真正決定這道題難不難的,是題目的邏輯結構和運算步驟的複雜性,而這些資訊在去掉語法之後就蕩然無存了。
**九、為什麼這件事對你我都有意義**
說到底,這項研究的意義遠不止於學術層面的知識滿足感。
它首先澄清了一個方法論問題。過去很多研究聲稱AI對自身正確性沒有特權感知,但這篇論文揭示,這些研究的評估方式存在根本性缺陷——模型間的高度一致性使外部探針可以"免費搭車",偽裝成與自我探針等效。正確的評估方式應該專門針對模型間存在分歧的樣本,才能真正隔離出內部信號。
更實際的含義是:在AI的事實知識領域,模型內部確實藏有一種可以被提取和利用的"自我感知"信號。這對AI幻覺檢測(也就是判斷AI什麼時候在編造資訊)具有直接價值。現有的很多幻覺檢測方法依賴外部手段,而這項研究表明,在事實問答場景中,直接讀取AI自身的內部激活狀態可以提供額外的、不可替代的資訊。
但這種信號是有邊界的——在數學推理任務上,AI並沒有這種內部感知,題目本身的公共結構特徵就決定了一切。這意味著,如果你想監控一個AI在數學計算上會不會出錯,僅靠觀察它的內部狀態是不夠的,你需要更多地關注問題本身的性質。
這項研究本身的分析是相關性的,研究團隊坦誠地指出,他們尚未通過干預實驗來驗證因果關係。一個頗具想像力的後續方向是所謂的"激活引導":如果研究者能找到正確性信號在殘差流中的方向,然後人為地沿這個方向推動激活值,是否真的能讓AI更頻繁地答對?這種實驗將直接檢驗這條內部信號的因果力量,而非僅僅觀察它的存在。
研究團隊還指出了他們工作的其他局限:主要實驗的模型規模集中在70億到90億參數之間,更大規模的模型可能呈現不同的模式;研究範圍局限於事實知識和數學推理這兩類任務,編程、常識推理等混合領域還有待探索;探針方法本質上只能檢測線性或有限非線性的信號,更複雜的內部表示方式可能還需要其他工具來挖掘。
歸根結底,這篇論文講的是一個關於"自知之明"的故事——不是人類的,而是AI的。事實證明,當AI在檢索知識時,它的內部確實留下了只有自己才能感受到的痕跡;但當AI在做數學推理時,它的內心對自己會不會算錯這件事,並沒有任何特別的洞察,和旁觀者一樣"盲目"。這個有趣的不對稱,或許能幫助我們更清醒地理解AI究竟能在哪些地方"信任自己",在哪些地方仍需要外部校驗。
有興趣深入了解這項研究的完整細節、數學推導和全部實驗數據的讀者,可以通過arXiv編號2604.12373找到完整論文。
---
Q&A
Q1:什麼是大語言模型的"特權知識",為什麼它對判斷AI是否會答錯很重要?
A:大語言模型的"特權知識"指的是藏在AI內部狀態中、只有AI自身才能"感知到"的關於自己答題正確性的信號,外部觀察者通過查看問題本身或其他AI的表現都無法獲得這些資訊。它的重要性在於:如果這種信號真實存在,就可以在AI給出錯誤答案之前從其內部狀態中提取預警,這對防止AI在事實問答中"一本正經地胡說八道"(即幻覺問題)具有直接實用價值。
Q2:為什麼以前的研究說AI沒有特權知識,而這篇研究說有?
A:以前的研究在完整測試集上做評估,但忽略了一個關鍵問題:不同AI模型對同一批問題的答題正確率高度一致(約75%到80%的問題大家都答一樣),這使得"外部AI的答題情況"本身就是一個強力代理信號,讓外部探針看起來和自我探針一樣好。這篇研究專門針對不同AI給出相反結果的"分歧題目"進行評估,消除了這個代理信號,才真正隔離出了AI內部私有信號的貢獻。
Q3:大語言模型在數學題上為什麼沒有關於自身正確性的特權知識?
A:在數學推理任務中,一道題能不能做對,主要取決於題目本身的結構複雜性和運算步驟的難度,這些特徵是"公開可見"的,任何AI看到這道題都能對難度做出大致相同的判斷,不需要依賴某個特定AI的內部私有狀態。換句話說,數學題的難度是一種客觀的公共屬性,而不是某個AI獨有的主觀感受,所以外部觀察者和AI自身對"會不會答對"的判斷能力是相當的。






