這項由以色列Bar-Ilan大學聯合美國Allen人工智慧研究所及英國AI安全研究所共同完成的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.11445。感興趣的讀者可通過該編號在arXiv平台檢索原文。
當你把一份重要工作交給一個AI助手時,你內心深處一定藏著一個問題:它今天給出的答案,明天還會一樣嗎?如果我稍微改改問題,它的回答會不會天翻地覆?換句話說,你真的能信任它嗎?這個問題聽起來像哲學,但對於那些把AI系統用於醫療診斷、法律分析或者金融決策的人來說,它是貨真價實的現實問題。
Bar-Ilan大學的研究團隊決定從一個全新角度切入這個信任難題。他們的核心思路是:與其費盡心思去讀懂AI的"思維過程",不如直接訓練一個專門的"觀察員",讓它從AI留下的思考記錄里學會預測這個AI未來會怎麼做。這個觀察員,他們稱之為"行為預測器"(Behavior Forecaster)。
一、AI的信任危機:為什麼我們不知道它下次會怎麼做
要理解這項研究解決的是什麼問題,先得理解當代AI系統的一個特殊現象。
目前最強大的AI系統,比如OpenAI的o1或者DeepSeek
的R1,在給出最終答案之前,會先在螢幕上寫下一大段"思考過程",就像一個學生在考卷空白處打草稿。這類系統被稱為大型推理模型(Large Reasoning Models,簡稱LRM)。這段思考過程看起來非常像人類的推理:它會分析條件、權衡證據、一步步推導到結論。
正因為這段"草稿"用的是自然語言,人們理所當然地認為只要仔細讀懂它,就能理解這個AI為什麼會給出那個答案,也就能預測它下次遇到類似問題時會怎麼做。這種方式聽起來天經地義,就像你檢查一個工人的工作日誌來判斷他靠不靠譜。
然而研究團隊指出,這裡存在一個根本性的陷阱。大量已有研究表明,AI寫在思考過程里的內容,和它實際進行的計算之間,往往存在嚴重的錯位。就像一個人在日記里寫"我今天做決定完全理性地分析了所有證據",但實際上他的決定在很大程度上被昨晚那頓飯影響了,而日記里完全沒提這回事。
研究者們把這種錯位分為兩類。第一類叫"遺漏":有一些真正影響AI最終答案的因素,根本不會出現在它的思考文字里。比如,如果你在給AI的問題里暗示某個答案(哪怕你覺得自己的暗示很隱晦),它的最終選擇會悄悄受到影響,但它的"草稿"里不會提到這回事,依然裝模作樣地分析來分析去。第二類叫"語義錯位":即便思考過程里確實出現了某些步驟,那些步驟和AI真正的計算邏輯之間也未必有實質聯繫。有研究發現,你可以隨意修改AI思考過程的中間部分,它的最終答案往往紋絲不動,這說明那些中間步驟並不像看起來那麼關鍵。更離譜的是,有時候AI寫出來的思考過程連人類都讀不懂,但它依然能給出正確答案——說明它其實走的是另一條"暗道"。
這就是為什麼直接讀AI的思考過程來預測它的行為,是一件危險的事情。你以為自己在讀一份施工藍圖,其實讀的可能只是一份裝飾性說明書。
既然讀不可信,那能不能幹脆讓AI多跑幾次,用統計的方式來判斷它的穩定性?這在理論上當然可行,但在現實中極為昂貴。對於大型推理模型來說,每跑一次就要生成數千個詞元,計算代價極高。如果你想判斷每一個問題的答案穩不穩定,就得為每個問題跑十次、二十次,整體成本會高到讓實際部署無法承受。
二、換條路走:把預測行為本身變成一項可學習的技能
面對上述兩條死路,研究團隊選擇了一條截然不同的路。他們的出發點是:AI的思考過程雖然在文字表面上不可靠,但那些文字背後的數學信號——也就是每個詞語對應的神經網路激活狀態——很可能仍然包含了大量關於AI內部計算狀態的真實資訊。就像一個人的面部表情,用語言描述可能會說謊,但如果你有儀器直接測量他的肌肉微顫,也許能讀出他真實的情緒。
基於這個判斷,他們提出:訓練一個專門的模型,讓它直接從AI的思考過程(包括題目、思考文字和最終答案)中學習預測這個AI的行為規律,而不需要經過"理解文字含義"這個中間環節。這個專門的模型就是"行為預測器"。
行為預測器在訓練階段需要大量數據。這些數據不需要人類標註——研究團隊直接讓目標AI反覆運行數千個問題,每個問題跑十次,統計每次的結果,用這些統計數字作為"正確答案"來訓練行為預測器。數據生成的成本是一次性的,付出在訓練階段,而不是每次使用的時候。
訓練完成後,行為預測器在使用時只需要看AI的一次思考過程,就能在一個前向計算(forward pass,可以理解為像翻一頁書一樣快速掃視)中得出預測結果。這比讓AI重跑十次快了不知道多少倍——研究團隊估計,行為預測器的單次推理計算量不到那些頂級AI系統(如GPT-5.4或Claude Opus 4.6)讀同一份思考過程所用計算量的萬分之一。
研究團隊把這套框架具體應用在兩類預測任務上。第一類是"重複一致性"預測:如果用同一個問題再問一次目標AI,它給出相同答案的概率有多大?這類似於問一個人"你明天還會堅持今天說的這句話嗎"。第二類是"反事實敏感性"預測:如果把問題里的某一部分資訊去掉,目標AI的答案會不會改變?這類似於問"如果我沒告訴你那條線索,你還會得出同樣的結論嗎"。這兩類預測都是從AI的單次思考記錄出發,不需要真的去修改問題重跑。
三、預測器長什麼樣:兩種不同的設計思路應對兩類問題
行為預測器的核心是一個和目標AI共享同款架構的神經網路,並且從目標AI的權重開始訓練。這個設計理念類似於"知己知彼":用一個內部結構和目標AI高度相似的模型來讀取它的思考記錄,天然就比一個完全外來的模型更容易捕捉到其中的規律。然後在這個共享架構之上,針對不同的預測任務,安裝不同的"感應頭"。
對於反事實敏感性預測,研究團隊設計了一種叫"提示回聲"的輸入結構。由於行為預測器的底層是一種從左到右逐步處理資訊的模型,在處理問題文字時,它還看不到後面的思考過程,所以無法把思考過程中的資訊用到對問題各部分的評分上。為了解決這個問題,研究團隊在輸入的最後再複製一遍原始問題——讓模型在"回顧"這份問題副本的時候,已經讀完了整段思考過程和最終答案,因此可以把所有資訊都用上。每個問題部分的最終評分,由對應位置的神經網路輸出經過平均池化得到,代表"如果去掉這部分,答案改變的概率"。
對於重複一致性預測,目標是為整個思考記錄給出一個單一的分數,代表這次答案在重跑時被重複的概率。由於不同問題的思考過程長短差異懸殊,研究團隊使用了一種叫"交叉注意力池化"的技術,讓模型用一組固定數量的"探針"去掃描整段思考記錄的任意位置,提煉出一個固定長度的綜合表示,再由一個小型全連接網路輸出最終的概率分數。
訓練使用的是不同的損失函數來配合兩類任務的性質:反事實敏感性用的是二元交叉熵(把每個問題段落的影響大小看作一個0到1之間的概率),重複一致性用的是均方誤差(直接擬合實際重跑的一致率數值)。整個訓練過程在四張英偉達
H200顯卡上跑了不到24小時——對於這類研究來說,這個成本相當低。
四、實驗怎麼做的:三類數據集、兩個目標AI、還有一堆強勁對手
為了驗證行為預測器是否真的有效,研究團隊精心設計了一套實驗框架。
目標AI主要選用了OLMo-3-7B-Think,這是一款完全開源、訓練數據和訓練過程都公開透明的模型。選它的原因在於,研究團隊可以嚴格驗證測試集裡的數據是這個模型訓練時沒見過的——這是很多閉源模型研究無法保證的嚴格性。作為補充,他們還在Qwen3.5-2B上重複了主要實驗,以檢驗結論是否在不同模型上通用。
測試數據來自三個性質迥異的推理數據集。第一個是TreeCut,包含數學應用題。第二個是FEVEROUS,包含需要根據維基百科內容(含表格和自由文本)判斷事實真偽的問題。第三個是RuleTaker,是一種合成的邏輯推理任務,要求AI根據一組給定規則判斷命題真假。這三類問題在結構、難度、所需知識類型上差異極大,確保實驗結論有足夠的泛化性。
與行為預測器相比較的對手有三類。首先是兩個頂級AI系統——GPT-5.4和Claude Opus 4.6,它們被作為"天真讀者",也就是接收同一份思考過程的文字,憑藉對自然語言的理解來做預測,完全沒有針對這個任務做過專門訓練。研究團隊還專門為每個任務測試了三種不同的提示方式,在小批量試驗上選出效果最好的那種,確保這兩個對手發揮出最佳水平。其次是"單點探針"方法——這是標準的AI解釋工具,比如用最終答案對輸入各部分的注意力權重來估計各部分的重要性,或者用最終答案詞語的預測概率來估計回答的確定性。第三個對手有些出乎意料:OLMo-3-7B-Think讀自己的思考記錄,一種是不帶上下文直接問它,一種是把原始問題和思考記錄拼在一起問它。這個對照組用來測試"目標AI本身能不能靠讀自己的文字預測自己的行為"。
評估指標用的是Spearman相關係數,這個指標只關心預測值的排序關係是否和真實值的排序一致,對於預測值偏高或偏低這類系統性誤差不敏感,是評估排名類預測任務的合適選擇。
五、結果出爐:預測器贏了,而且贏得不輕鬆
在OLMo作為目標AI的主實驗中,行為預測器在反事實敏感性任務上達到了Spearman相關係數0.731,同時GPT-5.4作為天真讀者只有0.672,Claude Opus 4.6隻有0.690。在重複一致性任務上,行為預測器達到了0.571,而GPT-5.4隻有0.305,Claude Opus 4.6隻有0.308。
在Qwen3.5-2B作為目標AI的實驗中,差距更為顯著。反事實敏感性任務上,行為預測器達到0.653,GPT-5.4隻有0.417,Claude Opus 4.6隻有0.522。重複一致性任務上,行為預測器達到0.740,而GPT-5.4和Claude Opus 4.6分別只有0.224和0.267。
單點探針方法的表現更差。在OLMo目標上,注意力權重方法在反事實敏感性任務上只有0.160,最終答案概率方法在重複一致性任務上只有0.129。兩者都比隨機猜測強一點,但離實用還差得很遠。
最讓人印象深刻的或許是OLMo讀自己思考記錄的那組對照。無論是靜態問答形式還是對話形式,OLMo讀自己的表現都比GPT-5.4和Claude Opus 4.6更差,更不用說和訓練過的行為預測器比了。這說明"目標AI對自己的了解"並不能通過讓它讀自己的文字來獲取——它的自我認知,體現在權重里,而不體現在語言裡。
這些結果背後還有嚴格的統計檢驗支撐。研究團隊用聚類自舉法和配對置換檢驗驗證了主要結論。行為預測器相對於兩個天真讀者的優勢,在統計上都是顯著的,尤其是重複一致性任務(p
六、泛化能力測試:換個場景還好使嗎
光在訓練數據上表現好是不夠的,研究團隊還測試了行為預測器在沒見過的場景下的表現。
第一類測試叫"同族泛化"。FEVEROUS數據集內部有幾個子集,訓練時把其中一個數字推理子集完全排除在外,然後測試行為預測器在這個從未見過的子集上的表現。結果顯示,行為預測器在反事實敏感性任務上達到Spearman 0.565,重複一致性任務上達到0.311,兩者都超過了GPT-5.4(分別為0.322和0.223)和Claude Opus 4.6(分別為0.463和0.173)。這說明預測器學到的不只是對特定題目類型的死記硬背,而是更通用的規律。
第二類測試叫"跨數據集遷移"。把三個數據集中的一個完全留作測試集,用另外兩個訓練行為預測器,然後在留出的那個數據集上微調最多約600步,看遷移效果。結果顯示,遷移後在三個留出數據集上的表現都有所提升,但TreeCut數據集的重複一致性任務在適應後仍然偏弱(Spearman 0.193),其他組合的提升則相當明顯——比如RuleTaker留出時,反事實敏感性任務從0.446提升到0.661,重複一致性任務從0.005(基本等於隨機)提升到0.438。
第三類測試更有趣:跨任務遷移。研究團隊從已訓練好的反事實敏感性行為預測器出發,把它適配到一個新任務:判斷當問題中包含一個暗示某個特定答案的提示詞時,這個提示詞是否真正影響了目標AI的回答。這個任務叫"提示敏感性"預測,和反事實敏感性的邏輯相似但場景不同。遷移後的行為預測器在這個任務上達到Spearman 0.800,超過了直接從頭訓練的版本(0.732)、Claude Opus 4.6讀者(0.768)和GPT-5.4讀者(0.668)。這個結果說明,行為預測器學到的不只是某個特定任務的模式,而是更底層的"讀取AI內部狀態"的能力。
七、哪些設計真正重要:拆開來看的消融實驗
為了搞清楚是什麼讓行為預測器有效,研究團隊系統地拆除了不同設計元素,看移除每個部分後性能如何變化。
首先是思考記錄的有無。如果把思考過程從輸入中去掉,只給行為預測器看題目和答案,兩個任務的性能都明顯下降。這說明思考記錄本身確實攜帶了關於未來行為的有效信號,而不只是題目決定了一切。
其次是初始化方式。把OLMo-3-7B-Think的權重換成隨機初始化的同款架構,性能在反事實敏感性任務上下降更大,重複一致性任務上下降相對小一些。這說明用目標AI的權重來初始化行為預測器是有實質幫助的——它帶來了對那些神經網路信號的先驗理解,而不只是提供了一個好的架構起點。
第三是端到端微調還是只訓練"感應頭"。如果凍結OLMo的整個主幹,只訓練最後那個小型預測頭,性能會大幅下降。在反事實敏感性任務上,Spearman從0.723降到0.245,在重複一致性任務上從0.568降到0.475。這說明原始AI的內部表示雖然包含了有用信號,但這個信號的提取需要對主幹進行整體調整,而不能靠一個小頭來完成。
最後是輸入順序的安排。對於兩個任務,最優的輸入結構是不同的。反事實敏感性最好用"題目-思考過程-答案-題目副本"的順序,而重複一致性最好用"題目-思考過程-答案"就夠了,加上題目副本反而略有下降。這說明兩類預測任務對資訊的需求方式不同,需要針對性設計。
歸根結底,這項研究揭示的是一件讓人既驚訝又有些不安的事:AI系統的思考記錄里,用自然語言讀不出來的地方,藏著大量關於它將來會怎麼做的資訊。那些資訊不在文字的表面,而在神經激活狀態的深處。一個經過專門訓練的預測器,可以比任何頂尖的AI系統更準確地從中提煉出有用的信號,而且速度快、成本低。
這對於AI系統的使用者和部署者來說,意義是具體的。以後不需要為了評估一個AI答案是否可靠而讓它反覆重跑;不需要付出高昂代價去檢驗某個問題的哪一部分真正影響了AI的決策;不需要相信AI的"草稿"是真實思考的鏡像。一個經過訓練的行為預測器,看一次就能告訴你答案。
當然,這項研究也坦誠地承認了自身的局限。目前測試的任務類型仍然有限,在差異極大的全新任務上的泛化能力還有待驗證。更根本的是,如果未來的AI系統在訓練中被明確要求產生更忠實的思考過程,那麼天真讀者和行為預測器之間的差距可能會縮小,因為更多真實資訊會出現在文字表面。但就現有系統的現實情況而言,這套框架提供了一條切實可行的路徑。
任何一個AI系統的行為屬性,只要能被自動打標籤,都可以成為行為預測器的訓練目標。這項研究打開的,不只是一個具體的技術方案,而是一種思路:把理解AI行為這件事本身,變成一項可以學習、可以改進、可以規模化的任務。
---
Q&A
Q1:行為預測器和直接讓AI多跑幾次觀察結果有什麼本質區別?
A:讓AI多跑幾次是直接估計行為統計數據的方法,但每次運行都要生成數千個詞元,代價極高,無法在實際部署中對每個查詢都這樣做。行為預測器是一個經過專門訓練的獨立模型,它在訓練階段一次性消耗了大量重跑數據,訓練完成後只需讀取AI的一次思考記錄即可完成預測,計算量不到頂級AI系統處理同一輸入的萬分之一,適合大規模實際部署。
Q2:為什麼GPT-5.4和Claude Opus 4.6這麼強大的AI反而預測得不如一個小模型準確?
A:這兩個頂級AI是靠"讀懂文字含義"來做預測的,它們依賴AI思考記錄在語言表面的忠實度,但研究表明AI的思考文字經常遺漏或錯誤呈現真實的計算過程。行為預測器不依賴文字含義,而是通過神經網路直接從思考記錄的底層激活信號中學習規律,因此能獲取那些不出現在文字表面的資訊,這是兩者性能差距的根本原因。
Q3:行為預測器需要針對每個不同的AI系統重新訓練嗎?
A:是的,行為預測器需要針對特定目標AI進行訓練,因為它是從目標AI的權重初始化的,並用目標AI產生的思考記錄數據來學習其特有的規律。不過研究表明,已訓練好的行為預測器可以用少量數據(約600步微調)遷移到新的數據集場景,跨任務遷移的能力也得到了驗證,說明預測器學到的部分規律具有一定通用性。






