當AI系統學會「預測自己」：Bar-Ilan大學研究團隊如何讓機器讀懂自己的未來行為

這項由以色列Bar-Ilan大學聯合美國Allen人工智慧研究所及英國AI安全研究所共同完成的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.11445。感興趣的讀者可通過該編號在arXiv平台檢索原文。

贊助商廣告

當你把一份重要工作交給一個AI助手時，你內心深處一定藏著一個問題：它今天給出的答案，明天還會一樣嗎？如果我稍微改改問題，它的回答會不會天翻地覆？換句話說，你真的能信任它嗎？這個問題聽起來像哲學，但對於那些把AI系統用於醫療診斷、法律分析或者金融決策的人來說，它是貨真價實的現實問題。

Bar-Ilan大學的研究團隊決定從一個全新角度切入這個信任難題。他們的核心思路是：與其費盡心思去讀懂AI的"思維過程"，不如直接訓練一個專門的"觀察員"，讓它從AI留下的思考記錄里學會預測這個AI未來會怎麼做。這個觀察員，他們稱之為"行為預測器"（Behavior Forecaster）。

一、AI的信任危機：為什麼我們不知道它下次會怎麼做

要理解這項研究解決的是什麼問題，先得理解當代AI系統的一個特殊現象。

目前最強大的AI系統，比如OpenAI的o1或者DeepSeek 當AI系統學會預測自己BarIlan大學研究團隊如何讓機器讀懂自己的未來行為的R1，在給出最終答案之前，會先在螢幕上寫下一大段"思考過程"，就像一個學生在考卷空白處打草稿。這類系統被稱為大型推理模型（Large Reasoning Models，簡稱LRM）。這段思考過程看起來非常像人類的推理：它會分析條件、權衡證據、一步步推導到結論。

正因為這段"草稿"用的是自然語言，人們理所當然地認為只要仔細讀懂它，就能理解這個AI為什麼會給出那個答案，也就能預測它下次遇到類似問題時會怎麼做。這種方式聽起來天經地義，就像你檢查一個工人的工作日誌來判斷他靠不靠譜。

然而研究團隊指出，這裡存在一個根本性的陷阱。大量已有研究表明，AI寫在思考過程里的內容，和它實際進行的計算之間，往往存在嚴重的錯位。就像一個人在日記里寫"我今天做決定完全理性地分析了所有證據"，但實際上他的決定在很大程度上被昨晚那頓飯影響了，而日記里完全沒提這回事。

贊助商廣告

研究者們把這種錯位分為兩類。第一類叫"遺漏"：有一些真正影響AI最終答案的因素，根本不會出現在它的思考文字里。比如，如果你在給AI的問題里暗示某個答案（哪怕你覺得自己的暗示很隱晦），它的最終選擇會悄悄受到影響，但它的"草稿"里不會提到這回事，依然裝模作樣地分析來分析去。第二類叫"語義錯位"：即便思考過程里確實出現了某些步驟，那些步驟和AI真正的計算邏輯之間也未必有實質聯繫。有研究發現，你可以隨意修改AI思考過程的中間部分，它的最終答案往往紋絲不動，這說明那些中間步驟並不像看起來那麼關鍵。更離譜的是，有時候AI寫出來的思考過程連人類都讀不懂，但它依然能給出正確答案——說明它其實走的是另一條"暗道"。

這就是為什麼直接讀AI的思考過程來預測它的行為，是一件危險的事情。你以為自己在讀一份施工藍圖，其實讀的可能只是一份裝飾性說明書。

既然讀不可信，那能不能幹脆讓AI多跑幾次，用統計的方式來判斷它的穩定性？這在理論上當然可行，但在現實中極為昂貴。對於大型推理模型來說，每跑一次就要生成數千個詞元，計算代價極高。如果你想判斷每一個問題的答案穩不穩定，就得為每個問題跑十次、二十次，整體成本會高到讓實際部署無法承受。

二、換條路走：把預測行為本身變成一項可學習的技能

面對上述兩條死路，研究團隊選擇了一條截然不同的路。他們的出發點是：AI的思考過程雖然在文字表面上不可靠，但那些文字背後的數學信號——也就是每個詞語對應的神經網路激活狀態——很可能仍然包含了大量關於AI內部計算狀態的真實資訊。就像一個人的面部表情，用語言描述可能會說謊，但如果你有儀器直接測量他的肌肉微顫，也許能讀出他真實的情緒。

基於這個判斷，他們提出：訓練一個專門的模型，讓它直接從AI的思考過程（包括題目、思考文字和最終答案）中學習預測這個AI的行為規律，而不需要經過"理解文字含義"這個中間環節。這個專門的模型就是"行為預測器"。

贊助商廣告

行為預測器在訓練階段需要大量數據。這些數據不需要人類標註——研究團隊直接讓目標AI反覆運行數千個問題，每個問題跑十次，統計每次的結果，用這些統計數字作為"正確答案"來訓練行為預測器。數據生成的成本是一次性的，付出在訓練階段，而不是每次使用的時候。

訓練完成後，行為預測器在使用時只需要看AI的一次思考過程，就能在一個前向計算（forward pass，可以理解為像翻一頁書一樣快速掃視）中得出預測結果。這比讓AI重跑十次快了不知道多少倍——研究團隊估計，行為預測器的單次推理計算量不到那些頂級AI系統（如GPT-5.4或Claude Opus 4.6）讀同一份思考過程所用計算量的萬分之一。

研究團隊把這套框架具體應用在兩類預測任務上。第一類是"重複一致性"預測：如果用同一個問題再問一次目標AI，它給出相同答案的概率有多大？這類似於問一個人"你明天還會堅持今天說的這句話嗎"。第二類是"反事實敏感性"預測：如果把問題里的某一部分資訊去掉，目標AI的答案會不會改變？這類似於問"如果我沒告訴你那條線索，你還會得出同樣的結論嗎"。這兩類預測都是從AI的單次思考記錄出發，不需要真的去修改問題重跑。

三、預測器長什麼樣：兩種不同的設計思路應對兩類問題

行為預測器的核心是一個和目標AI共享同款架構的神經網路，並且從目標AI的權重開始訓練。這個設計理念類似於"知己知彼"：用一個內部結構和目標AI高度相似的模型來讀取它的思考記錄，天然就比一個完全外來的模型更容易捕捉到其中的規律。然後在這個共享架構之上，針對不同的預測任務，安裝不同的"感應頭"。

對於反事實敏感性預測，研究團隊設計了一種叫"提示回聲"的輸入結構。由於行為預測器的底層是一種從左到右逐步處理資訊的模型，在處理問題文字時，它還看不到後面的思考過程，所以無法把思考過程中的資訊用到對問題各部分的評分上。為了解決這個問題，研究團隊在輸入的最後再複製一遍原始問題——讓模型在"回顧"這份問題副本的時候，已經讀完了整段思考過程和最終答案，因此可以把所有資訊都用上。每個問題部分的最終評分，由對應位置的神經網路輸出經過平均池化得到，代表"如果去掉這部分，答案改變的概率"。

贊助商廣告

對於重複一致性預測，目標是為整個思考記錄給出一個單一的分數，代表這次答案在重跑時被重複的概率。由於不同問題的思考過程長短差異懸殊，研究團隊使用了一種叫"交叉注意力池化"的技術，讓模型用一組固定數量的"探針"去掃描整段思考記錄的任意位置，提煉出一個固定長度的綜合表示，再由一個小型全連接網路輸出最終的概率分數。

訓練使用的是不同的損失函數來配合兩類任務的性質：反事實敏感性用的是二元交叉熵（把每個問題段落的影響大小看作一個0到1之間的概率），重複一致性用的是均方誤差（直接擬合實際重跑的一致率數值）。整個訓練過程在四張英偉達當AI系統學會預測自己BarIlan大學研究團隊如何讓機器讀懂自己的未來行為 H200顯卡上跑了不到24小時——對於這類研究來說，這個成本相當低。

四、實驗怎麼做的：三類數據集、兩個目標AI、還有一堆強勁對手

為了驗證行為預測器是否真的有效，研究團隊精心設計了一套實驗框架。

目標AI主要選用了OLMo-3-7B-Think，這是一款完全開源、訓練數據和訓練過程都公開透明的模型。選它的原因在於，研究團隊可以嚴格驗證測試集裡的數據是這個模型訓練時沒見過的——這是很多閉源模型研究無法保證的嚴格性。作為補充，他們還在Qwen3.5-2B上重複了主要實驗，以檢驗結論是否在不同模型上通用。

測試數據來自三個性質迥異的推理數據集。第一個是TreeCut，包含數學應用題。第二個是FEVEROUS，包含需要根據維基百科內容（含表格和自由文本）判斷事實真偽的問題。第三個是RuleTaker，是一種合成的邏輯推理任務，要求AI根據一組給定規則判斷命題真假。這三類問題在結構、難度、所需知識類型上差異極大，確保實驗結論有足夠的泛化性。

與行為預測器相比較的對手有三類。首先是兩個頂級AI系統——GPT-5.4和Claude Opus 4.6，它們被作為"天真讀者"，也就是接收同一份思考過程的文字，憑藉對自然語言的理解來做預測，完全沒有針對這個任務做過專門訓練。研究團隊還專門為每個任務測試了三種不同的提示方式，在小批量試驗上選出效果最好的那種，確保這兩個對手發揮出最佳水平。其次是"單點探針"方法——這是標準的AI解釋工具，比如用最終答案對輸入各部分的注意力權重來估計各部分的重要性，或者用最終答案詞語的預測概率來估計回答的確定性。第三個對手有些出乎意料：OLMo-3-7B-Think讀自己的思考記錄，一種是不帶上下文直接問它，一種是把原始問題和思考記錄拼在一起問它。這個對照組用來測試"目標AI本身能不能靠讀自己的文字預測自己的行為"。

贊助商廣告

評估指標用的是Spearman相關係數，這個指標只關心預測值的排序關係是否和真實值的排序一致，對於預測值偏高或偏低這類系統性誤差不敏感，是評估排名類預測任務的合適選擇。

五、結果出爐：預測器贏了，而且贏得不輕鬆

在OLMo作為目標AI的主實驗中，行為預測器在反事實敏感性任務上達到了Spearman相關係數0.731，同時GPT-5.4作為天真讀者只有0.672，Claude Opus 4.6隻有0.690。在重複一致性任務上，行為預測器達到了0.571，而GPT-5.4隻有0.305，Claude Opus 4.6隻有0.308。

在Qwen3.5-2B作為目標AI的實驗中，差距更為顯著。反事實敏感性任務上，行為預測器達到0.653，GPT-5.4隻有0.417，Claude Opus 4.6隻有0.522。重複一致性任務上，行為預測器達到0.740，而GPT-5.4和Claude Opus 4.6分別只有0.224和0.267。

單點探針方法的表現更差。在OLMo目標上，注意力權重方法在反事實敏感性任務上只有0.160，最終答案概率方法在重複一致性任務上只有0.129。兩者都比隨機猜測強一點，但離實用還差得很遠。

最讓人印象深刻的或許是OLMo讀自己思考記錄的那組對照。無論是靜態問答形式還是對話形式，OLMo讀自己的表現都比GPT-5.4和Claude Opus 4.6更差，更不用說和訓練過的行為預測器比了。這說明"目標AI對自己的了解"並不能通過讓它讀自己的文字來獲取——它的自我認知，體現在權重里，而不體現在語言裡。

這些結果背後還有嚴格的統計檢驗支撐。研究團隊用聚類自舉法和配對置換檢驗驗證了主要結論。行為預測器相對於兩個天真讀者的優勢，在統計上都是顯著的，尤其是重複一致性任務（p

六、泛化能力測試：換個場景還好使嗎

光在訓練數據上表現好是不夠的，研究團隊還測試了行為預測器在沒見過的場景下的表現。

第一類測試叫"同族泛化"。FEVEROUS數據集內部有幾個子集，訓練時把其中一個數字推理子集完全排除在外，然後測試行為預測器在這個從未見過的子集上的表現。結果顯示，行為預測器在反事實敏感性任務上達到Spearman 0.565，重複一致性任務上達到0.311，兩者都超過了GPT-5.4（分別為0.322和0.223）和Claude Opus 4.6（分別為0.463和0.173）。這說明預測器學到的不只是對特定題目類型的死記硬背，而是更通用的規律。

贊助商廣告

第二類測試叫"跨數據集遷移"。把三個數據集中的一個完全留作測試集，用另外兩個訓練行為預測器，然後在留出的那個數據集上微調最多約600步，看遷移效果。結果顯示，遷移後在三個留出數據集上的表現都有所提升，但TreeCut數據集的重複一致性任務在適應後仍然偏弱（Spearman 0.193），其他組合的提升則相當明顯——比如RuleTaker留出時，反事實敏感性任務從0.446提升到0.661，重複一致性任務從0.005（基本等於隨機）提升到0.438。

第三類測試更有趣：跨任務遷移。研究團隊從已訓練好的反事實敏感性行為預測器出發，把它適配到一個新任務：判斷當問題中包含一個暗示某個特定答案的提示詞時，這個提示詞是否真正影響了目標AI的回答。這個任務叫"提示敏感性"預測，和反事實敏感性的邏輯相似但場景不同。遷移後的行為預測器在這個任務上達到Spearman 0.800，超過了直接從頭訓練的版本（0.732）、Claude Opus 4.6讀者（0.768）和GPT-5.4讀者（0.668）。這個結果說明，行為預測器學到的不只是某個特定任務的模式，而是更底層的"讀取AI內部狀態"的能力。

七、哪些設計真正重要：拆開來看的消融實驗

為了搞清楚是什麼讓行為預測器有效，研究團隊系統地拆除了不同設計元素，看移除每個部分後性能如何變化。

首先是思考記錄的有無。如果把思考過程從輸入中去掉，只給行為預測器看題目和答案，兩個任務的性能都明顯下降。這說明思考記錄本身確實攜帶了關於未來行為的有效信號，而不只是題目決定了一切。

其次是初始化方式。把OLMo-3-7B-Think的權重換成隨機初始化的同款架構，性能在反事實敏感性任務上下降更大，重複一致性任務上下降相對小一些。這說明用目標AI的權重來初始化行為預測器是有實質幫助的——它帶來了對那些神經網路信號的先驗理解，而不只是提供了一個好的架構起點。

贊助商廣告

第三是端到端微調還是只訓練"感應頭"。如果凍結OLMo的整個主幹，只訓練最後那個小型預測頭，性能會大幅下降。在反事實敏感性任務上，Spearman從0.723降到0.245，在重複一致性任務上從0.568降到0.475。這說明原始AI的內部表示雖然包含了有用信號，但這個信號的提取需要對主幹進行整體調整，而不能靠一個小頭來完成。

最後是輸入順序的安排。對於兩個任務，最優的輸入結構是不同的。反事實敏感性最好用"題目-思考過程-答案-題目副本"的順序，而重複一致性最好用"題目-思考過程-答案"就夠了，加上題目副本反而略有下降。這說明兩類預測任務對資訊的需求方式不同，需要針對性設計。

歸根結底，這項研究揭示的是一件讓人既驚訝又有些不安的事：AI系統的思考記錄里，用自然語言讀不出來的地方，藏著大量關於它將來會怎麼做的資訊。那些資訊不在文字的表面，而在神經激活狀態的深處。一個經過專門訓練的預測器，可以比任何頂尖的AI系統更準確地從中提煉出有用的信號，而且速度快、成本低。

這對於AI系統的使用者和部署者來說，意義是具體的。以後不需要為了評估一個AI答案是否可靠而讓它反覆重跑；不需要付出高昂代價去檢驗某個問題的哪一部分真正影響了AI的決策；不需要相信AI的"草稿"是真實思考的鏡像。一個經過訓練的行為預測器，看一次就能告訴你答案。

當然，這項研究也坦誠地承認了自身的局限。目前測試的任務類型仍然有限，在差異極大的全新任務上的泛化能力還有待驗證。更根本的是，如果未來的AI系統在訓練中被明確要求產生更忠實的思考過程，那麼天真讀者和行為預測器之間的差距可能會縮小，因為更多真實資訊會出現在文字表面。但就現有系統的現實情況而言，這套框架提供了一條切實可行的路徑。

任何一個AI系統的行為屬性，只要能被自動打標籤，都可以成為行為預測器的訓練目標。這項研究打開的，不只是一個具體的技術方案，而是一種思路：把理解AI行為這件事本身，變成一項可以學習、可以改進、可以規模化的任務。

贊助商廣告

---

Q&A

Q1：行為預測器和直接讓AI多跑幾次觀察結果有什麼本質區別？

A：讓AI多跑幾次是直接估計行為統計數據的方法，但每次運行都要生成數千個詞元，代價極高，無法在實際部署中對每個查詢都這樣做。行為預測器是一個經過專門訓練的獨立模型，它在訓練階段一次性消耗了大量重跑數據，訓練完成後只需讀取AI的一次思考記錄即可完成預測，計算量不到頂級AI系統處理同一輸入的萬分之一，適合大規模實際部署。

Q2：為什麼GPT-5.4和Claude Opus 4.6這麼強大的AI反而預測得不如一個小模型準確？

A：這兩個頂級AI是靠"讀懂文字含義"來做預測的，它們依賴AI思考記錄在語言表面的忠實度，但研究表明AI的思考文字經常遺漏或錯誤呈現真實的計算過程。行為預測器不依賴文字含義，而是通過神經網路直接從思考記錄的底層激活信號中學習規律，因此能獲取那些不出現在文字表面的資訊，這是兩者性能差距的根本原因。

Q3：行為預測器需要針對每個不同的AI系統重新訓練嗎？

A：是的，行為預測器需要針對特定目標AI進行訓練，因為它是從目標AI的權重初始化的，並用目標AI產生的思考記錄數據來學習其特有的規律。不過研究表明，已訓練好的行為預測器可以用少量數據（約600步微調）遷移到新的數據集場景，跨任務遷移的能力也得到了驗證，說明預測器學到的部分規律具有一定通用性。