AI「幻覺」終於有了體檢報告：IBM與哥倫比亞大學聯手揭開智能體決策鏈的隱秘漏洞

這項由IBM研究院與哥倫比亞大學聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.24219v2，有興趣深入探索的讀者可通過該編號查閱完整原文。

贊助商廣告

當AI不再只是回答問題，而是開始"做事"的時候

假設你雇了一位助手，讓他負責一套複雜的廠房設備巡檢工作。他需要先去查閱傳感器數據，再判斷設備狀態，然後調用專業檢測工具，最終生成維修工單。整個過程環環相扣，每一步都建立在上一步的結果之上。現在問題來了：如果他在第三步悄悄"編造"了一份檢測結果，最終交給你一張漂漂亮亮的工單，你能發現嗎？

這正是當今AI領域正在發生的事情。大型語言模型（也就是GPT這類AI系統的核心）越來越多地被部署為自主"智能體"，負責分析數據、調用工具、協調多個子任務，在工廠、數據中心、基礎設施運維等高風險場景中代替人類完成複雜工作。然而，這類系統存在一個讓人擔憂的缺陷：它們會在中間步驟里悄悄"編故事"，而這種編造往往只在最終答案里留下痕跡，甚至連痕跡都不留。

長期以來，評估AI是否"說謊"的方法，都只盯著它最終給出的答案。就好比你只檢查助手交來的那張工單，卻從不追問他中間到底做了什麼、查了什麼、怎麼得出這個結論的。這種"只看結果"的評估方式，在AI還只是一個問答機器的時代或許夠用，但當AI變成了一個需要連續推理、使用工具、多步驟協作的自主決策者，這種方式就像是把體檢簡化為"你感覺還好嗎"——遠遠不夠。

IBM研究院和哥倫比亞大學的團隊正是為了解決這個問題而攜手合作。他們提出了一個名為**Trajel**的評估框架，以及一套精心構建的數據集，專門用來審查AI智能體在完整決策鏈條（也就是"軌跡"）中的每一個步驟，追問：這個AI到底在哪裡開始"編故事"的？

一、從"問答機"到"決策鏈"：AI的進化帶來了新的麻煩

贊助商廣告

要理解這項研究的意義，得先明白AI智能體是怎麼工作的。

傳統AI的工作方式很像一台自動販賣機：你投入一個問題，它吐出一個答案，交互到此結束。但現代AI智能體的工作方式更像一位項目經理：它收到一項任務，然後開始規劃——先派"感知專員"去採集數據，再讓"分析師"建立狀態模型，接著叫"預測師"做時序預判，最後由"執行官"生成操作指令。整個過程中，每一位"專員"的輸出都會成為下一位"專員"的輸入，形成一條完整的推理鏈。

這條推理鏈，在學術上叫做"軌跡"（Trajectory），它由一系列"思考—行動—觀察"三元組構成。每一步，AI都會先在腦子裡想一想（思考），然後調用某個工具（行動），最後得到工具反饋的結果（觀察）。這個循環不斷重複，直到任務完成。

研究團隊以一個名為AssetOpsBench的工業運維多智能體框架作為測試場景。這個框架模擬了真實數據中心和工廠設備的運維工作，包含四類分工明確的AI智能體：負責傳感器數據讀取的IoT智能體、負責故障狀態建模的FSMR智能體、負責時序預測的TSFM智能體，以及負責生成工單的WO智能體。這四類智能體協同作業，共同處理諸如"檢測6號冷水機組在某周內是否有異常"這樣的實際問題。

在這個複雜的協作流程中，一旦某個中間環節出現了"編造"——無論是AI引用了一個根本不存在的傳感器讀數，還是跳過了某個必要的檢測步驟，或者在工具沒有返回有效結果的情況下直接聲稱"檢測完成"——這種錯誤就會順著推理鏈傳播下去，最終導致整個任務的決策出錯。這就是所謂的"軌跡級幻覺"，也是Trajel框架想要解決的核心問題。

二、幻覺的五張面孔：不是所有"編造"都長一個樣

研究團隊面臨的第一個挑戰是：如何精確定義"幻覺"？

在日常理解中，AI"幻覺"通常是指AI說了不符合事實的話。但在多步驟、多智能體的工作流中，幻覺的形態遠比這複雜得多。於是，研究團隊提出了一套五分類體系，像是為幻覺做了一張"人口普查"，把每種類型的幻覺都賦予了精確的定義。

贊助商廣告

第一種叫做**事實幻覺**。這是最直觀的類型：AI在某一步的推理或行動中，聲稱了一個與真實數據相矛盾的具體事實。比如，傳感器記錄的溫度是32攝氏度，但AI在報告裡寫成了52攝氏度。這類幻覺的特點是只需看這一步就能發現，不需要翻查前後文。

第二種叫做**指代幻覺**。這更像一種"記憶捏造"：AI在某步驟中引用了一個根本沒有在之前步驟中出現過的實體、數據或結果。就好比助手在總結報告裡提到"根據上午的檢測報告顯示……"，但實際上根本沒有做過上午的檢測。這種幻覺只有追溯整條推理鏈才能識別，單看當前這步看不出問題。

第三種叫做**邏輯幻覺**。這是一種"推理斷鏈"：AI的前提條件沒有問題，但得出的結論與前提之間存在邏輯跳躍或矛盾。前提是正確的，推理步驟卻出了錯。這類幻覺尤其難以識別，因為表面上一切都顯得"有道理"，只有仔細追問推理過程才能發現漏洞。

第四種叫做**程序幻覺**。這是工業場景中最常見、也最危險的一種：AI跳過了某個必要的工作步驟，或者在沒有實際執行的情況下聲稱已經完成了某項任務。這就相當於廚師在沒有實際烤制的情況下告訴你"蛋糕已經烤好了"。這類幻覺如果不對照規定的工作流程，是根本發現不了的。

第五種叫做**越界幻覺**。這是多智能體系統特有的一種失誤：某個智能體做了或聲稱了超出其職責範圍的事情。內容本身可能是正確的，但"說話的人說錯了話"——就像一個負責採購的員工，忽然開始對外宣布公司的技術戰略。這類幻覺檢測起來需要明確知道每個智能體的職責邊界。

這五種幻覺類型的一個重要共同特徵是：它們都被形式化地定義在"思考—行動—觀察"的軌跡結構上，而不是模糊地描述為"AI說了不對的話"。這種精確化的定義，是Trajel框架區別於所有此前研究的關鍵所在。

三、數據集是怎麼煉成的：225條軌跡，兩家機構的雙重把關

贊助商廣告

有了分類體系，下一步是建立數據集。

研究團隊從AssetOpsBench框架中收集了6種不同AI模型配置在42道工業運維題目上運行產生的225條完整執行軌跡。每一條軌跡都是一段完整的"工作記錄"，用JSON格式記錄了每個智能體在每個步驟的思考內容、執行的工具調用，以及工具返回的結果。

這225條軌跡的標註採用了"雙保險"機制，以防止評估偏差。第一道工序是讓一個大語言模型扮演"評審官"，按照統一的提示詞模板，對每條軌跡進行初步判斷：是否存在幻覺？屬於哪種類型？發生在哪一步的哪個組件（思考、行動、觀察還是最終響應）？理由是什麼？第二道工序則是由來自兩家機構的人類審閱者獨立進行盲審——他們在不看AI評審官結論的情況下，自行評判每條軌跡，記錄下自己的判斷結果和理由。

這種設計的用意在於：如果人類直接看著AI的判斷再做評估，很可能會不知不覺地受到影響（這在心理學上叫"錨定偏差"）。盲審機制排除了這種可能，確保了人類標註的獨立性。

最終數據集的基本面貌如下：在有效的224條軌跡中，人類審閱者認定其中153條（約68.3%）存在幻覺，而AI評審官的判斷則更為激進，認定178條（約79.1%）存在幻覺。在153條被人類認定為幻覺的軌跡中，79條（51.3%）只包含單一類型的幻覺，而另外75條（48.7%）同時包含多種類型的幻覺。這後一個數字非常關鍵——將近一半的幻覺軌跡同時存在多種幻覺，說明單標籤的分類方式會從根本上低估幻覺的複雜程度。

四、AI評審官的自畫像：哪些幻覺它能發現，哪些它視而不見

用AI來評估AI，聽起來有點像讓嫌疑人自己給自己作證。研究團隊詳細考察了AI評審官（LLM-as-a-Judge）與人類標註之間的吻合程度。

在二元判斷層面（只判斷"有沒有"幻覺，不區分類型），AI評審官與人類的一致率是78.6%，兩者之間的Cohen's κ值（一種衡量一致性的統計指標，0表示完全隨機，1表示完美一致）為0.456，屬於"中等一致"。AI評審官的召回率高達92.2%，意味著它很少漏判幻覺；但精確率只有79.7%，說明它也經常"誤傷"——把正常的軌跡錯誤地判定為幻覺。這種"寧可錯判，不可放過"的保守偏向在實際使用中可能會帶來大量誤報。

贊助商廣告

更有意思的是分類型的對比。對於程序幻覺，AI評審官的F1分數（綜合精確率和召回率的指標）達到了0.784，事實幻覺和越界幻覺的F1均為0.719；然而，對於邏輯幻覺，F1驟降至0.258，對於指代幻覺，F1更是只有0.222。也就是說，AI評審官對表面特徵明顯的幻覺（比如步驟缺失、事實錯誤）識別得相當不錯，但對那些需要在多步驟之間仔細追溯推理鏈才能發現的幻覺（比如引用了不存在的先前結果，或者推理鏈存在邏輯跳躍），則幾乎束手無策。

每種幻覺類型對應的Cohen's κ值進一步證實了這一點。越界幻覺的κ為0.656，程序幻覺為0.613，事實幻覺為0.595，這三類屬於"中等到較高一致"；而邏輯幻覺的κ僅為0.211，指代幻覺更是只有0.176，屬於"幾乎沒有一致性"。換句話說，對於最微妙、最需要深層推理才能識別的兩類幻覺，就算是兩個有經驗的人類審閱者在審查同一條軌跡時，也可能得出截然不同的結論——更遑論讓AI自動識別了。

這一發現有著深刻的實踐含義：如果只用二元標籤（有幻覺/沒幻覺）來衡量檢測系統的表現，那麼在141條被雙方都判定為幻覺的軌跡中，所有軌跡都會被算作"檢測正確"，看起來皆大歡喜。但實際上，AI評審官漏掉了79%的人類識別出的邏輯幻覺（19條中有15條被AI漏判）和77%的指代幻覺（13條中有10條被AI漏判）。這正是研究團隊堅持要引入五類型分類體系的原因——粗粒度的二元評估掩蓋了最需要被關注的那部分失敗。

五、不同模型，不同的"說謊方式"

把同樣的42道工業運維題目交給6種不同的AI模型來做，結果大相徑庭——不只是幻覺的多少不同，幻覺的"類型特徵"也完全不一樣。

從總體幻覺率來看，最"可靠"的Model_6隻有52.4%的軌跡被人類認定為幻覺，而最"不可靠"的Model_17的這一比例高達81.0%——同樣的題目，同樣的工作框架，不同的模型架構，幻覺率差了近30個百分點。這說明模型架構本身對幻覺行為有著決定性的影響，不是說把某個模型接入工業系統就能保證可靠性，還得專門測試它在這類場景下的幻覺特徵。

贊助商廣告

更值得關注的是類型特徵的差異。Model_19在所有27條幻覺軌跡中，有18條包含越界幻覺，占比極高；而Model_6的越界幻覺幾乎為零（22條幻覺軌跡中只有2條）。Model_17的指代幻覺數量最多（7條），這暗示這一模型對跨步驟的資訊追溯能力特別薄弱。不同的模型以不同的方式失敗，這些差異如果只看總體幻覺率，是完全看不出來的。

從AI評審官的檢測精確率來看，Model_19的精確率最低（0.703），而這恰恰是越界幻覺最多的模型。越界幻覺的特點是"內容正確，來源不對"——智能體說的事情可能確實是真的，只是這件事不該由它來說、由它來做。這種"正確但越界"的行為對於沒有明確角色邊界意識的自動檢測器來說，極難分辨。這也從側面說明，要想可靠地檢測越界幻覺，檢測系統必須明確知道每個智能體的職責範圍，而不能單純依賴語言層面的矛盾檢測。

六、幻覺藏在哪裡：步驟位置與發生環節的規律

研究團隊不只關心幻覺的類型，還系統統計了它們在軌跡中的"位置特徵"，這對於設計防護機制至關重要。

從發生在哪個組件來看，幻覺最常出現在"行動"（70次）和"最終響應"（58次）這兩個外部可見的環節，而出現在"思考"（40次）和"觀察"（11次）中的相對較少。這個發現很有啟發性：問題主要不出在AI內部推理的過程本身，而出在它把推理結果轉化為實際工具調用和對外聲明的環節。就像一個人心裡想得挺明白，但一到要落筆寫報告或者操作設備的時候就出錯了。這對防護設計的啟示是：在工具調用和最終輸出這兩個環節部署監控，效果應該比僅監控推理過程更顯著。

再從不同類型幻覺的組件偏好來看，各有規律。事實幻覺最常在最終響應（31次）中浮現，程序幻覺則集中在行動環節（57次），指代幻覺多出現在思考環節（11次），越界幻覺則較為均勻地分布在各個組件中，符合其作為"角色邊界問題"的本質。這意味著：專門檢測行動合法性的監控器可以高效捕捉程序幻覺，但對事實幻覺就束手無策；專門檢驗最終響應的核查層則正好相反。一套完整的防護體系，需要同時在多個環節部署不同側重的檢測器，而非一刀切地只在最後把關。

贊助商廣告

從軌跡中的位置分布來看，幻覺在Task 3位置最為集中（63次），此後隨著任務推進而逐漸減少（Task 4為43次，Task 5為37次，到Task 6以後快速下降）。這與直覺相符：隨著累積的上下文越來越多，AI需要整合的資訊量越來越大，出現混亂的風險也越來越高；但一旦任務接近尾聲、剩餘步驟有限，AI反而不容易"跑偏"了。

七、三種檢測器的實力對比：誰能更好地發現問題

理解了幻覺的類型和位置之後，自然要問：有沒有可以自動檢測這些幻覺的工具？研究團隊測試了三種監督學習檢測範式，也就是三種經過數據訓練的自動檢測器。

第一種是基於BERT的子任務級分類器。BERT是一種在語言理解上表現出色的預訓練模型。這裡用它來分析單個步驟（思考+行動+觀察），預測該步驟是否存在幻覺。這種方式就像專注地檢查流水線上的每一顆螺絲，對局部異常非常敏感，但看不到流水線的全貌。按照理論預期，它應該對事實幻覺效果最好，對需要全局視角的程序幻覺和越界幻覺效果最差。

第二種是軌跡級自然語言推斷（NLI）。NLI是一種判斷兩段文字之間邏輯關係的技術，可以判斷A文本是否"支持"、"中立"或"矛盾"於B文本。研究團隊用它來檢驗當前步驟與所有歷史步驟之間是否存在矛盾，重點捕捉跨步驟的一致性問題，也就是指代幻覺和邏輯幻覺。

第三種是基於Longformer的長上下文建模器。Longformer是一種專門設計來處理很長文本的模型，可以把整條軌跡作為一個整體輸入並做全局分析，特別適合需要綜合全局資訊的程序幻覺和越界幻覺檢測。

實驗結果如下：在ROC-AUC這個指標上（這個指標衡量的是檢測器區分幻覺和正常軌跡的整體能力，0.5表示純隨機，1.0表示完美），三種檢測器都超過了0.5的隨機基線。其中NLI檢測器表現最佳，AUC為0.689；BERT分類器為0.613；Longformer為0.599。然而，即使是最好的NLI檢測器，0.689的AUC在實際應用中也遠算不上理想。相比之下，零樣本的AI評審官（LLM-as-a-Judge）在F1指標上達到了0.855，遠超所有三種經過專門訓練的檢測器。

贊助商廣告

這個結果揭示了一個令人深思的現實：在只有225條訓練樣本的情況下，專門訓練的小模型無法與大語言模型的通用推理能力相抗衡。數據規模和模型能力之間的鴻溝，意味著軌跡級幻覺檢測目前仍是一個"未解決的挑戰"。

八、最意外的發現：有一個信號，比所有檢測器都管用

研究中最引人注目的發現，恰恰不是來自那些精心設計的機器學習檢測器，而是來自一組在任務執行過程中就能直接觀察到的"執行質量信號"。

AssetOpsBench框架在每條軌跡執行結束後，會生成五個二元標誌位，用來評價這條軌跡的執行質量：任務完成度（TC，任務是否整體完成）、數據檢索準確性（DRA，是否正確獲取了所需數據）、結果驗證（RV，結果是否經過了驗證）、智能體序列正確性（ASC，各智能體的執行順序是否符合規範），以及清晰度與合理性（CJ，推理過程是否清晰、有充分依據）。

研究團隊將這五個信號與幻覺標籤做了相關性分析，結果令人震驚。所有五個信號都與幻覺存在強烈的負相關，也就是說，這些信號"缺席"的時候，幻覺幾乎必然存在。清晰度與合理性（CJ）信號的相關性最強（Pearson r = -0.833），其作為預測幻覺的單變量指標，AUC高達0.908——也就是說，僅憑這一個信號，就能以極高的準確率區分幻覺軌跡和正常軌跡。

具體數字非常直觀：在CJ信號存在（即推理清晰合理）的軌跡中，幻覺率只有9.1%；而在CJ信號缺失（即推理模糊、缺乏依據）的軌跡中，幻覺率高達94.3%。任務完成度（TC）和結果驗證（RV）信號的AUC也分別達到0.853和0.863，同樣是強力預測指標。

更驚人的極端情況是：當CJ和RV同時缺失時，幻覺率飆升至97.1%。這意味著，如果一個AI執行系統出現了"推理不清晰、結果沒有驗證"的雙重告警，那幾乎可以斷定這條軌跡存在幻覺——這是一個有望作為"緊急剎車"信號的候選指標，可以在不需要任何複雜分類模型的情況下，實時阻斷可疑的執行流程。

贊助商廣告

0.908的AUC大幅超越了最好的專門訓練檢測器（0.689），也超越了AI評審官（無法直接比較AUC，但F1為0.855）。這一發現將實踐建議從"事後用複雜模型分類"轉向了更具操作性的方向：在智能體執行循環中嵌入輕量級的實時監控器，監控這些執行質量信號，一旦觸發閾值立即介入，比等到任務結束後再做事後審查要高效和安全得多。

九、研究的邊界與未來的方向

任何研究都有其適用範圍，Trajel也不例外。研究團隊在結論部分坦誠地指出了幾個重要限制。

首先是場景單一性。225條軌跡全部來自工業運維領域（數據中心監控、設備異常檢測、工單生成），且基於同一個AssetOpsBench框架和六種特定模型配置。這個框架下得到的規律，在醫療、金融、開放式網頁任務等完全不同的場景下是否同樣成立，目前還是未知數。

其次是標註一致性的局限。總體Cohen's κ為0.456，屬於中等一致；但對於指代幻覺（κ=0.176）和邏輯幻覺（κ=0.211），兩個有經驗的人類審閱者之間的一致率極低。這說明這兩類幻覺的邊界本身就模糊，當前的標註協議還不夠精細，未來需要設計更嚴格的標註規範，比如要求審閱者明確指出每一條指代幻覺對應的具體前序步驟。

再者是分類體系的完整性問題。五類幻覺框架並不聲稱已經窮舉了所有可能的幻覺類型。在更複雜的工具生態或對抗性測試場景下，很可能會出現框架之外的新型失敗模式。

最後是檢測方法的性能上限。當前最好的有監督分類器AUC只有0.689，遠不足以支持實際部署。彌合有監督分類器與大語言模型推理能力之間的差距，可能需要將大語言模型生成的特徵作為輸入納入小型判別分類器（混合架構），同時引入詞元級不確定性和語義熵等更精細的信號，以及多模型集成方法（讓多個AI互相校驗，直接度量分歧，而不是間接依賴執行標誌）。

歸根結底，這項研究的價值不僅僅在於它提供了一套工具，更在於它清晰地指出了問題的所在。當AI開始負責真實世界中的連續決策任務，只檢查它最終說了什麼，已經遠遠不夠了。我們需要像給人做體檢一樣，逐步審查整個決策過程，在每個關鍵節點問一聲：你這一步，有沒有編故事？

贊助商廣告

這項研究構建的五類幻覺分類體系、225條專家標註軌跡數據集、三種檢測範式的對比，以及執行質量信號的預測價值分析，共同構成了一套可供後續研究者繼續完善的"幻覺體檢套餐"。數據集將在論文正式接收後以CC BY 4.0協議在Hugging Face數據平台公開發布，評估工具代碼也將同步以MIT協議開源。對這一領域感興趣的讀者，可通過arXiv編號2605.24219v2獲取完整論文。

Q&A

Q1：Trajel框架檢測的"軌跡級幻覺"和普通AI幻覺有什麼區別？

A：普通AI幻覺通常指AI在單次回答中說了不準確的內容，只需對照事實就能發現。Trajel框架關注的軌跡級幻覺發生在AI完成多步驟任務的過程中，可能是跳過了某個必要步驟、引用了根本沒發生過的前序結果，或者推理鏈存在邏輯斷層。這些問題只看最終答案根本發現不了，必須追溯整個執行過程才能定位。

Q2：五類幻覺里哪種最難被自動檢測器發現？

A：邏輯幻覺和指代幻覺是最難被自動檢測器發現的兩類。根據研究數據，AI評審官對邏輯幻覺的F1分數只有0.258，對指代幻覺更是只有0.222；兩者與人類標註的一致性κ值分別僅為0.211和0.176。這是因為這兩類幻覺需要在多個步驟之間追溯推理鏈，對上下文的理解要求遠高於只需看單步就能判斷的事實幻覺和程序幻覺。

Q3：研究發現哪個信號能最有效地預警幻覺風險？

A：研究發現"清晰度與合理性"（CJ）信號是預測幻覺最強的單一指標，其AUC高達0.908，遠超所有經過專門訓練的分類器。當這個信號缺失時，幻覺率高達94.3%；當它同時與"結果驗證"（RV）信號一起缺失時，幻覺率更是飆升至97.1%。這意味著在AI執行循環中實時監控這類輕量級信號，效果比事後用複雜模型分類更實用。