當AI"工程師"犯錯時，誰能第一時間發現？——來自羅格斯大學等機構的多智能體系統在線審計新方法

這項由羅格斯大學、德克薩斯大學奧斯汀分校和普渡大學聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.08715，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當你把一項複雜任務交給一個由多個AI"專員"組成的團隊去完成時，你最擔心的是什麼？大概率是：萬一其中某個專員出了錯，而後面的專員又毫不知情地接著干，最終釀成一連串的連鎖失敗。這正是當今AI多智能體系統（簡單理解為"多個AI協作完成任務的系統"）面臨的核心困境。研究團隊將這種困境形象地描述為"一個關鍵錯誤被下游智能體接受，並像滾雪球一樣演變成全軌跡失敗"。

為解決這一問題，研究團隊提出了一個名為**AgentForesight**（智能體預見）的框架，並配套了一個專門用於訓練的數據集AFTRAJ-2K，以及一個經過專門訓練的緊湊型在線審計模型AgentForesight-7B。這項研究的核心思路，用一句話概括就是：與其等到任務失敗之後再去追責，不如在任務執行過程中每一步都設置一個"實時監督員"，一旦發現決定性錯誤，立刻發出警報。

---

一、從"事後驗屍"到"實時急救"：一個視角的根本轉變

以往，當一個AI多智能體系統完成（或失敗）一項任務後，研究者會對整個執行過程進行"事後分析"，找出是哪個智能體在哪一步犯了錯。這就像一場手術失敗後，醫院召集專家開復盤會，逐幀回看手術錄像——分析很有價值，但病人已經無法挽救。學界把這種做法稱為"事後歸因"，現有的代表性工作包括Who&When、AgenTracer、AgentDebug等系統，它們都是在任務徹底結束、結果已經確定之後，才對完整的執行軌跡進行分析，找出那個"罪魁禍首"步驟。

這種做法有一個根本性缺陷：到那時候，錯誤已經在系統里傳播了好幾步，可能觸發了真實世界中的API調用、文件寫入或外部服務請求，某些操作甚至是不可逆的。研究團隊認為，這相當於"在蓋子掀開之前什麼都不知道，一旦掀開鍋蓋，裡面的東西早就糊了"。

贊助商廣告

這項研究提出的"在線審計"（Online Auditing）思路則完全不同。研究團隊給在線審計的定義非常精確：在任務執行軌跡展開的每一步，一個專門的"審計員"只看到當前已執行的前綴（也就是從開始到當前步驟的歷史記錄），然後做出判斷——要麼讓任務繼續，要麼發出警報，同時指出決定性錯誤發生在哪一步、由哪個智能體造成。這個審計員沒有"未卜先知"的能力，看不到未來的步驟，也不知道任務最終會成功還是失敗。這種約束使得在線審計比事後分析難得多，卻也更有實際價值。

要理解這兩者的區別，可以用一個生活場景來類比。事後歸因好比一個人在購物完回家後，對著購物小票發現自己買了不需要的東西，然後懊悔地列出是在哪一步做了錯誤決定。而在線審計則好比購物時身旁站著一位經驗豐富的顧問，每當你拿起一件商品，他立刻判斷"這個值得買"還是"先別放進購物車"——並在你真正做出不可挽回的決定之前叫停。

---

二、AI工作的"執行軌跡"到底是什麼？先建立一個基礎認知

在深入了解這套方法之前，有必要先理解一些基本概念，研究團隊對這些概念做了非常清晰的形式化定義。

一個多智能體系統的執行過程，可以被記錄為一段"軌跡"。軌跡由一系列"步驟"組成，每一步記錄了是哪個智能體角色（比如規劃者、搜索員、代碼編寫者）執行了什麼動作、產生了什麼內容。整條軌跡走完之後，會有一個"結果函數"對其評分：成功得1分，失敗得0分。

在所有可能導致失敗的步驟中，研究團隊特別關注"決定性錯誤"這個概念。所謂決定性錯誤，是指那個如果被糾正，就能把失敗軌跡變成成功軌跡的最早步驟。換句話說，不是每一個小失誤都算決定性錯誤——只有那個"一旦出現、後續再怎麼努力也難以挽回"的步驟，才被稱為決定性錯誤。在對失敗軌跡進行標註時，研究團隊會為每條失敗軌跡打上"決定性錯誤發生在第幾步、由哪個智能體造成"的標籤，而成功軌跡則打上"安全"的標籤。

贊助商廣告

這個框架建立之後，在線審計的任務就變得非常清晰：對於每一條正在執行中的軌跡，審計員在每一步都只看到"從第0步到第k步"的前綴，然後判斷是"繼續"還是"警報+指出第幾步出了問題+指出哪個智能體負責"。而在整個判斷過程中，審計員不能看到第k步之後發生的任何事情，也不能利用最終結果來輔助判斷。

---

三、數據集AFTRAJ-2K：為審計員準備"真實案例檔案"

訓練一個好的審計員，需要大量高質量的"案例檔案"——既有安全執行的軌跡，也有包含決定性錯誤的失敗軌跡，而且每條失敗軌跡都要精確標註錯誤發生在哪一步。現有的數據集要麼只有失敗軌跡、缺乏成功軌跡，要麼只有軌跡級別的標籤（成功或失敗），沒有步驟級別的精確定位。為此，研究團隊專門構建了AFTRAJ-2K數據集。

數據集涵蓋三個領域：數學推理（來自MATH-500基準）、代碼生成（來自HumanEval+和MBPP+基準）、以及開放性智能體任務（來自GAIA和HotpotQA基準）。軌跡由三套成熟的多智能體框架生成，分別是AutoGen Swarm、MetaGPT和Smolagents，底層使用GPT-5.4-mini作為統一的語言模型骨幹。整個數據集最終包含約2,272條經過精心篩選和標註的軌跡，其中1,158條是驗證通過的"安全軌跡"，1,114條是帶有決定性錯誤步驟標註的"不安全軌跡"。

**安全軌跡的構建：三重過濾的嚴苛標準**

並非所有最終答案正確的軌跡都能被納入安全軌跡庫。研究團隊設計了三層過濾機制，只有全部通過的軌跡才算真正"安全"。

第一層是結果等價性檢驗：確保軌跡的最終答案與標準答案完全一致，不同域有不同的驗證方式——數學題用符號計算比較，GAIA用官方評分器，HotpotQA用特殊的文章-不敏感歸一化器，代碼題則通過實際運行測試用例。第二層是完整性檢驗：拒絕任何包含工具調用錯誤、序列化失敗、空預測或環境限制終止的軌跡。第三層是連貫性檢驗：用一個GPT-5.4評判員來核查每一步的行動是否與已聲明的子目標保持一致。通過這三層過濾的軌跡，才被認為在每一個前綴處都是真正安全的，可以用作正類監督信號。

贊助商廣告

這種嚴苛標準的必要性在於：如果把那些"最終結果碰巧正確，但中間步驟其實出了問題被後續智能體修復了"的軌跡也當成安全軌跡，那麼訓練出來的審計員就會學會對那些"表面看起來沒問題"的早期警示信號視而不見。

**不安全軌跡的構建：兩條路徑並行**

不安全軌跡的獲取有兩個來源，研究團隊將其稱為"構造性流"和"診斷性流"。

構造性流的思路是在安全軌跡上主動"埋雷"。從一條已驗證的安全軌跡出發，隨機選擇一個注入步驟和一個故障類別，生成一個有問題的替換步驟，然後讓多智能體系統從這個被篡改的前綴開始繼續往後運行，最終驗證這次修改確實讓結果變成了失敗。由於注入位置是已知的，決定性錯誤步驟的標籤可以直接確定。

故障類別在不同領域有不同的設計。數學領域包括計算失誤、過早終結、驗證走捷徑、錯誤解讀驗證結果等四類；代碼領域包括代碼邏輯錯誤、跳過驗證步驟、錯誤解讀驗證結果等三類；智能體任務領域則包括工具注入、提示注入、驗證走捷徑、求解器過早給出答案、驗證員文本走捷徑、最終答案覆蓋等更豐富的類型。注入完成後還有一道"合格檢查"：如果後續智能體自我糾正導致最終結果仍然正確（意味著錯誤被修復了，不算決定性錯誤），或者目標步驟實際上沒有被真正修改，則這條候選軌跡會被丟棄。

診斷性流則針對那些自然產生的失敗軌跡，此時決定性錯誤的位置未知，需要通過分析來確定。研究團隊採用了一個"提議-驗證集成"流程：先由5個獨立的"提議者"調用返回候選的決定性錯誤步驟及負責智能體，然後對每個獨特的候選步驟進行3輪獨立驗證，每次驗證沿四個二元標準進行評分，分別是"錯誤確實存在"、"錯誤具有實質性"、"錯誤具有決定性"、"錯誤是最早的"。只有當某個候選步驟在四個標準全部滿足的情況下獲得的驗證者支持數超過多數閾值（即至少2票），才會被接受為標註結果。這種設計比簡單多數投票更為保守，確保了標註質量。

贊助商廣告

最終，來自構造性流和診斷性流的不安全軌跡合併，與安全軌跡一起構成了完整的AFTRAJ-2K數據集。數據集按照"軌跡家族"（即一條安全軌跡及其所有注入變體）分層劃分訓練集和測試集，確保不會發生資訊泄漏。

---

四、AgentForesight-7B的訓練：兩階段"由粗到精"

有了AFTRAJ-2K，接下來就是訓練審計員。研究團隊選擇了Qwen2.5-7B-Instruct作為基礎模型，並設計了一套"由粗到精"的兩階段強化學習訓練方案。

**第一階段：讓審計員學會感知"危險邊界"**

第一階段的核心目標，是讓審計員對"安全前綴"和"剛越過決定性錯誤的前綴"這兩種情況有清晰的區分感知。研究團隊將其稱為"失敗邊界對齊"階段。

對於每條不安全軌跡，研究團隊構建兩個"邊界對"提示：一個是包含到決定性錯誤步驟前一步的前綴（此時正確答案是"繼續"），另一個是包含到決定性錯誤步驟本身的前綴（此時正確答案是"警報"）。這兩個提示內容幾乎相同，只差了最後那一步，但要求的判斷結論卻截然相反。通過讓模型學習這種"一步之差、判斷翻轉"的規律，審計員就能內化一種隱性的"風險感知先驗"——知道什麼樣的軌跡前綴是安全的，什麼樣的已經越過了危險線。

這個訓練方式背後用的優化方法叫BPPO（邊界對偏好優化），是研究團隊基於經典的DPO（直接偏好優化）專門為這種"邊界對"結構設計的變體。簡單來說，它讓模型通過比較"對的答案"和"錯的答案"來調整自己的判斷偏好，而且對"邊界前"（應說繼續）和"邊界後"（應說警報）兩種情況分別優化，最終促使模型學會在決定性步驟處"翻轉"自己的判斷。

**第二階段：讓感知變成精準定位**

第一階段讓審計員建立了粗粒度的邊界感知，但僅有感知還不夠——審計員還需要在正確的時機精確指出"哪一步出了問題，是哪個智能體負責的"。第二階段使用GRPO（一種基於組內相對獎勵的強化學習方法）來進一步精煉這種能力。

贊助商廣告

每次模型生成一個回答，該回答會沿三個維度被評分，研究團隊將其稱為"三軸獎勵"。第一個維度是"什麼"（結構軸）：評分函數檢查回答是否符合要求的JSON格式，欄位是否完整且有實質內容，格式不合格會被扣分。第二個維度是"在哪裡"（時間軸）：評分函數用一個以正確步驟為中心的高斯函數來評分，預測步驟越接近真實決定性步驟，得分越高；完全精準命中得滿分，偏差越大分數越低。第三個維度是"誰"（因果軸）：評分函數檢查預測的負責智能體是否與真實標註一致，完全匹配得滿分，不匹配只得部分分。三個維度的得分組合成一個綜合獎勵，其中對於"安全"軌跡給出正確判斷得+1分，對於"不安全"軌跡精準命中得到由時間軸和因果軸加權的得分，而判斷方向完全錯誤（把不安全說成安全或把安全說成不安全）則得-1分。

在第二階段的強化學習中，參考策略被固定在第一階段訓練出來的模型上，而非原始基礎模型。這樣做的好處是KL散度懲罰項會拉著模型回到"具備風險感知先驗"的狀態，防止模型在追求精準定位的過程中忘記了粗粒度的邊界感知能力。整個訓練過程在2張NVIDIA H200 GPU上完成。

---

五、實驗結果：和"更大更強"的模型同台競技

研究團隊在兩個數據集上評估了AgentForesight-7B的表現，並與大量基線模型進行了比較。

評測使用的核心指標有兩個。一是"精確步驟F1"（Exact-F1），這是一個綜合了"召回率"和"精確率"的綜合分數——簡單說，既要求"不遺漏真正的決定性錯誤步驟"，也要求"不亂把錯誤的步驟誤報成決定性錯誤步驟"，兩者越平衡、越準確，得分越高。二是"絕對步驟偏移"（ASS），衡量預測的錯誤步驟與真實步驟之間的平均絕對距離，這個數值越小越好。

**在AFTRAJ-2K測試集上**，AgentForesight-7B以66.44的整體Exact-F1遠超所有競爭對手。作為對比，同類中最強的專有模型DeepSeek-V4-Pro（一個遠比7B大得多的模型）得分為46.56，差距超過19個百分點。在步驟定位精度上，AgentForesight-7B的ASS為0.59，而DeepSeek-V4-Pro為1.77，意味著定位精度提升了約3倍。

贊助商廣告

分領域來看，AgentForesight-7B在數學領域的Exact-F1達到77.36（次優為DeepSeek-V4-Pro的50.34），代碼領域達到78.87（次優為DeepSeek-V4-Pro的49.32），智能體任務領域達到48.70（次優為Qwen3-32B的40.00）。值得一提的是，AgentDebug-7B這個"能看到完整軌跡才進行事後分析"的基線模型，在整體Exact-F1上僅得到9.63，在數學領域甚至檢測不到任何不安全軌跡。這充分說明，把一個"事後分析"模型直接拿來用於每一步的在線審計，效果非常糟糕。

**在外部基準Who&When上**，這項測試涉及127個多智能體系統，軌跡來源完全獨立於AFTRAJ-2K。AgentForesight-7B在步驟準確率上達到57.69%，比最強基線GPT-4.1高出約19.59個百分點；在智能體準確率上達到73.08%，比GPT-4.1高出約6.41個百分點；ASS為1.62，優於所有基線。這說明AgentForesight-7B學到的在線審計能力具有良好的泛化性，而非只是記憶了訓練數據的特定模式。

**兩階段訓練的貢獻分解**

研究團隊還專門分析了兩個訓練階段各自的貢獻。以Qwen2.5-7B-Instruct基礎模型（整體Exact-F1為21.05）為基準：僅使用第一階段訓練後，整體Exact-F1提升至35.63；僅使用第二階段訓練後，整體Exact-F1提升至50.42；兩階段結合後，整體Exact-F1最終達到66.44。

這個分解揭示了一個有趣的規律：第二階段單獨訓練在數學（63.64）和代碼（72.73）領域效果很好，但在智能體任務領域（19.05）反而低於第一階段單獨訓練的結果（31.58）。原因在於智能體任務的失敗邊界更難辨識，沒有第一階段建立的"風險感知先驗"，第二階段的精準定位訓練就會"無處著力"。加上第一階段之後，智能體任務領域的表現恢復到48.70，證明兩階段的協同是必要的。

**部署可行性：虛警率與步驟精度的雙重考量**

研究團隊還繪製了一張"部署權衡圖"，橫軸是虛警率（在安全軌跡上發出錯誤警報的概率），縱軸是步驟準確率（在不安全軌跡上精確定位決定性步驟的概率）。他們劃定了一個"可部署區域"：虛警率不超過20%，步驟準確率不低於50%。在所有參與比較的系統中，只有AgentForesight-7B落在這個可部署區域內，其虛警率僅為2.37%，步驟準確率為59.51%。DeepSeek-V4-Pro以虛警率43.20%、步驟準確率53.99%勉強位於可部署區域之外，其他模型則大多集中在"虛警率高但步驟準確率中等"的不理想區域。

贊助商廣告

---

六、當"聰明"的大模型也會犯的錯，審計員如何應對

研究團隊通過具體案例展示了在線審計的獨特挑戰和AgentForesight-7B的優勢。

在一個網路搜索任務中，任務要求找到"離Rivington Hall Barn最近的前磨坊小鎮"，正確答案是Bolton。搜索智能體在步驟5返回了錯誤答案"Horwich"，管理智能體隨後將其傳遞並提交為最終答案。面對這個軌跡，DeepSeek-V4-Pro的判斷是"整體流程看起來正常，判為安全"——完全沒有發現錯誤；Gemini-3-Flash則過早地在步驟2（管理智能體的規劃思考階段）發出警報，屬於"假陽性"。只有AgentForesight-7B正確地指出步驟5的搜索智能體是決定性錯誤的來源。

在另一個數學案例中，決定性錯誤發生在步驟6，而兩個專有基線Gemini-3-Flash和GPT-4.1分別在步驟4和步驟3就發出了警報——這些都是仍然可以被後續步驟修復的"可恢復步驟"，並非真正的決定性錯誤。AgentForesight-7B則唯一正確地等到步驟6才發出警報，精準命中真正的決定性錯誤所在。

研究團隊還分析了AgentForesight-7B自身的失敗模式。在169條安全軌跡中，只有4條被錯誤地發出了警報（虛警率2.37%），而且這4個案例均屬於"步驟內自我糾正被誤判為決定性錯誤"——比如驗證智能體的工具調用先返回了一個錯誤的中間結果，然後同一個智能體在同一步驟內又自行糾正了，AgentForesight-7B的風險感知先驗被表面上的"錯誤信號"觸發，提前一步發出了警報。在被正確檢測到的不安全軌跡中，大約75%的定位偏差只有"偏差1步"，主要原因是系統有時會定位到"錯誤的根源所在步驟"而非"錯誤被最終提交的步驟"，這兩者對人類來說可以說都是合理的解釋。

---

七、為什麼不讓AI自己"反思"，而要設置獨立的外部審計員

研究團隊在論文中專門討論了"為什麼不讓智能體自己反思檢查，而是要設置一個獨立的外部審計員"這個問題。

核心原因在於一個被研究者反覆證實的規律：生成一段內容，和評判這段內容是否正確，是兩件難度不對等的事情。一個能力相對較小的評判者，往往可以可靠地監督一個能力更強的生成者。這在過程監督領域已經有充分的實證支持。在AgentForesight的場景中，7B的審計員可以可靠地監督底層運行著更大、更複雜模型的多智能體系統。

贊助商廣告

更深層的問題在於：讓智能體自己反思，相當於用生成錯誤內容時所用的同一套參數，去評判這段錯誤內容是否有問題。這就好比讓一個人用同一把刻度不準的尺子，既量物體，又驗證量得準不準——尺子有偏差，反思也會有相同的偏差。大量研究表明，基於語言反饋的自我糾正循環往往無法從上遊錯誤中恢復，有時甚至會把本來正確的步驟改錯。

外部審計員的另一個優勢是"解耦"：審計員不參與任務執行，不會干擾智能體的協作流程；審計員的訓練目標和參數獨立於底層智能體，因此它的"盲點"和底層智能體的"盲點"不重合。此外，外部審計員的虛警閾值可以單獨調整，不影響底層智能體。實驗數據也直接支持了這一點：在相同的Qwen2.5-7B-Instruct底座上，採用外部審計員範式的AgentForesight-7B（整體Exact-F1為66.44）比採用自我反思範式的Reflexion-7B（整體Exact-F1為23.38）高出約2.84倍。

---

說到底，這項研究做了一件聽起來簡單但實際上頗具難度的事：把"發現AI犯錯"這件事，從"等任務結束再慢慢分析"改變成了"邊執行邊盯著、一出錯就叫停"。為了實現這個轉變，研究團隊構建了一套專門的數據集（每條軌跡都精確標註了"決定性錯誤步驟"），設計了一套兩階段訓練方案（先讓模型感知危險邊界，再訓練模型精準定位），最終得到一個緊湊的7B模型，在多個測試集上超越了參數規模大得多的專有系統。

這項研究的現實意義不容小覷。隨著越來越多的AI智能體被部署在真實世界的工作流程中——處理文件、調用API、操作資料庫——一個能在錯誤傳播之前及時叫停的"在線審計員"，很可能成為保障AI系統可靠運行的標配組件。當然，研究團隊也坦誠地指出了局限：在線審計需要在每一步都調用審計員，增加了一定的運行開銷；數據集目前覆蓋的領域（數學、代碼、網路搜索類任務）相對有限，尚未涵蓋長期具身智能當AI工程師犯錯時誰能第一時間發現來自羅格斯大學等機構的多智能體系統在線審計新方法體或開放性科學發現等更複雜的場景。

贊助商廣告

有興趣深入研究這套方法的讀者，可以通過arXiv編號2605.08715查閱完整論文和附錄材料，研究團隊也在論文中提供了完整的代碼和數據集開源資源。

---

Q&A

Q1：AgentForesight和傳統AI錯誤檢測方法有什麼不同？

A：傳統方法是在多智能體任務完全結束並失敗後，才對整個軌跡做事後分析，找出哪個步驟出了問題，但此時錯誤已經傳播，可能已觸發不可逆操作。AgentForesight則採用"在線審計"方式，在任務執行的每一步都對當前已有的執行記錄進行判斷，一旦檢測到決定性錯誤，立即發出警報並指出錯誤步驟和負責智能體，為干預留出窗口。

Q2：AFTRAJ-2K數據集是怎麼保證標註質量的？

A：對於成功軌跡，研究團隊使用了三層過濾機制，確保每一步都真正安全。對於失敗軌跡，分為兩類來源：一類是在安全軌跡上人為注入錯誤、精確記錄注入位置；另一類是自然失敗軌跡，通過"5個獨立提議者+3輪獨立驗證"流程確定決定性錯誤步驟，只有在四項嚴格標準上都通過多數驗證的候選步驟才被接受為標註結果，比簡單多數投票更為保守。

Q3：AgentForesight-7B只有7億參數，為什麼能超過更大的專有模型？

A：主要原因是專門化訓練。AgentForesight-7B的整個訓練流程——包括數據集構建、兩階段強化學習方案、三軸獎勵設計——都圍繞"在前綴受限條件下進行在線審計"這一特定任務精心設計。而更大的專有模型是通用模型，沒有針對這個特定任務進行專門訓練，因此在這個特定場景下反而不如經過專門優化的小模型表現好。