AI助手遇到「工具罷工」時該怎麼辦？上海AI實驗室等機構聯合推出首個專為工具故障設計的測試基準

這項由上海人工智慧實驗室、華東師範大學、蘇州大學、山東大學及百度公司聯合開展的研究，以預印本形式發布於2026年6月，編號為arXiv:2606.05806v1，感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

現實里，AI助手的工具調用遠比想像中脆弱

你有沒有遇到過這樣的場景：讓AI助手幫你查機票、算匯率、然後發一封預訂郵件，整個流程一氣呵成——前提是每一步都順利的話。但如果中間某個工具突然"罷工"了，AI助手會怎麼做？是機靈地繞路，還是原地打轉，或者乾脆崩潰？

這正是這項研究想要回答的核心問題。研究團隊發現，現有的AI代理評測幾乎都活在一個"美好幻覺"里——它們假設所有工具都運轉正常，就像假設你做飯時燃氣灶永遠不會突然沒氣一樣。然而現實是，工具會報錯、會超時、會返回看似正常卻實際上完全錯誤的數據，而當這些情況發生時，現有AI代理的表現往往讓人大跌眼鏡。

為了打破這個幻覺，研究團隊推出了一個名為TOOLMAZE的新評測框架。它的核心使命只有一個：把AI代理放進真實的"工具故障現場"，看看它們到底有沒有自救能力。

一、像迷宮一樣的任務設計：TOOLMAZE為何與眾不同

現有的評測系統最大的問題，是把任務設計成了一條筆直的高速公路——AI只需要一步接一步地調用工具，走到終點就算成功。這就像考駕照只考直線行駛，從不考驗倒車入庫或者路上突然遇到塞車該怎麼處理。

TOOLMAZE的設計思路完全不同。研究團隊把任務想像成一張地圖，地圖上有主路，也有岔路，還有隨時可能封閉的路段。這張地圖由有向無環圖（DAG）來描述——你可以把它理解為一張"工具調用流程圖"，圖中的每個節點是一次工具調用，每條邊表示前一步的結果會被後一步使用。

這張地圖有兩個維度需要同時考量，就像描述一棟建築既要說它有幾層（高度），也要說它有多少個出入口（通道複雜程度）。

贊助商廣告

第一個維度是任務拓撲複雜度，用字母C來表示，共分四個級別。C1是最簡單的線性流程，就像單行道，從起點到終點只有一條路，任何路段出問題都沒有替代方案。C2引入了替代路徑，某個工具壞掉時可以用功能相近的另一個工具頂替，就像塞車了可以走旁邊的輔路。C3把問題變得更複雜，多條路徑相互交織，從不同起點都能抵達終點，就像城市裡有多條地鐵線路可以到達同一個目的地。C4則是最複雜的情形，把C2和C3的結構混合在一起，整個任務圖有多個分支節點，每個節點都可能有1對多或多對多的替代方案，考驗的是在錯綜複雜的地圖中同時管理多條可能路徑的能力。

第二個維度是故障類型，用字母P來表示，也分為四種模式。這四種模式來自兩個維度的交叉：故障是"顯眼的"還是"隱蔽的"，以及故障是"一次性的"還是"永久性的"。P1代表顯眼的一次性故障，比如工具突然返回"503服務不可用"，錯誤資訊一目了然，而且重試一次就能成功，就像自動販賣機卡了一次，多按幾次出來了。P2代表顯眼的永久性故障，工具直接報"404找不到"或者"許可證已過期"，重試也沒用，必須換路。P3代表隱蔽的一次性故障，工具返回的數據格式完全正常，但內容是錯的，比如原本應該返回北京的天氣，卻返回了東京的天氣，而且這只是偶發的，再調用一次就正常了。P4代表隱蔽的永久性故障，工具持續返回內容錯誤的"正常格式"數據，就像一個指針永遠偏差15度的指南針，看起來沒問題，但會讓你一直走錯方向。

這個兩維度的設計，讓評測的每個任務實例都有一個精確的坐標，比如（C3, P4）就代表：一個多對多路徑的複雜任務，裡面某個工具會持續悄悄地返回錯誤數據。TOOLMAZE總共生成了2000個評測實例，覆蓋了所有維度組合。

二、構建這座迷宮的工藝：工具庫與任務生成

建設一個高質量的測試場景，遠比寫幾道考題複雜得多。研究團隊從零開始手工構建了一個包含270個工具的工具庫，每個工具都模仿現實世界的API接口，有固定的輸入參數和輸出欄位，並且可以完全確定性地運行——給相同的輸入，永遠得到相同的輸出，這樣才能保證不同AI系統之間的評測結果可以公平比較。

贊助商廣告

這270個工具按功能分為三類。資訊獲取類工具負責查詢外部數據，比如查詢天氣、搜索新聞；數據處理類工具負責對中間數據進行轉換，比如溫度單位轉換、文本翻譯；操作執行類工具負責產生實際效果，比如發郵件、預訂航班。一個結構良好的任務流程圖必須至少包含一個資訊獲取工具和一個操作執行工具，中間可以穿插若干數據處理工具，這個約束確保了任務有真實的起點和終點。

這些工具還按應用領域打上了標籤，涵蓋金融、旅行、辦公、購物、智能家居和通用六個類別。在構建任務時，系統會按領域均衡採樣，確保每個領域的任務量大體相當，避免某一類任務占據主導地位導致評測失真。

任務生成遵循一個"先搭骨架，後填血肉"的原則，研究團隊將其稱為"工具優先範式"。具體來說，流程分三步走。第一步，由一個AI架構師根據目標複雜度級別從工具庫中挑選工具，搭建流程圖的骨架，然後對這個骨架進行兩層檢驗：結構層面確認圖中沒有循環、拓撲結構符合目標級別；語義層面檢驗相鄰工具之間的輸入輸出是否真的能對接，比如不會把"天氣查詢"的輸出直接塞給"股票價格查詢"工具去使用。第二步，在確認骨架正確之後，系統會窮舉所有可能的有效執行路徑，建立一個完整的"正確答案空間"，其中最短的那條路徑被指定為無故障情形下的默認執行路徑。第三步，由另一個AI根據這個流程骨架生成自然語言的用戶請求，然後用第三個AI反向驗證：僅憑這段用戶請求，能否還原出原來的工具流程圖？只有能還原的任務才會被保留，這個逆向驗證機制極大地減少了生成任務時出現語義漂移的風險。

三、故障注入機制：如何讓測試公平又嚴格

在任務和工具庫就位之後，TOOLMAZE還需要一個精準的"故障注入系統"，來確保每次測試的故障觸發方式完全一致，不會因為隨機性而讓某個AI運氣好躲過了故障。

贊助商廣告

這個系統的核心原則是"確定性注入"。每個任務實例都帶有一個預先設定好的故障檔案，明確規定了哪個工具應該失敗、失敗時返回什麼內容。當AI調用到這個工具時，系統會攔截請求並返回預設的故障響應；其他工具則正常運行。所有參與評測的AI都接收完全相同的故障響應，不存在任何隨機差異，這保證了橫向比較的公平性。

對於多路徑任務，故障的觸發機制稍有變化。由於AI可以選擇不同的路徑來完成同一個邏輯步驟，系統會在AI首次調用某個替代方案組中的任意工具時，就把故障分配給這個被選中的工具，並禁止同一組中的其他工具再次被觸發同樣的故障。這樣無論AI選了哪條路走，它都會遇到障礙，從而真正考驗它是否能檢測到問題並換路，而不是單純靠繞開故障工具就矇混過關。

四、三把尺子量出真實能力：評測指標的設計

研究團隊沒有滿足於一個簡單的"成功或失敗"評分，而是設計了三個互補的指標，從不同角度衡量AI代理的表現，就像評價一個運動員不只看最終名次，還要看速度、耐力和技術動作。

第一個指標是任務成功率，縮寫TSR，就是最直觀的"任務最終完成了嗎"。這個指標在無故障情形下反映的是AI的基礎工具調用能力，在故障情形下則綜合反映了整體韌性。對於C1這種沒有替代路徑的任務，遇到永久性故障時唯一正確的做法是"優雅地宣告失敗"，這也算作成功。

第二個指標是故障恢復率，縮寫PRR，專門衡量AI在真正遭遇故障時的恢復能力。這個指標不關心任務有沒有最終完成，只看AI在檢測到故障之後有沒有採取正確的應對動作——對於一次性故障，正確動作是重試；對於永久性故障且有替代路徑，正確動作是切換到其他路徑；對於永久性故障且沒有替代路徑，正確動作是明確報告失敗並停止。這個指標能幫助區分"碰巧成功"和"真正懂得恢復"這兩種情況。

贊助商廣告

第三個指標是恢復成本，縮寫RC，衡量的是AI在恢復過程中是否走了彎路。具體來說，從AI第一次遭遇故障開始，一直到任務完成，它實際調用了多少次工具？與理論上最優路徑所需的工具調用次數相比，多出來的部分就是"浪費"。這個指標直接懲罰那些在故障後漫無目的地反覆試探、繞來繞去的行為。三個指標合在一起，才能完整描述一個AI代理"遇到麻煩時到底表現如何"。

五、測試結果：讓人又驚又嘆的現實差距

研究團隊在TOOLMAZE上評測了九款代表性的大型語言模型，包括GLM-5.1、Deepseek-V4-Pro、MiniMax-M2.7、Qwen3.5-35B-A3B、Qwen3.5-397B-A17B、Qwen3.6-27B六款開源模型，以及GPT-5.5、Gemini-3.1-Pro-Preview、Claude-Sonnet-4-6三款商業模型。每個模型都在標準提示詞（不提醒故障可能性）和故障感知提示詞（明確告知可能遇到工具故障並給出恢復策略建議）兩種設置下分別測試。

綜合評分最高的是Gemini-3.1-Pro-Preview，綜合得分52.95分，其次是GPT-5.5（49.96分）、Claude-Sonnet-4-6（46.14分）和Deepseek-V4-Pro（45.09分）。

最核心的發現來自無故障狀態和有故障狀態之間的對比。以Claude-Sonnet-4-6為例，在沒有任何故障干擾的理想狀態下，它的任務成功率高達77%，表現相當出色。然而一旦引入故障，整體表現急劇下滑。這個對比在所有模型上都成立，說明"在順風順水的條件下調用工具"和"在工具出故障時進行動態恢復"根本就是兩種不同的能力，而現有模型在後者上的準備明顯不足。

故障類型對表現的影響極為顯著，而且呈現出清晰的規律。在無提示詞輔助的標準測試下，P1類故障（顯眼的一次性故障）的平均恢復率為81.44%，模型表現尚可；P2類故障（顯眼的永久性故障）恢復率降至38.12%；P3類故障（隱蔽的一次性故障）恢復率只有27.68%；P4類故障（隱蔽的永久性故障）恢復率更是跌到17.58%。顯眼故障與隱蔽故障之間的恢復率差距，在一次性故障情形下平均高達53.75個百分點，在永久性故障情形下也有20.54個百分點。

贊助商廣告

這組數字揭示的是一個深層的"過度信任"問題：AI模型對工具返回的數據幾乎沒有內置的懷疑能力。當一個工具返回"503錯誤"時，模型能認出這是個故障信號；但當一個工具返回格式完全正確、只是內容悄悄出錯的數據時——比如查詢蘋果公司股價，返回了微軟的數據，或者查詢北京時區，返回了UTC+5而非正確的UTC+8——大多數模型會毫不質疑地接受並繼續使用這些數據，就像一個人完全不核查資訊來源就轉發了一條假新聞。

故障類型對"恢復成本"的影響則呈反向規律。P1故障的恢復成本較低，說明模型在正確處理時效率還不錯；但隨著故障變得越來越隱蔽和持久，恢復成本急劇攀升——P4場景下平均恢復成本超過70%，意味著模型在處理這類故障時大量時間和調用次數都浪費在了無效的反覆嘗試上。

任務拓撲複雜度對表現的影響也很有意思。C2級別（有替代路徑的簡單分支）反而是所有模型表現最好的點：任務成功率和故障恢復率都在C1到C4里最高，恢復成本最低。這背後的原因可以理解：C1沒有任何替代路徑，遇到永久性故障只能認輸；C2有明確的一個替代選項，不算太難找；但到了C3和C4，可選路徑的數量爆炸式增長，模型很容易陷入"無頭蒼蠅"狀態，東試一下西試一下，浪費大量調用次數。任務越複雜，模型被困在無效循環里的可能性就越大。

六、提示詞能救場，但治標不治本

研究團隊為所有故障情形額外設計了一套"故障感知提示詞"，明確告訴模型可能遇到工具故障，並給出基本的恢復策略建議（對可疑數據進行合理性檢查、遇到永久故障及時切換路徑等）。這套提示詞在所有模型上都帶來了改善，提升幅度從1.5個百分點到20.8個百分點不等，說明明確的引導確實有幫助。

然而即便加上這套精心設計的提示詞，故障情形下的任務成功率仍然顯著低於無故障情形下的基準。這說明問題不只出在"AI沒被告知要小心"上，而是出在模型自身缺乏對語義異常的內生感知能力。提示詞是外力，而不是內功，一旦故障的形式超出了提示詞的預想範圍，AI依然束手無策。

贊助商廣告

七、規模擴大有用，但效果嚴重打折

研究團隊還專門分析了"把模型做得更大"能否解決這個問題。他們對六款開源模型（從約27億參數到約1000億參數）的表現做了統計擬合，結果相當令人警醒。

每增加十倍參數量，模型在無故障情形下的任務成功率（TSR）平均提升17.85個百分點，進步幅度可觀。但同樣增加十倍參數量，模型的故障恢復率（PRR）平均只提升4.88個百分點。換句話說，模型規模對"順利完成任務"的幫助，比對"故障後恢復"的幫助大了整整3.66倍。這個差距意味著，單純地把模型做大，並不能有效解決動態恢復能力的欠缺問題。動態規劃和異常識別是一種與規模無關的、需要專門培養的能力。

---

說到底，TOOLMAZE這項研究告訴我們的事情既實際又深刻。當我們把AI代理部署到真實世界的時候，工具不出錯是例外，工具出錯才是常態。一個只會在順風順水時工作的AI助手，就像只會晴天駕駛的司機——在生活的大多數時候，都派不上用場。

這項研究的貢獻不只是指出了問題，更在於它提供了一套精確的測量工具，讓研究者和開發者能夠量化"故障韌性"究竟差在哪裡、差多少。尤其是它揭示出的那個"隱蔽故障"黑洞，值得所有AI開發者認真對待：一個工具悄悄返回錯誤數據，遠比它直接報錯更危險，因為後者能被發現，前者會被默默相信。

對於普通用戶而言，這意味著在使用AI代理完成重要任務時——尤其是多步驟、涉及外部數據查詢的任務——保持一定的結果核查習慣仍然是必要的。對於AI行業而言，這意味著"能順利完成任務"和"能在故障中恢復"是兩張完全不同的成績單，未來的模型評測不應該繼續只看前者而忽視後者。

研究團隊已經將TOOLMAZE的數據和代碼完整開源，有興趣深入了解的讀者可通過arXiv編號2606.05806查閱完整論文，或前往GitHub倉庫Zhudongsheng75/ToolMaze獲取完整評測框架和數據集。

贊助商廣告

---

Q&A

Q1：TOOLMAZE基準測試和現有的AI工具評測有什麼根本區別？

A：現有的AI工具評測幾乎都假設工具運行正常，只測AI能不能順利完成任務。TOOLMAZE的根本區別在於，它專門測試"工具出故障時AI能否自我恢復"。它引入了四種故障類型（顯眼一次性、顯眼永久、隱蔽一次性、隱蔽永久），並結合四種拓撲複雜度（線性到多分支），構成一個完整的二維評測矩陣，能精確區分AI是真正在"智能恢復"還是在盲目試錯。

Q2：為什麼AI模型處理隱蔽工具故障的能力比處理顯眼故障差那麼多？

A：核心原因是AI模型對工具返回數據幾乎沒有內置的合理性驗證能力。當工具返回明確的錯誤代碼（如404），模型能識別；但當工具返回格式正確、內容錯誤的數據時（如查北京溫度卻返回了負50度），大多數模型會直接相信並使用這個數據。研究發現，這個"過度信任"問題導致隱蔽故障恢復率比顯眼故障低了平均37個百分點左右。

Q3：把AI模型參數量做得更大能解決工具故障恢復問題嗎？

A：效果非常有限。研究發現，模型參數量每增加十倍，無故障任務成功率平均提升約17.85個百分點，但故障恢復率只提升4.88個百分點，相差3.66倍。這說明動態恢復和異常識別能力並不隨規模自然湧現，需要有針對性的專項訓練，單純擴大模型規模並不能有效解決這個問題。