當AI「導航員」碰上混亂地圖：伊利諾伊大學厄巴納-香檳分校揭示LLM智能體在海量工具迷宮中的真實困境

這項由伊利諾伊大學厄巴納-香檳分校多位研究人員聯合完成的研究，發表於2026年6月，論文編號為arXiv:2606.22388v1，發布於電腦科學人工智慧領域。有興趣深入查閱完整研究的讀者，可通過該編號在arXiv平台檢索原文。

贊助商廣告

**研究概要：當你的AI助手面對一萬種工具，它會暈頭轉向嗎？**

假設你要在一座超大型圖書館裡找一本書，但這座圖書館沒有統一的目錄系統，書架上的書既有真正的好書，也有封面印著正確書名卻內容全錯的假書，甚至有些書架根本就找不到、或者書到手了發現頁碼全亂了。更麻煩的是，你每次只能看到一小片區域，而且你必須根據前一本書的內容決定下一步去哪個書架。這就是現代AI智能體每天面對的真實處境。

近年來，各種基於大型語言模型的AI智能體（可以理解為能夠自主思考和行動的AI系統）已經被廣泛部署在各類複雜任務中。它們需要調用外部工具來獲取資訊，就像人類需要用搜尋引擎、計算器或者資料庫來完成工作一樣。現實中，這些工具動輒成千上萬，而AI每次只能"看到"其中一小部分。更糟糕的是，這些工具並非都可靠：有些根本不能用，有些返回的結果是錯的，有些看起來很相關但實際上答非所問。

面對這種混亂，AI智能體能夠穩定地完成任務嗎？之前的學術界對這個問題的研究相當有限，大多數測試都假設工具是完整可見的、可靠的，或者任務目標是明確的，這與現實相去甚遠。正是為了填補這一空白，這支來自伊利諾伊大學厄巴納-香檳分校的研究團隊構建了一個名為PlanBench-XL的全新測試平台，專門用來測量AI智能體在"混亂工具生態"中的真實表現。

研究團隊在這個平台上測試了十款當前最先進的AI語言模型，涵蓋GPT-5.4、Gemini-3.1-Pro、DeepSeek-V4-Flash、Qwen3系列、Llama3系列等，結果既有驚喜，也有不少令人警醒的發現。

---

**一、這座測試迷宮是怎麼建造的**

贊助商廣告

PlanBench-XL的構建邏輯，可以用一個"零售業內部調查員"的故事來理解。

研究團隊選擇了零售行業作為測試場景。在零售場景中，資訊是高度關聯的：一個送貨嘗試ID可以關聯到一個快遞單號，快遞單號關聯到訂單，訂單關聯到退款申請，退款申請關聯到退款ID，最終才能找到付款賬戶資訊。這條鏈條可以綿延七八個甚至更多的環節。

為了系統性地構建這個場景，研究團隊首先定義了56種"數據類型"——可以把它們理解為零售世界裡不同種類的資訊標籤，比如"用戶名"、"訂單ID"、"退款狀態"等等。接著，團隊用AI自動生成了大量"工具"——每個工具都像一把特定的鑰匙，能夠把某一種類型的資訊轉化成另一種類型。比如，有一個工具叫"根據送貨嘗試ID獲取快遞單號"，輸入送貨嘗試ID，就能輸出快遞單號。

這些工具經過嚴格的自動篩選，排除掉邏輯不通的、冗餘的、或者完全不符合現實業務邏輯的工具，最終保留了185個可執行的核心工具。除此之外，研究團隊還額外生成了925個"噪音工具"——這些工具看起來和正常工具差不多，但其描述中明確說明它們可能不可靠、數據陳舊，或者是某種"預覽版"而非正式版本。

整個工具庫一共包含1665個工具，所有工具都通過統一的"檢索接口"暴露給AI智能體——AI每次只能用自然語言查詢來獲取一批候選工具，而不是直接看到全部工具。

然後，研究團隊進一步構建了一套後端資料庫，確保每個工具調用都能返回具體的數值，而不是隨機編造的。最後，他們生成了327道測試題，每道題都對應了一個需要至少5步工具調用才能解答的任務——有些任務最短需要9步。

這就像給AI布置了一道"多級跳台階"的作業：你必須先上第一個台階，才能看到第二個台階的位置，而每一步都有可能踩空。

---

**二、AI智能體的"尋路"方式：前向探索與後向推理**

在正式測試中，AI智能體並不能一眼看穿整條解題路徑。它所能做的，是通過三種不同的檢索策略來慢慢摸索。

贊助商廣告

第一種叫"前向探索"：AI已經手握一些已知資訊，比如送貨嘗試ID，那麼它就去問檢索系統"給我所有以送貨嘗試ID為輸入的工具"，然後從返回的候選工具中挑一個調用，獲得新的資訊，再繼續往下走。

第二種叫"後向推理"：AI知道自己最終需要的是付款賬戶資訊，那麼它就反向去問"哪些工具的輸出包含付款賬戶資訊"，找到前置條件，再往前追溯，規劃出一條從目標到起點的逆向路徑。

第三種是"橋接檢索"：AI同時指定輸入和輸出類型，直接查詢"有沒有工具能把資訊A轉換成資訊B"，這種方式最為精準但也最需要提前知道自己在找什麼。

這三種策略共同構成了AI在工具迷宮裡的"尋路工具包"。研究團隊發現，聰明的AI會靈活組合這三種策略，而能力較弱的AI則幾乎只會傻傻地前向探索，結果經常原地打轉。

具體來說，研究者計算了每個模型"前向檢索"與"後向檢索"的比例，比例越高說明這個AI越依賴正向思維，越少做反向推理。表現較差的Llama-3.1-8B-Instruct的前向/後向比高達16.56，而Qwen3-14B也達到14.18。這意味著這些AI幾乎只會沿著當前手上有的資訊一步步往前摸，一旦遇到斷頭路就完全束手無策，因為它們很少從終點倒推、想清楚"我需要什麼才能到達終點"。對比之下，表現更好的模型在後向推理上投入了更多精力，能夠主動規劃逆向路徑。

---

**三、噪音工具和"路障"測試：當地圖故意畫錯了**

真實世界裡，工具不僅僅是"不夠多"的問題，還經常是"主動誤導"你的問題。為了模擬這種情況，研究團隊設計了一套可選的"路障機制"。

在默認模式下，AI檢索到的工具中混有那些噪音工具，每個噪音工具的描述里都明確聲明了自己的局限性——比如"此工具數據可能滯後"或"此工具僅在特定條件下有效"。這就像書架上有些書封底印著"本書內容可能不準確，請謹慎參考"，細心的讀者一眼就能識別出來。

贊助商廣告

在路障模式下，情況更複雜。研究團隊會在AI的解題路徑上，把某些關鍵工具"替換掉"，換成三種不同類型的障礙物。

第一種叫"顯式失敗"：替換進來的工具調用後會直接返回錯誤資訊，比如"服務暫不可用"。這種情況下，AI至少知道這條路走不通了，還有機會調頭。

第二種叫"隱式失敗"：替換進來的工具看起來完全正常，調用後也會返回一個值，但這個值根本是錯的——比如一個應該返回退款狀態的工具，實際上返回了"金槍魚"這樣毫無意義的答案，或者返回了一個數學上不可能出現的負數極值。這種情況最危險，因為AI往往不會意識到自己受騙了，還會把這個錯誤的值當成真實數據繼續使用。

第三種叫"語義誤導"：替換進來的工具名字和描述都和原工具非常相似，但功能其實不同。比如原本需要"獲取訂單的預計送達時間"，但被替換成了"獲取門店退貨的預計取件時間"，看起來很像，實際上完全是兩回事。

研究者通過嚴格的數學保證，確保每個路障測試中，被封堵的路徑數量不會把題目變成無解——始終保留至少一條可行路徑，只是讓AI需要繞道。

---

**四、十款頂級AI的成績單：有人滿分，有人零蛋**

讓研究團隊頗感震驚的是，這道"五步以上工具調用"的題目，對很多現在被視為主流的AI系統來說，依然極具挑戰性。

在沒有任何路障的默認測試中，Gemini-3.1-Pro以77.06%的正確率拔得頭籌。這意味著即使是最好的模型，在近四分之一的任務上也會失敗。它同時在"執行精度"這一指標上表現最佳——也就是說，它的工具調用很少走彎路，基本上每次調用都貼近正確路徑，平均只需約20輪交互就能完成任務。

排在第二的是DeepSeek-V4-Flash，以63.08%的正確率緊隨其後。GPT-5.4和Gemini-3.5-Flash均在50%左右。大多數其他模型的正確率低於20%，而Qwen3-8B和Llama-3.1-8B-Instruct則直接以0%正確率墊底——沒有答對一道題。

贊助商廣告

這種"贏家通吃"的分布格局，在模型家族內部也同樣存在。更大的Qwen3-32B比Qwen3-8B好，更大的Llama-3.3-70B比Llama-3.1-8B好，但依然與頂級模型有巨大差距。這說明模型的規模和家族都很重要，但即便是同家族中最強的型號，也未必能在這類任務上表現出色。

研究團隊還發現了一個頗為微妙的規律：探索的廣度和任務成功率之間，存在非常強的正相關關係。他們用"平均探索數據類型數量"來衡量AI探索的廣度，發現這個指標與正確率的皮爾遜相關係數高達0.902——幾乎是完美的線性關係。換句話說，能夠在工具迷宮裡四處摸索、發現更多中間資訊的AI，最終完成任務的概率就越高。

然而，光靠多搜索還不夠。Gemini-3.5-Flash的搜索次數是所有模型里最多的，搜索與工具調用的比例高達10.44，平均每完成一道題需要近58輪交互。但它的正確率僅有52.19%，遠不如Gemini-3.1-Pro的77.06%。原因很簡單：Gemini-3.5-Flash雖然搜了很多，但搜到的東西大量重複，沒有轉化為真正有用的中間資訊。它就像一個不停在書架前踱步卻每次都翻同一本書的讀者，精力全白費了。

---

**五、路障來襲：強如GPT-5.4也從50%跌到11%**

當路障機制開啟後，所有模型的表現都出現了大幅下滑，其中的跌幅令人咋舌。

GPT-5.4在默認模式下正確率為51.90%，但隨著路障越來越多——研究團隊通過"路障比例"來控制有多大比例的可行路徑被封堵——它的正確率急劇滑落。當路障比例達到最高，只剩下一條可行路徑時，GPT-5.4的正確率跌至約30%；而當這最後一條路徑還是所有可行路徑中最長的那條時，它的正確率更是跌到了略高於10%。這意味著，當AI不得不走最繞遠的路來解決問題時，它幾乎完全失去了解決問題的能力。

三種路障類型中，隱式失敗對所有模型的傷害都是最大的。顯式失敗雖然讓AI踩了坑，但AI至少能看到報錯資訊，意識到這條路不通。而隱式失敗返回的是一個"看起來正常"的錯誤值，AI很容易把它當作真實數據用下去，結果後續的每一步都建立在一個錯誤的基礎上，像多米諾骨牌一樣連環倒塌。

贊助商廣告

從數據上看，在隱式失敗的情況下，模型的"使用不可信輸入"比率平均為11.99%，明顯高於顯式失敗的9.67%和語義誤導的9.89%。也就是說，AI更容易把隱式失敗工具的輸出誤認為真實數據，並拿去調用下一個工具。

語義誤導工具的情況相對樂觀。在混合路障測試中，各模型調用語義誤導工具的比例均不超過3%，GPT-5.4和Llama-3.3-70B-Instruct甚至完全沒有調用過語義誤導工具。這說明當前的AI已經具備了一定的"辨別工具真實功能"的能力——只要仔細讀描述，就能發現這個工具其實不是自己需要的那個。

---

**六、額外思考時間救得了場嗎？答案是：基本沒用**

一個自然的問題是：如果給AI更多時間思考和探索，它能不能從路障中恢復過來？研究團隊專門設計了一個"強制繼續探索"的實驗來回答這個問題。

具體做法是：每當AI在路障模式下給出了錯誤的最終答案，系統就自動注入一條提示，告訴它"你還沒找到正確答案，請繼續探索"。這個提示最多可以注入5次。

結果顯示，這種額外的"提示續命"幾乎沒有顯著幫助。大多數模型在獲得額外提示後，正確率只提高了不到5個百分點，而且依然與無路障時的表現有巨大差距。這說明問題不在於AI缺少"機會"，而在於它根本不知道該怎麼從失敗中恢復——它缺乏的是真正的"繞路規劃能力"，而不僅僅是更多的嘗試次數。

這一發現很重要：讓AI"多想想"在某些推理任務上確實有效，但在面對工具生態中的複雜故障時，單純增加思考時間和交互次數並不能解決根本問題。AI需要的是一種更深層的"自我診斷"能力——能夠判斷"我現在走的這條路已經徹底斷了，我需要完全換一個方向"。

---

**七、失敗是怎麼發生的：從"走錯一步"到"無法回頭"**

研究團隊不滿足於只知道AI失敗了，他們還深入分析了AI是在哪一步、以什麼方式失敗的。

他們把每一個工具調用分成兩類：一類叫"進展性調用"，意思是這次調用產生了至少一條朝向正確答案方向的新資訊；另一類叫"非進展性調用"，意思是這次調用沒有推動任何進展。

贊助商廣告

基於這個分類，研究團隊把所有失敗的軌跡歸納為四種模式。

第一種叫"毫無起色"：AI從頭到尾就沒有做出過一次進展性調用，全程原地打轉，從來沒踏上過通向正確答案的路。

第二種叫"不可挽回的漂移"：AI確實走對過幾步，但隨後做出了一次非進展性調用，從此再也沒回到正確軌道。這是最常見的失敗模式。在默認測試中，GPT-5.4有72.4%的失敗案例屬於這一類，Gemini-3.5-Flash有71.3%。這意味著大多數AI並不是一開始就走錯了，而是在走對了一段之後突然"迷路"，然後就再也找不到回來的路了。

第三種叫"微弱的恢復"：AI漂移了，但又找回了一小段正確軌跡，只是還是沒能堅持到終點。這種情況極為罕見，在所有模型的失敗案例中，這一類只占約3%。這個數字揭示了一個殘酷的事實：一旦漂移發生，幾乎是不可逆的。

第四種叫"格式錯誤"：AI的失敗不是因為方向錯了，而是因為調用工具的方式不符合系統要求，比如傳入了錯誤類型的參數，或者在自己還沒獲得必要輸入值之前就想調用某個工具。這類錯誤本質上是技術性的、可修復的，但同樣會導致任務失敗。

研究者進一步追問：AI漂移的時候，是因為根本沒有正確工具可用，還是有正確工具但沒選對？答案令人大跌眼鏡。在失敗案例中，有78%的情況是：在AI做出那個錯誤的非進展性調用之前，它其實已經在之前的某次檢索中看到過一個能推進進展的正確工具，只是沒有選擇它。也就是說，大多數漂移不是"手頭沒有好牌"，而是"明明有好牌卻打錯了"。

更有意思的是，這些錯誤調用還有明顯的"就近偏好"：大約74%的錯誤調用使用的是AI最近一兩輪剛檢索到的工具，即便那些工具並不是最有用的。而那些早幾輪就檢索到卻更有價值的工具，往往被遺忘在記憶的角落裡。這說明AI對"新鮮資訊"有天然的偏好，但這種偏好在複雜的多步任務中反而成了障礙。

贊助商廣告

---

**八、失敗後的各自結局：有人放棄，有人亂猜，有人停不下來**

失敗的路徑可以有很多種，但失敗的結局也各有特色。研究團隊發現，不同模型在"確認失敗後怎麼收場"這件事上，表現出了截然不同的"性格"。

GPT-5.4是個悲觀主義者。它的失敗案例中，有77.3%以一句"我無法確定這個問題的答案"收尾，在路障模式下這一比例甚至攀升至80.6%。明明題目保證了每道題都有解，明明系統明確告知"一定存在可行路徑"，GPT-5.4依然選擇放棄。這不是因為真的無解，而是因為它一旦發現眼前的路不通，就傾向於停止嘗試，而不是繞道。這種"保守"雖然避免了瞎猜亂答，但同樣是一種失敗。

DeepSeek-V4-Flash和Llama-3.3-70B-Instruct則是樂觀主義者，只不過是盲目的樂觀。DeepSeek 當AI導航員碰上混亂地圖伊利諾伊大學厄巴納香檳分校揭示LLM智能體在海量工具迷宮中的真實困境的失敗案例中，有58.8%以一個明顯不正確的最終答案收尾——它用了某個與目標不相關的工具返回值，或者索性憑空捏造了一個答案。Llama-3.3-70B-Instruct更誇張，81.7%的失敗案例都以一個錯誤答案收尾。這些AI不會說"我不知道"，它們會把任何手邊有的數據當成答案，或者直接編一個。

Gemini-3.5-Flash則是個停不下來的探索者。它有90.8%的失敗案例以"步數耗盡還沒找到答案"告終。它的搜索/調用比率在失敗案例中高達29.1，意思是它幾乎把絕大多數時間都花在檢索工具上，卻遲遲不肯做出決定性的工具調用。它就像一個在圖書館裡不停翻目錄、卻永遠不走去找那本書的讀者。

值得注意的是，這些"性格特徵"在不同測試條件下保持高度穩定。無論是加上路障、還是改變路障類型、還是允許更多的交互輪數，每個模型的"結局偏好"基本保持不變。這說明這些行為模式是模型訓練的深層特徵，而不是隨機的表現波動。

---

**九、任務越長越難：這不只是常識，而是數據證明的事實**

研究團隊還考察了"任務的最短解題步數"與"任務成功率"之間的關係。他們把所有327道題按最短解題步數（5步、6步、7步、8步及以上）分組，分別統計各組的正確率。

贊助商廣告

結果毫無懸念：任務越長，正確率越低。對所有被測模型而言，最短需要8步以上才能完成的任務，其正確率顯著低於最短只需5步的任務，而且這一規律在路障模式下更加明顯——路障會進一步放大長路徑任務的難度，因為AI不僅需要走更多步，還需要在更多的岔路口做出正確的繞行決策。

這個發現雖然看起來"理所當然"，但它的價值在於量化了這種直覺：在當前的AI能力水平下，每增加一個環節，任務成功率都會顯著下降，而且這種下降在複雜干擾下會被大幅放大。這為未來AI系統的設計提供了一個明確的優化目標。

---

歸根結底，這項研究做的事情，就是把AI智能體放進了一個最接近真實世界的混亂測試環境，然後如實記錄了它們的表現。結果既有令人鼓舞之處——頂級模型Gemini-3.1-Pro確實展示出了不俗的規劃能力——也有大量值得警醒的問題。

核心問題不是"AI不夠聰明"，而是AI缺乏一種關鍵能力：在檢測到某條路走不通之後，能夠果斷放棄這條路，並從記憶中調取之前看到過的備用工具，重新規劃路線。大多數AI要麼認知"短視"，執著於最新檢索到的工具而忽視更早看到的正確工具；要麼對失敗信號不夠敏感，特別是在面對"沉默地返回錯誤值"的隱式失敗工具時，往往渾然不覺地把錯誤數據當作真實數據使用。

這項研究的意義，不只是測量了當前AI的局限，它同時提供了一個可以反覆使用的測試平台和分析框架。任何想要改進AI規劃能力的研究團隊，都可以用PlanBench-XL來檢驗自己的改進方案是否真的有效。而且由於這套構建框架完全基於"數據類型→工具→路徑"的通用邏輯，它可以相對輕鬆地擴展到零售以外的其他領域，比如醫療、金融、軟體工程或企業流程管理。

對於普通用戶來說，這項研究傳遞的資訊很直接：當你把一個複雜的多步任務交給AI助手去完成，並且這個任務需要AI自行判斷、自行調用各種工具、自行處理工具返回的結果時，它很可能在某個中間環節出錯，而且出錯之後很難自我糾正。這不是說不能用AI，而是說在高風險、多步驟的任務中，人類的監督和核查仍然不可或缺。

贊助商廣告

如果你對完整的實驗細節、數學公式和原始數據感興趣，可以通過arXiv編號2606.22388v1查閱原論文，研究團隊也開放了代碼和數據集供學術社區使用。

---

**Q&A**

Q1：PlanBench-XL測試平台和普通AI測試有什麼區別？

A：普通AI測試通常假設工具是完整可見的、可靠的，或者任務目標是明確的。PlanBench-XL則模擬了真實世界中的混亂：AI每次只能看到一部分工具，工具庫中混有噪音工具，還有可能遇到三種類型的"路障工具"——會報錯的、會靜默返回錯誤值的、和功能相似但實際不同的工具。這讓測試結果更接近AI在實際部署中會遇到的情況。

Q2：隱式失敗比顯式失敗危險在哪裡？

A：顯式失敗會直接返回錯誤資訊，AI至少知道這條路走不通，還有機會調整方向。但隱式失敗工具會返回一個看起來正常的值，比如應該返回退款狀態的工具卻返回了"金槍魚"，或者一個數學上不可能的極端負數。AI往往無法識別這種錯誤，會把這個假數據拿去繼續調用下一個工具，導致整條解題鏈都建立在錯誤基礎上，越走越偏，卻渾然不覺。

Q3：GPT-5.4在路障測試中為什麼表現下滑這麼厲害？

A：GPT-5.4在默認模式下正確率約52%，但在路障最嚴苛的情況下跌至11%左右。主要原因有兩個：一是它傾向於在當前路徑受阻後直接"投降"，聲稱無法確定答案，而不是繞道尋找替代路徑；二是它和其他模型一樣，面對隱式失敗工具時容易被誤導，把錯誤數據納入後續推理。當可用的替代路徑只剩最長的那條時，它的規劃能力就接近極限了。