宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

當AI「導航員」碰上混亂地圖:伊利諾伊大學厄巴納-香檳分校揭示LLM智能體在海量工具迷宮中的真實困境

2026年06月24日 首頁 » 熱門科技

這項由伊利諾伊大學厄巴納-香檳分校多位研究人員聯合完成的研究,發表於2026年6月,論文編號為arXiv:2606.22388v1,發布於電腦科學人工智慧領域。有興趣深入查閱完整研究的讀者,可通過該編號在arXiv平台檢索原文。

**研究概要:當你的AI助手面對一萬種工具,它會暈頭轉向嗎?**

假設你要在一座超大型圖書館裡找一本書,但這座圖書館沒有統一的目錄系統,書架上的書既有真正的好書,也有封面印著正確書名卻內容全錯的假書,甚至有些書架根本就找不到、或者書到手了發現頁碼全亂了。更麻煩的是,你每次只能看到一小片區域,而且你必須根據前一本書的內容決定下一步去哪個書架。這就是現代AI智能體每天面對的真實處境。

近年來,各種基於大型語言模型的AI智能體(可以理解為能夠自主思考和行動的AI系統)已經被廣泛部署在各類複雜任務中。它們需要調用外部工具來獲取資訊,就像人類需要用搜尋引擎、計算器或者資料庫來完成工作一樣。現實中,這些工具動輒成千上萬,而AI每次只能"看到"其中一小部分。更糟糕的是,這些工具並非都可靠:有些根本不能用,有些返回的結果是錯的,有些看起來很相關但實際上答非所問。

面對這種混亂,AI智能體能夠穩定地完成任務嗎?之前的學術界對這個問題的研究相當有限,大多數測試都假設工具是完整可見的、可靠的,或者任務目標是明確的,這與現實相去甚遠。正是為了填補這一空白,這支來自伊利諾伊大學厄巴納-香檳分校的研究團隊構建了一個名為PlanBench-XL的全新測試平台,專門用來測量AI智能體在"混亂工具生態"中的真實表現。

研究團隊在這個平台上測試了十款當前最先進的AI語言模型,涵蓋GPT-5.4、Gemini-3.1-Pro、DeepSeek-V4-Flash、Qwen3系列、Llama3系列等,結果既有驚喜,也有不少令人警醒的發現。

---

**一、這座測試迷宮是怎麼建造的**

PlanBench-XL的構建邏輯,可以用一個"零售業內部調查員"的故事來理解。

研究團隊選擇了零售行業作為測試場景。在零售場景中,資訊是高度關聯的:一個送貨嘗試ID可以關聯到一個快遞單號,快遞單號關聯到訂單,訂單關聯到退款申請,退款申請關聯到退款ID,最終才能找到付款賬戶資訊。這條鏈條可以綿延七八個甚至更多的環節。

為了系統性地構建這個場景,研究團隊首先定義了56種"數據類型"——可以把它們理解為零售世界裡不同種類的資訊標籤,比如"用戶名"、"訂單ID"、"退款狀態"等等。接著,團隊用AI自動生成了大量"工具"——每個工具都像一把特定的鑰匙,能夠把某一種類型的資訊轉化成另一種類型。比如,有一個工具叫"根據送貨嘗試ID獲取快遞單號",輸入送貨嘗試ID,就能輸出快遞單號。

這些工具經過嚴格的自動篩選,排除掉邏輯不通的、冗餘的、或者完全不符合現實業務邏輯的工具,最終保留了185個可執行的核心工具。除此之外,研究團隊還額外生成了925個"噪音工具"——這些工具看起來和正常工具差不多,但其描述中明確說明它們可能不可靠、數據陳舊,或者是某種"預覽版"而非正式版本。

整個工具庫一共包含1665個工具,所有工具都通過統一的"檢索接口"暴露給AI智能體——AI每次只能用自然語言查詢來獲取一批候選工具,而不是直接看到全部工具。

然後,研究團隊進一步構建了一套後端資料庫,確保每個工具調用都能返回具體的數值,而不是隨機編造的。最後,他們生成了327道測試題,每道題都對應了一個需要至少5步工具調用才能解答的任務——有些任務最短需要9步。

這就像給AI布置了一道"多級跳台階"的作業:你必須先上第一個台階,才能看到第二個台階的位置,而每一步都有可能踩空。

---

**二、AI智能體的"尋路"方式:前向探索與後向推理**

在正式測試中,AI智能體並不能一眼看穿整條解題路徑。它所能做的,是通過三種不同的檢索策略來慢慢摸索。

第一種叫"前向探索":AI已經手握一些已知資訊,比如送貨嘗試ID,那麼它就去問檢索系統"給我所有以送貨嘗試ID為輸入的工具",然後從返回的候選工具中挑一個調用,獲得新的資訊,再繼續往下走。

第二種叫"後向推理":AI知道自己最終需要的是付款賬戶資訊,那麼它就反向去問"哪些工具的輸出包含付款賬戶資訊",找到前置條件,再往前追溯,規劃出一條從目標到起點的逆向路徑。

第三種是"橋接檢索":AI同時指定輸入和輸出類型,直接查詢"有沒有工具能把資訊A轉換成資訊B",這種方式最為精準但也最需要提前知道自己在找什麼。

這三種策略共同構成了AI在工具迷宮裡的"尋路工具包"。研究團隊發現,聰明的AI會靈活組合這三種策略,而能力較弱的AI則幾乎只會傻傻地前向探索,結果經常原地打轉。

具體來說,研究者計算了每個模型"前向檢索"與"後向檢索"的比例,比例越高說明這個AI越依賴正向思維,越少做反向推理。表現較差的Llama-3.1-8B-Instruct的前向/後向比高達16.56,而Qwen3-14B也達到14.18。這意味著這些AI幾乎只會沿著當前手上有的資訊一步步往前摸,一旦遇到斷頭路就完全束手無策,因為它們很少從終點倒推、想清楚"我需要什麼才能到達終點"。對比之下,表現更好的模型在後向推理上投入了更多精力,能夠主動規劃逆向路徑。

---

**三、噪音工具和"路障"測試:當地圖故意畫錯了**

真實世界裡,工具不僅僅是"不夠多"的問題,還經常是"主動誤導"你的問題。為了模擬這種情況,研究團隊設計了一套可選的"路障機制"。

在默認模式下,AI檢索到的工具中混有那些噪音工具,每個噪音工具的描述里都明確聲明了自己的局限性——比如"此工具數據可能滯後"或"此工具僅在特定條件下有效"。這就像書架上有些書封底印著"本書內容可能不準確,請謹慎參考",細心的讀者一眼就能識別出來。

在路障模式下,情況更複雜。研究團隊會在AI的解題路徑上,把某些關鍵工具"替換掉",換成三種不同類型的障礙物。

第一種叫"顯式失敗":替換進來的工具調用後會直接返回錯誤資訊,比如"服務暫不可用"。這種情況下,AI至少知道這條路走不通了,還有機會調頭。

第二種叫"隱式失敗":替換進來的工具看起來完全正常,調用後也會返回一個值,但這個值根本是錯的——比如一個應該返回退款狀態的工具,實際上返回了"金槍魚"這樣毫無意義的答案,或者返回了一個數學上不可能出現的負數極值。這種情況最危險,因為AI往往不會意識到自己受騙了,還會把這個錯誤的值當成真實數據繼續使用。

第三種叫"語義誤導":替換進來的工具名字和描述都和原工具非常相似,但功能其實不同。比如原本需要"獲取訂單的預計送達時間",但被替換成了"獲取門店退貨的預計取件時間",看起來很像,實際上完全是兩回事。

研究者通過嚴格的數學保證,確保每個路障測試中,被封堵的路徑數量不會把題目變成無解——始終保留至少一條可行路徑,只是讓AI需要繞道。

---

**四、十款頂級AI的成績單:有人滿分,有人零蛋**

讓研究團隊頗感震驚的是,這道"五步以上工具調用"的題目,對很多現在被視為主流的AI系統來說,依然極具挑戰性。

在沒有任何路障的默認測試中,Gemini-3.1-Pro以77.06%的正確率拔得頭籌。這意味著即使是最好的模型,在近四分之一的任務上也會失敗。它同時在"執行精度"這一指標上表現最佳——也就是說,它的工具調用很少走彎路,基本上每次調用都貼近正確路徑,平均只需約20輪交互就能完成任務。

排在第二的是DeepSeek-V4-Flash,以63.08%的正確率緊隨其後。GPT-5.4和Gemini-3.5-Flash均在50%左右。大多數其他模型的正確率低於20%,而Qwen3-8B和Llama-3.1-8B-Instruct則直接以0%正確率墊底——沒有答對一道題。

這種"贏家通吃"的分布格局,在模型家族內部也同樣存在。更大的Qwen3-32B比Qwen3-8B好,更大的Llama-3.3-70B比Llama-3.1-8B好,但依然與頂級模型有巨大差距。這說明模型的規模和家族都很重要,但即便是同家族中最強的型號,也未必能在這類任務上表現出色。

研究團隊還發現了一個頗為微妙的規律:探索的廣度和任務成功率之間,存在非常強的正相關關係。他們用"平均探索數據類型數量"來衡量AI探索的廣度,發現這個指標與正確率的皮爾遜相關係數高達0.902——幾乎是完美的線性關係。換句話說,能夠在工具迷宮裡四處摸索、發現更多中間資訊的AI,最終完成任務的概率就越高。

然而,光靠多搜索還不夠。Gemini-3.5-Flash的搜索次數是所有模型里最多的,搜索與工具調用的比例高達10.44,平均每完成一道題需要近58輪交互。但它的正確率僅有52.19%,遠不如Gemini-3.1-Pro的77.06%。原因很簡單:Gemini-3.5-Flash雖然搜了很多,但搜到的東西大量重複,沒有轉化為真正有用的中間資訊。它就像一個不停在書架前踱步卻每次都翻同一本書的讀者,精力全白費了。

---

**五、路障來襲:強如GPT-5.4也從50%跌到11%**

當路障機制開啟後,所有模型的表現都出現了大幅下滑,其中的跌幅令人咋舌。

GPT-5.4在默認模式下正確率為51.90%,但隨著路障越來越多——研究團隊通過"路障比例"來控制有多大比例的可行路徑被封堵——它的正確率急劇滑落。當路障比例達到最高,只剩下一條可行路徑時,GPT-5.4的正確率跌至約30%;而當這最後一條路徑還是所有可行路徑中最長的那條時,它的正確率更是跌到了略高於10%。這意味著,當AI不得不走最繞遠的路來解決問題時,它幾乎完全失去了解決問題的能力。

三種路障類型中,隱式失敗對所有模型的傷害都是最大的。顯式失敗雖然讓AI踩了坑,但AI至少能看到報錯資訊,意識到這條路不通。而隱式失敗返回的是一個"看起來正常"的錯誤值,AI很容易把它當作真實數據用下去,結果後續的每一步都建立在一個錯誤的基礎上,像多米諾骨牌一樣連環倒塌。

從數據上看,在隱式失敗的情況下,模型的"使用不可信輸入"比率平均為11.99%,明顯高於顯式失敗的9.67%和語義誤導的9.89%。也就是說,AI更容易把隱式失敗工具的輸出誤認為真實數據,並拿去調用下一個工具。

語義誤導工具的情況相對樂觀。在混合路障測試中,各模型調用語義誤導工具的比例均不超過3%,GPT-5.4和Llama-3.3-70B-Instruct甚至完全沒有調用過語義誤導工具。這說明當前的AI已經具備了一定的"辨別工具真實功能"的能力——只要仔細讀描述,就能發現這個工具其實不是自己需要的那個。

---

**六、額外思考時間救得了場嗎?答案是:基本沒用**

一個自然的問題是:如果給AI更多時間思考和探索,它能不能從路障中恢復過來?研究團隊專門設計了一個"強制繼續探索"的實驗來回答這個問題。

具體做法是:每當AI在路障模式下給出了錯誤的最終答案,系統就自動注入一條提示,告訴它"你還沒找到正確答案,請繼續探索"。這個提示最多可以注入5次。

結果顯示,這種額外的"提示續命"幾乎沒有顯著幫助。大多數模型在獲得額外提示後,正確率只提高了不到5個百分點,而且依然與無路障時的表現有巨大差距。這說明問題不在於AI缺少"機會",而在於它根本不知道該怎麼從失敗中恢復——它缺乏的是真正的"繞路規劃能力",而不僅僅是更多的嘗試次數。

這一發現很重要:讓AI"多想想"在某些推理任務上確實有效,但在面對工具生態中的複雜故障時,單純增加思考時間和交互次數並不能解決根本問題。AI需要的是一種更深層的"自我診斷"能力——能夠判斷"我現在走的這條路已經徹底斷了,我需要完全換一個方向"。

---

**七、失敗是怎麼發生的:從"走錯一步"到"無法回頭"**

研究團隊不滿足於只知道AI失敗了,他們還深入分析了AI是在哪一步、以什麼方式失敗的。

他們把每一個工具調用分成兩類:一類叫"進展性調用",意思是這次調用產生了至少一條朝向正確答案方向的新資訊;另一類叫"非進展性調用",意思是這次調用沒有推動任何進展。

基於這個分類,研究團隊把所有失敗的軌跡歸納為四種模式。

第一種叫"毫無起色":AI從頭到尾就沒有做出過一次進展性調用,全程原地打轉,從來沒踏上過通向正確答案的路。

第二種叫"不可挽回的漂移":AI確實走對過幾步,但隨後做出了一次非進展性調用,從此再也沒回到正確軌道。這是最常見的失敗模式。在默認測試中,GPT-5.4有72.4%的失敗案例屬於這一類,Gemini-3.5-Flash有71.3%。這意味著大多數AI並不是一開始就走錯了,而是在走對了一段之後突然"迷路",然後就再也找不到回來的路了。

第三種叫"微弱的恢復":AI漂移了,但又找回了一小段正確軌跡,只是還是沒能堅持到終點。這種情況極為罕見,在所有模型的失敗案例中,這一類只占約3%。這個數字揭示了一個殘酷的事實:一旦漂移發生,幾乎是不可逆的。

第四種叫"格式錯誤":AI的失敗不是因為方向錯了,而是因為調用工具的方式不符合系統要求,比如傳入了錯誤類型的參數,或者在自己還沒獲得必要輸入值之前就想調用某個工具。這類錯誤本質上是技術性的、可修復的,但同樣會導致任務失敗。

研究者進一步追問:AI漂移的時候,是因為根本沒有正確工具可用,還是有正確工具但沒選對?答案令人大跌眼鏡。在失敗案例中,有78%的情況是:在AI做出那個錯誤的非進展性調用之前,它其實已經在之前的某次檢索中看到過一個能推進進展的正確工具,只是沒有選擇它。也就是說,大多數漂移不是"手頭沒有好牌",而是"明明有好牌卻打錯了"。

更有意思的是,這些錯誤調用還有明顯的"就近偏好":大約74%的錯誤調用使用的是AI最近一兩輪剛檢索到的工具,即便那些工具並不是最有用的。而那些早幾輪就檢索到卻更有價值的工具,往往被遺忘在記憶的角落裡。這說明AI對"新鮮資訊"有天然的偏好,但這種偏好在複雜的多步任務中反而成了障礙。

---

**八、失敗後的各自結局:有人放棄,有人亂猜,有人停不下來**

失敗的路徑可以有很多種,但失敗的結局也各有特色。研究團隊發現,不同模型在"確認失敗後怎麼收場"這件事上,表現出了截然不同的"性格"。

GPT-5.4是個悲觀主義者。它的失敗案例中,有77.3%以一句"我無法確定這個問題的答案"收尾,在路障模式下這一比例甚至攀升至80.6%。明明題目保證了每道題都有解,明明系統明確告知"一定存在可行路徑",GPT-5.4依然選擇放棄。這不是因為真的無解,而是因為它一旦發現眼前的路不通,就傾向於停止嘗試,而不是繞道。這種"保守"雖然避免了瞎猜亂答,但同樣是一種失敗。

DeepSeek-V4-Flash和Llama-3.3-70B-Instruct則是樂觀主義者,只不過是盲目的樂觀。DeepSeek當AI導航員碰上混亂地圖伊利諾伊大學厄巴納香檳分校揭示LLM智能體在海量工具迷宮中的真實困境的失敗案例中,有58.8%以一個明顯不正確的最終答案收尾——它用了某個與目標不相關的工具返回值,或者索性憑空捏造了一個答案。Llama-3.3-70B-Instruct更誇張,81.7%的失敗案例都以一個錯誤答案收尾。這些AI不會說"我不知道",它們會把任何手邊有的數據當成答案,或者直接編一個。

Gemini-3.5-Flash則是個停不下來的探索者。它有90.8%的失敗案例以"步數耗盡還沒找到答案"告終。它的搜索/調用比率在失敗案例中高達29.1,意思是它幾乎把絕大多數時間都花在檢索工具上,卻遲遲不肯做出決定性的工具調用。它就像一個在圖書館裡不停翻目錄、卻永遠不走去找那本書的讀者。

值得注意的是,這些"性格特徵"在不同測試條件下保持高度穩定。無論是加上路障、還是改變路障類型、還是允許更多的交互輪數,每個模型的"結局偏好"基本保持不變。這說明這些行為模式是模型訓練的深層特徵,而不是隨機的表現波動。

---

**九、任務越長越難:這不只是常識,而是數據證明的事實**

研究團隊還考察了"任務的最短解題步數"與"任務成功率"之間的關係。他們把所有327道題按最短解題步數(5步、6步、7步、8步及以上)分組,分別統計各組的正確率。

結果毫無懸念:任務越長,正確率越低。對所有被測模型而言,最短需要8步以上才能完成的任務,其正確率顯著低於最短只需5步的任務,而且這一規律在路障模式下更加明顯——路障會進一步放大長路徑任務的難度,因為AI不僅需要走更多步,還需要在更多的岔路口做出正確的繞行決策。

這個發現雖然看起來"理所當然",但它的價值在於量化了這種直覺:在當前的AI能力水平下,每增加一個環節,任務成功率都會顯著下降,而且這種下降在複雜干擾下會被大幅放大。這為未來AI系統的設計提供了一個明確的優化目標。

---

歸根結底,這項研究做的事情,就是把AI智能體放進了一個最接近真實世界的混亂測試環境,然後如實記錄了它們的表現。結果既有令人鼓舞之處——頂級模型Gemini-3.1-Pro確實展示出了不俗的規劃能力——也有大量值得警醒的問題。

核心問題不是"AI不夠聰明",而是AI缺乏一種關鍵能力:在檢測到某條路走不通之後,能夠果斷放棄這條路,並從記憶中調取之前看到過的備用工具,重新規劃路線。大多數AI要麼認知"短視",執著於最新檢索到的工具而忽視更早看到的正確工具;要麼對失敗信號不夠敏感,特別是在面對"沉默地返回錯誤值"的隱式失敗工具時,往往渾然不覺地把錯誤數據當作真實數據使用。

這項研究的意義,不只是測量了當前AI的局限,它同時提供了一個可以反覆使用的測試平台和分析框架。任何想要改進AI規劃能力的研究團隊,都可以用PlanBench-XL來檢驗自己的改進方案是否真的有效。而且由於這套構建框架完全基於"數據類型→工具→路徑"的通用邏輯,它可以相對輕鬆地擴展到零售以外的其他領域,比如醫療、金融、軟體工程或企業流程管理。

對於普通用戶來說,這項研究傳遞的資訊很直接:當你把一個複雜的多步任務交給AI助手去完成,並且這個任務需要AI自行判斷、自行調用各種工具、自行處理工具返回的結果時,它很可能在某個中間環節出錯,而且出錯之後很難自我糾正。這不是說不能用AI,而是說在高風險、多步驟的任務中,人類的監督和核查仍然不可或缺。

如果你對完整的實驗細節、數學公式和原始數據感興趣,可以通過arXiv編號2606.22388v1查閱原論文,研究團隊也開放了代碼和數據集供學術社區使用。

---

**Q&A**

Q1:PlanBench-XL測試平台和普通AI測試有什麼區別?

A:普通AI測試通常假設工具是完整可見的、可靠的,或者任務目標是明確的。PlanBench-XL則模擬了真實世界中的混亂:AI每次只能看到一部分工具,工具庫中混有噪音工具,還有可能遇到三種類型的"路障工具"——會報錯的、會靜默返回錯誤值的、和功能相似但實際不同的工具。這讓測試結果更接近AI在實際部署中會遇到的情況。

Q2:隱式失敗比顯式失敗危險在哪裡?

A:顯式失敗會直接返回錯誤資訊,AI至少知道這條路走不通,還有機會調整方向。但隱式失敗工具會返回一個看起來正常的值,比如應該返回退款狀態的工具卻返回了"金槍魚",或者一個數學上不可能的極端負數。AI往往無法識別這種錯誤,會把這個假數據拿去繼續調用下一個工具,導致整條解題鏈都建立在錯誤基礎上,越走越偏,卻渾然不覺。

Q3:GPT-5.4在路障測試中為什麼表現下滑這麼厲害?

A:GPT-5.4在默認模式下正確率約52%,但在路障最嚴苛的情況下跌至11%左右。主要原因有兩個:一是它傾向於在當前路徑受阻後直接"投降",聲稱無法確定答案,而不是繞道尋找替代路徑;二是它和其他模型一樣,面對隱式失敗工具時容易被誤導,把錯誤數據納入後續推理。當可用的替代路徑只剩最長的那條時,它的規劃能力就接近極限了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新