當AI助手遇上「家裡沒有趁手工具」：伊利諾伊大學厄巴納-香檳分校揭示大模型的規劃軟肋

這項由美國伊利諾伊大學厄巴納-香檳分校（University of Illinois Urbana-Champaign）主導完成的研究，以預印本形式於2026年6月4日發布於arXiv平台，論文編號為arXiv:2606.05622v1，研究方向歸屬於電腦科學中的自然語言處理領域。有興趣深入了解的讀者可通過該編號在arXiv網站上檢索完整論文。

贊助商廣告

設想一個日常場景：你家裡的排水管堵了，你決定向一款智能AI助手求助，讓它幫你制定一個修理計劃。助手很快給出了一套詳盡的步驟，用到了通水管疏通器和橡皮碗。可你告訴它，家裡沒有疏通器。助手隨即調整，改用熱水沖洗。你再告訴它，你對高溫有顧慮，擔心燙傷。助手又改方案……就這樣折騰了好幾輪，助手要麼重複了你之前說過不可以用的工具，要麼給出一個在物理上根本行不通的辦法。這種體驗，相信不少人都似曾相識。

這正是這項研究所瞄準的核心問題。研究團隊將它提煉成一個清晰的問句：面對同時來自"世界"和"用戶"兩個方向、而且隨著對話逐步浮現的限制條件，當今最先進的大型語言模型（簡稱LLM，即我們常說的AI大模型）究竟能不能做出真正有效的計劃？為了回答這個問題，他們構建了一個名為**AdaPlanBench**的交互式動態測試平台，並對十款主流大模型展開了系統性評測。結果令人警醒：即使是目前公認最強的模型，準確率也僅有67.75%，而大多數開源模型的表現則徘徊在30%以下。

一、為什麼"邊做邊改計劃"這件事這麼難？

要理解這項研究的意義，先得弄清楚一件事：AI在規劃任務中究竟面臨什麼樣的挑戰？

我們日常解決問題的過程，幾乎從來都不是"一步到位"的。修水管、整理房間、做一頓菜——任何一件稍微複雜的家務，都需要在執行過程中不斷應對新情況。你打開櫥櫃發現鹽沒了，你得臨時換食譜；你想用扳手擰螺絲卻發現找不到，你得另想辦法。人類處理這種"邊走邊遇坑"的能力，幾乎是渾然天成的。

贊助商廣告

但對AI來說，這件事並不簡單。研究團隊將規划過程中的約束條件分成兩大類，並稱之為"雙重約束"。一類是來自外部世界的約束，比如家裡沒有某件工具、某個設備壞掉了、某種材料不可用——這類約束是客觀的、硬性的；另一類是來自用戶自身的約束，比如不喜歡用高溫的東西、怕噪音、討厭弄髒雙手——這類約束是主觀的、偏好性的，往往更模糊也更難捉摸。

更關鍵的是，在真實生活中，這兩類約束通常不會在對話一開始就全部告知AI。它們是隨著交互一點一點浮現出來的。AI提出一個方案，用戶說"這個不行"，AI修改，用戶又說"這個也不行"……每一輪反饋都像是翻開了一張新的牌，AI必須在記住所有已知牌面的同時，持續調整自己的策略。這種"漸進式披露約束"的場景，才是真實世界中AI助手會面對的日常。

然而，現有的AI評測平台大多只測試"一次性規劃"——給AI一個完整的條件清單，讓它給出方案，看看答案對不對。這就好比只測試廚師能不能照著完整菜譜做菜，而從不測試他在食材臨時缺貨時能不能隨機應變。這正是這項研究想要填補的空白。

二、AdaPlanBench是怎麼搭建的？——給AI設計一個真實的"家務困境"

為了在可控環境下模擬這種複雜的現實情況，研究團隊以家務類任務為核心場景，搭建了AdaPlanBench這個測試平台。家務場景之所以被選中，是因為它天然地同時存在世界約束（工具是否可用）和用戶約束（個人偏好），既貼近生活，又便於評估。

數據基礎來源於一個已有的數據集MacGyver，這個數據集本身收錄了大量需要創意解法的家務任務。研究團隊從中篩選出307個實例，並對原始問題進行了改寫——剔除那些明確要求使用特定工具的描述，把問題改成開放式的，例如把"用吹風機把球晾乾"改成"你的排球淋濕了，怎麼讓它干？"。這樣做是為了保留足夠大的"解法空間"，讓AI有機會探索多種可能的方案。

贊助商廣告

接著，研究團隊用一套自動化的多模型協作流程，為每道題目生成一套"雙重約束檔案"。這個過程可以理解成一場精心設計的"圍堵遊戲"：系統先讓多個不同的AI扮演規劃者，各自給出可能的解法；然後把這些解法里用到的工具逐一轉化成世界約束（比如"家裡沒有吹風機"）或用戶約束（比如"不喜歡用會產生高熱的工具"）；再把這些約束匯總、去重、驗證，確保它們既不自相矛盾，也不會讓任務變得完全無解。這個過程重複進行三輪，每一輪都在前一輪的基礎上引入更多約束，最終形成三個難度等級：低約束版（Elow）、中約束版（Emid）和高約束版（Ehigh）。以中等難度為例，每道題目平均對應約20個世界約束和約22個用戶約束，難度之高，頗為可觀。

在評測運行階段，這些約束都是被隱藏起來的。AI助手只知道任務目標，不知道哪些工具不可用、哪些偏好需要遵守。每當AI提出一個方案，系統就會檢查這個方案是否違反了任何約束，如果違反了，就模擬成"用戶的反饋"，告知AI具體違反了什麼，然後要求AI重新規劃。就這樣，約束像剝洋蔥一樣一層一層地在對話中浮現，AI必須在每次反饋後做出有效的調整。

整個交互過程中，世界約束的優先級高於用戶約束——只要一個方案同時違反了兩類約束，系統優先告知AI關於世界約束的違反，因為這類約束通常是硬性的、客觀的，更直接影響方案的可行性。當且僅當世界約束完全滿足時，才會揭露用戶偏好層面的違規。

為了防止AI陷入無效的死循環，系統還設置了"早停機制"：如果連續兩輪AI的方案都沒有觸發任何新的約束（說明它要麼沒有真正修改方案，要麼修改方向完全走偏），交互就提前終止，並記錄為失敗。最長交互輪數上限設為20輪，但實際上幾乎所有模型在這個上限之前就已經收斂——平均只需要四到六輪。

三、用什麼標準評判AI的表現？——不只看"有沒有答案"，更看"答案好不好"

贊助商廣告

準確率固然是最直觀的指標，但研究團隊為了更細緻地理解AI失敗的原因，設計了一套多維度的評估體系。

最核心的指標是準確率，即最終方案既滿足所有約束、又通過質量評審的比例。質量評審由三個不同的AI擔任"裁判"，從八個維度評分，包括工具可行性（方案用到的工具是否真的在家裡能找到）、物理合理性（方案描述的操作在現實中是否真的能產生預期效果）、有效性（整個方案執行下來能不能真正解決問題）和安全性（方案是否會造成人身傷害）等，每項滿分5分，低於4分即為不合格。

除了準確率，研究團隊還追蹤了幾個很有診斷價值的指標。"有效方案率"衡量的是AI最終能不能至少給出一個滿足約束的方案，哪怕質量不夠高；"重複違規次數"追蹤的是AI在已經被告知某個約束之後、又再次違反同一約束的次數，這個指標直接反映AI記住並遵守已披露資訊的能力；"平均觸發約束數"則衡量AI在每輪交互中觸發了多少新約束，這在一定程度上反映AI探索不同解法的活躍程度。

四、十款主流大模型的真實成績單——差距比想像中大

研究團隊選取了十款代表性模型進行測試，涵蓋GPT-5系列、Gemini系列、DeepSeek-v4-Flash，以及開源陣營的Qwen3系列和Llama-3.3。所有測試均在中等難度（Emid）的場景下進行，以下是一些關鍵發現。

表現最好的是GPT-5，準確率67.75%；排名第二的是GPT-5-Mini，準確率61.89%。兩款模型的差距並不大，這本身就是一個耐人尋味的結果。Gemini-3-Flash以43.32%排在第三位，Gemini-3.1-Pro反而只有34.53%，落後於自家的"輕量版"。DeepSeek-v4-Flash達到35.53%。而開源陣營的三款Qwen3模型（8B、14B、32B參數量）全部集中在14%到18%之間，儘管參數量相差懸殊，表現卻幾乎沒有區別。Llama-3.3-70B稍好一些，達到29.32%。

這裡有一個很值得注意的現象：幾乎所有模型的"有效方案率"都遠高於準確率。比如Gemini-3.1-Pro的有效方案率高達91.21%，但準確率只有34.53%；Gemini-3-Flash有效方案率90.23%，準確率43.32%。這說明這些模型並不是完全找不到滿足約束的方案，而是找到了方案之後，質量層面出了問題——要麼在物理上站不住腳，要麼在有效性上差強人意。換句話說，"沒有違規"和"真正好用"之間，還橫亘著一道不小的鴻溝。

贊助商廣告

另一個引人深思的發現是，模型規模的大小並不能可靠地預測規劃能力的強弱。參數量從8B到32B的Qwen3系列幾乎沒有差異，體量差異懸殊的GPT-5和GPT-5-Mini表現相近，而Gemini的"Pro"版甚至輸給了"Flash"版。這意味著，在這種需要靈活應對、持續調整的規劃任務中，模型的"通用能力越強越好"這一直覺並不成立。

五、約束越堆越多，AI越來越撐不住——性能隨輪次衰減的真實寫照

研究中一個特別關鍵的發現，是AI的規劃質量會隨著對話輪次的推進而持續下滑。

研究團隊對交互軌跡做了逐輪分析，追蹤了四個主要質量維度（工具可行性、物理合理性、有效性、安全性）在每一輪的得分變化。結果顯示，隨著被揭露的約束不斷累積，各維度得分普遍出現下降趨勢，其中有效性和物理合理性的下滑尤為明顯。更強的模型（如GPT-5-Mini和Gemini-3-Flash）在各維度上更為穩定，但整體衰減的方向是一致的。

這種現象的背後，有一個很直觀的解釋。隨著約束越來越多，AI需要同時滿足的條件越來越苛刻，可行的解法空間越來越小。在這種情況下，AI往往會被迫採用一些"非常規"的方案——而這些非常規方案，往往在物理上不那麼靠譜，或者在解決問題的效果上打了折扣。換句話說，當選擇餘地變小，方案質量自然也就難以維持。

將三個難度等級（Elow、Emid、Ehigh）並列比較時，這一趨勢更加明顯：從低約束到高約束，所有模型的準確率和有效方案率都出現了清晰的下滑。約束越多，AI越容易"力不從心"。

六、兩個"救援方案"效果如何？——顯式記憶和質量反饋的作用有限

面對AI在約束管理上的困境，研究團隊嘗試了兩種直覺上應該有效的干預措施，來診斷問題的根源究竟在哪裡。

第一種干預是"顯式約束追蹤"：在每一輪交互中，把之前已經披露的所有約束作為一個完整的備忘錄，直接附在AI的輸入資訊里。這相當於給AI配了一個"外掛記事本"，讓它不需要依賴自己的"記憶"，而是可以直接查閱所有已知限制。

贊助商廣告

結果顯示，這個干預確實讓有效方案率有所提升，大約提高了5%到15%——說明AI確實存在"忘記已知約束"的問題，顯式提醒有助於減少重複違規。然而，準確率的提升卻微乎其微，三款被測模型中有三款的準確率提升均不超過3%。這意味著，AI面臨的困難並不主要是"記不住"，而是"即使記住了，也不知道怎麼找到一個真正好的解法"。

第二種干預是"質量反饋循環"：當AI的方案滿足了所有約束，但在質量維度（物理合理性、有效性等）上仍有不足時，讓系統告知AI具體哪些維度沒有達標，並允許它進行最多六輪的修改。

這個干預的效果更加矛盾。準確率確實有所提升，大約提高了10%左右——這說明質量反饋能幫助AI修正一些局部錯誤。但與此同時，有效方案率卻出現了急劇下滑，兩款開源模型的有效方案率下降了約40%，兩款專有模型也下降了約20%。出現這種現象的原因，研究團隊認為是AI存在一種"近因偏差"：當AI收到質量層面的新反饋時，它傾向於集中精力應對新暴露的問題，卻在無意中忽視了此前已經滿足的約束，導致老問題復發。換句話說，AI很難在修補局部缺陷的同時保持整體方案的一致性。

七、用戶約束比世界約束更難對付——為什麼"偏好"比"沒有工具"更棘手？

為了進一步弄清楚是哪一類約束更讓AI頭疼，研究團隊設計了一組對照實驗：分別在"僅有世界約束"、"僅有用戶約束"和"兩類約束同時存在"三種條件下評測AI表現。

結果出乎不少人的意料：在單一約束類型的情況下，用戶約束造成的難度明顯高於世界約束。也就是說，"家裡沒有吹風機"這類客觀限制，對AI的困擾反而比"我不喜歡用會產生高熱的東西"這類主觀偏好要小。當兩類約束同時存在時，難度進一步疊加，成為最難應對的場景。

研究團隊對此給出了一個合理的解釋：一個用戶偏好，往往會排除掉一大類工具或操作方式，而不僅僅是某一件具體的東西。"不喜歡高熱"意味著吹風機、熱風槍、烤箱、蒸汽熨斗等一系列工具全都不能用；"怕打碎玻璃容器"意味著所有需要用力擰、敲或撬的方法都不適用。相比之下，"家裡沒有吹風機"只是排除了一件工具，AI還可以轉向其他很多選項。正因如此，用戶約束對可行解法空間的壓縮效果，往往遠比表面上看起來要大。

贊助商廣告

此外，用戶約束的邊界也更模糊。"家裡沒有錘子"是一個清晰的是非判斷，但"不喜歡用會產生噪音的方法"就需要AI對工具和操作的屬性有更深入的理解——什麼算"噪音大"？臨界點在哪裡？這種模糊性，給判斷和調整都帶來了額外的難度。

八、AI最常在哪裡出錯？——效果不達標和物理常識缺失

在質量評估的四個主要維度中，AI表現最差的兩項是"有效性"和"物理合理性"。

"有效性"方面的問題，在研究給出的案例中有一個極為典型的例子：一款模型在被要求修復一盞檯燈的損壞電線時，給出了一個詳盡的"保護方案"——把電線束好、蓋上塑膠袋、貼上警告標籤、放入盒子收納。整個過程安全有序，條理清晰。但問題在於，檯燈的電線從頭到尾都沒有被修好。用戶要的是"修好"，而AI給的是"妥善擱置"——這是一種在形式上無懈可擊、在目標上卻南轅北轍的失敗。研究團隊將這種現象稱為"效果漂移"：當約束越來越多，AI在努力避免違規的過程中，悄悄地改變了對任務目標的理解，把"解決問題"偷換成了"避免任何可能違規的操作"。

"物理合理性"方面的問題則更加有趣。Gemini-3.1-Pro在處理馬桶堵塞問題時，給出了一個頗為創意的方案：往馬桶里倒入大量冰塊，然後按沖水鍵，利用冰塊的重量把堵塞物沖走。這個方案乍聽起來似乎有點道理，但實際上完全違背了物理規律——冰塊會漂浮在水面上，不會沉入U形管道；一次正常沖水的水量和壓力，根本不足以將冰塊轉化為一個"衝擊錘"來疏通堵塞。同一款模型，在被要求熨燙一件有皺紋的襯衫時，提出了"把襯衫鋪在地板上，然後把床墊壓在上面放置一個小時"的方案。這個方案同樣邏輯看起來順暢（重壓可以消除皺紋），但忽略了一個關鍵事實：消除布料皺紋需要熱量和濕氣的配合，單純的物理壓力在沒有熱源的情況下，對純棉或化纖類面料幾乎沒有實質效果。

贊助商廣告

GPT-5的物理合理性問題則出現在橙汁製作任務上：在一系列約束的壓迫下，它提出了"把橙子切成幾段，放進冰箱冷凍四小時，然後取出放在筷子上，讓汁液自然滴入杯中"的方案。冷凍的確會破壞細胞壁釋放汁液，但筷子上架著的橙段在室溫下解凍，絕大部分汁液會浸入果肉而非滴入杯中——這個方案在物理上是嚴重低效的，實際上幾乎榨不出什麼橙汁。

這兩類錯誤共同揭示了一個深層問題：當約束越堆越多，AI似乎會進入一種"只求合規、不顧合理"的模式——它把精力集中在如何繞開每一個約束，而不是從物理常識和任務本質出發去設計一個真正可行的方案。

九、什麼樣的模型表現更好？——主動探索是關鍵

研究中還有一個頗為有趣的正向發現：表現最好的模型，往往也是在交互過程中"觸發最多約束"的模型。GPT-5和GPT-5-Mini不僅準確率最高，每輪交互中觸發的世界約束數（ATWC）和用戶約束數（ATUC）也是所有模型中最高的。統計上，準確率與ATWC的相關係數高達0.898，與ATUC的相關係數為0.919——這是非常強的正相關。

觸發更多約束，意味著AI在每次修改方案時，並不是只做最小限度的調整，而是大幅度地探索不同的方案路徑，從而"撞上"了更多此前未曾揭露的約束。從某種角度看，這是一種更積極的探索策略：與其每次只改動一兩個細節，不如徹底換一條思路，在更廣泛的解法空間裡尋找真正可行的出路。

相比之下，那些觸發約束較少的模型，往往是在已有方案的基礎上做小修小補，每次只改動一個被點名的違規項，導致整體策略沒有實質性進化，最終陷入局部最優的困境。這一發現在某種程度上說明，在這種需要持續應變的規劃任務中，"大膽換方案"比"小心修方案"更有效——這與人類在解決實際問題時的直覺頗為吻合。

說到底，AdaPlanBench這項研究用一套精心設計的"家務困境"揭示了當前AI規劃能力的真實底線。當約束只有一兩個、而且一次性告知時，今天的AI表現得相當不錯。但當約束來自兩個方向、而且一點一點地在對話中浮現時，AI的表現就會大打折扣——最好的模型只能做到三分之二正確，大多數模型在三成以下。更令人深思的是，"告訴AI記住已知約束"和"給AI更多質量反饋"這兩種直覺上的補救措施，效果都相當有限，說明問題根植於更深層的能力缺陷，而不僅僅是"健忘"或者"粗心"。

贊助商廣告

對於普通用戶來說，這意味著當你向AI助手尋求複雜任務的幫助時，尤其是在涉及多個個人偏好和現實限制的情況下，最好的策略是從一開始就儘可能把所有約束告知AI，而不是指望它能在反覆的來回中自行整合。而對於AI開發者來說，這項研究清晰地指出了下一代模型需要重點突破的方向：如何在長對話中穩定地追蹤和遵守不斷累積的約束，如何在解法空間被大幅壓縮時仍然給出物理上合理、目標上有效的方案，如何避免在應對新問題時丟失對舊約束的遵守。

這些問題，AI還沒有找到令人滿意的答案。但研究團隊搭建AdaPlanBench的意義正在於此——提供一把精確的尺子，讓我們能清楚地看見差距在哪裡。感興趣的讀者可以通過arXiv編號2606.05622檢索到完整的論文，親自了解這項測試的完整細節與數據。

Q&A

Q1：AdaPlanBench測試平台和普通AI規劃測試有什麼本質區別？

A：普通的AI規劃測試通常會在一開始就把所有限制條件告訴AI，讓它一次性給出答案。AdaPlanBench則模擬了更接近真實生活的場景：限制條件被隱藏起來，只有當AI提出的方案違反了某個限制時，系統才會"告知"AI這個限制存在。這樣一來，AI必須在每輪對話後調整方案，同時記住所有已知限制，這對AI的記憶能力和靈活應變能力提出了更高的要求。

Q2：用戶約束為什麼比世界約束更讓大模型頭疼？

A：世界約束通常是"有沒有某件工具"這樣清晰的是非判斷，排除的只是特定工具。用戶約束則往往是偏好性的，例如"不喜歡高溫"或"怕噪音"，這類約束會一下子排除掉一大類工具和操作方式，對可行方案空間的壓縮效果更大。加上用戶約束的邊界更模糊，AI需要理解工具的隱含屬性，判斷難度自然也更高。

Q3：AdaPlanBench的測試結果對普通用戶使用AI助手有什麼實際參考價值？

A：研究表明，AI在面對逐步浮現的多重約束時表現明顯下滑，因此在向AI助手求助複雜任務時，最好在一開始就把所有已知的限制條件（比如家裡沒有哪些工具、有哪些個人偏好和禁忌）一併說清楚，而不是等AI給出方案後再逐一糾正。提前告知完整約束，能幫助AI更快給出質量更高的方案，避免多輪無效來回。

贊助商廣告