宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

當AI助手遇上「家裡沒有趁手工具」:伊利諾伊大學厄巴納-香檳分校揭示大模型的規劃軟肋

2026年06月11日 首頁 » 熱門科技

這項由美國伊利諾伊大學厄巴納-香檳分校(University of Illinois Urbana-Champaign)主導完成的研究,以預印本形式於2026年6月4日發布於arXiv平台,論文編號為arXiv:2606.05622v1,研究方向歸屬於電腦科學中的自然語言處理領域。有興趣深入了解的讀者可通過該編號在arXiv網站上檢索完整論文。

設想一個日常場景:你家裡的排水管堵了,你決定向一款智能AI助手求助,讓它幫你制定一個修理計劃。助手很快給出了一套詳盡的步驟,用到了通水管疏通器和橡皮碗。可你告訴它,家裡沒有疏通器。助手隨即調整,改用熱水沖洗。你再告訴它,你對高溫有顧慮,擔心燙傷。助手又改方案……就這樣折騰了好幾輪,助手要麼重複了你之前說過不可以用的工具,要麼給出一個在物理上根本行不通的辦法。這種體驗,相信不少人都似曾相識。

這正是這項研究所瞄準的核心問題。研究團隊將它提煉成一個清晰的問句:面對同時來自"世界"和"用戶"兩個方向、而且隨著對話逐步浮現的限制條件,當今最先進的大型語言模型(簡稱LLM,即我們常說的AI大模型)究竟能不能做出真正有效的計劃?為了回答這個問題,他們構建了一個名為**AdaPlanBench**的交互式動態測試平台,並對十款主流大模型展開了系統性評測。結果令人警醒:即使是目前公認最強的模型,準確率也僅有67.75%,而大多數開源模型的表現則徘徊在30%以下。

一、為什麼"邊做邊改計劃"這件事這麼難?

要理解這項研究的意義,先得弄清楚一件事:AI在規劃任務中究竟面臨什麼樣的挑戰?

我們日常解決問題的過程,幾乎從來都不是"一步到位"的。修水管、整理房間、做一頓菜——任何一件稍微複雜的家務,都需要在執行過程中不斷應對新情況。你打開櫥櫃發現鹽沒了,你得臨時換食譜;你想用扳手擰螺絲卻發現找不到,你得另想辦法。人類處理這種"邊走邊遇坑"的能力,幾乎是渾然天成的。

但對AI來說,這件事並不簡單。研究團隊將規划過程中的約束條件分成兩大類,並稱之為"雙重約束"。一類是來自外部世界的約束,比如家裡沒有某件工具、某個設備壞掉了、某種材料不可用——這類約束是客觀的、硬性的;另一類是來自用戶自身的約束,比如不喜歡用高溫的東西、怕噪音、討厭弄髒雙手——這類約束是主觀的、偏好性的,往往更模糊也更難捉摸。

更關鍵的是,在真實生活中,這兩類約束通常不會在對話一開始就全部告知AI。它們是隨著交互一點一點浮現出來的。AI提出一個方案,用戶說"這個不行",AI修改,用戶又說"這個也不行"……每一輪反饋都像是翻開了一張新的牌,AI必須在記住所有已知牌面的同時,持續調整自己的策略。這種"漸進式披露約束"的場景,才是真實世界中AI助手會面對的日常。

然而,現有的AI評測平台大多只測試"一次性規劃"——給AI一個完整的條件清單,讓它給出方案,看看答案對不對。這就好比只測試廚師能不能照著完整菜譜做菜,而從不測試他在食材臨時缺貨時能不能隨機應變。這正是這項研究想要填補的空白。

二、AdaPlanBench是怎麼搭建的?——給AI設計一個真實的"家務困境"

為了在可控環境下模擬這種複雜的現實情況,研究團隊以家務類任務為核心場景,搭建了AdaPlanBench這個測試平台。家務場景之所以被選中,是因為它天然地同時存在世界約束(工具是否可用)和用戶約束(個人偏好),既貼近生活,又便於評估。

數據基礎來源於一個已有的數據集MacGyver,這個數據集本身收錄了大量需要創意解法的家務任務。研究團隊從中篩選出307個實例,並對原始問題進行了改寫——剔除那些明確要求使用特定工具的描述,把問題改成開放式的,例如把"用吹風機把球晾乾"改成"你的排球淋濕了,怎麼讓它干?"。這樣做是為了保留足夠大的"解法空間",讓AI有機會探索多種可能的方案。

接著,研究團隊用一套自動化的多模型協作流程,為每道題目生成一套"雙重約束檔案"。這個過程可以理解成一場精心設計的"圍堵遊戲":系統先讓多個不同的AI扮演規劃者,各自給出可能的解法;然後把這些解法里用到的工具逐一轉化成世界約束(比如"家裡沒有吹風機")或用戶約束(比如"不喜歡用會產生高熱的工具");再把這些約束匯總、去重、驗證,確保它們既不自相矛盾,也不會讓任務變得完全無解。這個過程重複進行三輪,每一輪都在前一輪的基礎上引入更多約束,最終形成三個難度等級:低約束版(Elow)、中約束版(Emid)和高約束版(Ehigh)。以中等難度為例,每道題目平均對應約20個世界約束和約22個用戶約束,難度之高,頗為可觀。

在評測運行階段,這些約束都是被隱藏起來的。AI助手只知道任務目標,不知道哪些工具不可用、哪些偏好需要遵守。每當AI提出一個方案,系統就會檢查這個方案是否違反了任何約束,如果違反了,就模擬成"用戶的反饋",告知AI具體違反了什麼,然後要求AI重新規劃。就這樣,約束像剝洋蔥一樣一層一層地在對話中浮現,AI必須在每次反饋後做出有效的調整。

整個交互過程中,世界約束的優先級高於用戶約束——只要一個方案同時違反了兩類約束,系統優先告知AI關於世界約束的違反,因為這類約束通常是硬性的、客觀的,更直接影響方案的可行性。當且僅當世界約束完全滿足時,才會揭露用戶偏好層面的違規。

為了防止AI陷入無效的死循環,系統還設置了"早停機制":如果連續兩輪AI的方案都沒有觸發任何新的約束(說明它要麼沒有真正修改方案,要麼修改方向完全走偏),交互就提前終止,並記錄為失敗。最長交互輪數上限設為20輪,但實際上幾乎所有模型在這個上限之前就已經收斂——平均只需要四到六輪。

三、用什麼標準評判AI的表現?——不只看"有沒有答案",更看"答案好不好"

準確率固然是最直觀的指標,但研究團隊為了更細緻地理解AI失敗的原因,設計了一套多維度的評估體系。

最核心的指標是準確率,即最終方案既滿足所有約束、又通過質量評審的比例。質量評審由三個不同的AI擔任"裁判",從八個維度評分,包括工具可行性(方案用到的工具是否真的在家裡能找到)、物理合理性(方案描述的操作在現實中是否真的能產生預期效果)、有效性(整個方案執行下來能不能真正解決問題)和安全性(方案是否會造成人身傷害)等,每項滿分5分,低於4分即為不合格。

除了準確率,研究團隊還追蹤了幾個很有診斷價值的指標。"有效方案率"衡量的是AI最終能不能至少給出一個滿足約束的方案,哪怕質量不夠高;"重複違規次數"追蹤的是AI在已經被告知某個約束之後、又再次違反同一約束的次數,這個指標直接反映AI記住並遵守已披露資訊的能力;"平均觸發約束數"則衡量AI在每輪交互中觸發了多少新約束,這在一定程度上反映AI探索不同解法的活躍程度。

四、十款主流大模型的真實成績單——差距比想像中大

研究團隊選取了十款代表性模型進行測試,涵蓋GPT-5系列、Gemini系列、DeepSeek-v4-Flash,以及開源陣營的Qwen3系列和Llama-3.3。所有測試均在中等難度(Emid)的場景下進行,以下是一些關鍵發現。

表現最好的是GPT-5,準確率67.75%;排名第二的是GPT-5-Mini,準確率61.89%。兩款模型的差距並不大,這本身就是一個耐人尋味的結果。Gemini-3-Flash以43.32%排在第三位,Gemini-3.1-Pro反而只有34.53%,落後於自家的"輕量版"。DeepSeek-v4-Flash達到35.53%。而開源陣營的三款Qwen3模型(8B、14B、32B參數量)全部集中在14%到18%之間,儘管參數量相差懸殊,表現卻幾乎沒有區別。Llama-3.3-70B稍好一些,達到29.32%。

這裡有一個很值得注意的現象:幾乎所有模型的"有效方案率"都遠高於準確率。比如Gemini-3.1-Pro的有效方案率高達91.21%,但準確率只有34.53%;Gemini-3-Flash有效方案率90.23%,準確率43.32%。這說明這些模型並不是完全找不到滿足約束的方案,而是找到了方案之後,質量層面出了問題——要麼在物理上站不住腳,要麼在有效性上差強人意。換句話說,"沒有違規"和"真正好用"之間,還橫亘著一道不小的鴻溝。

另一個引人深思的發現是,模型規模的大小並不能可靠地預測規劃能力的強弱。參數量從8B到32B的Qwen3系列幾乎沒有差異,體量差異懸殊的GPT-5和GPT-5-Mini表現相近,而Gemini的"Pro"版甚至輸給了"Flash"版。這意味著,在這種需要靈活應對、持續調整的規劃任務中,模型的"通用能力越強越好"這一直覺並不成立。

五、約束越堆越多,AI越來越撐不住——性能隨輪次衰減的真實寫照

研究中一個特別關鍵的發現,是AI的規劃質量會隨著對話輪次的推進而持續下滑。

研究團隊對交互軌跡做了逐輪分析,追蹤了四個主要質量維度(工具可行性、物理合理性、有效性、安全性)在每一輪的得分變化。結果顯示,隨著被揭露的約束不斷累積,各維度得分普遍出現下降趨勢,其中有效性和物理合理性的下滑尤為明顯。更強的模型(如GPT-5-Mini和Gemini-3-Flash)在各維度上更為穩定,但整體衰減的方向是一致的。

這種現象的背後,有一個很直觀的解釋。隨著約束越來越多,AI需要同時滿足的條件越來越苛刻,可行的解法空間越來越小。在這種情況下,AI往往會被迫採用一些"非常規"的方案——而這些非常規方案,往往在物理上不那麼靠譜,或者在解決問題的效果上打了折扣。換句話說,當選擇餘地變小,方案質量自然也就難以維持。

將三個難度等級(Elow、Emid、Ehigh)並列比較時,這一趨勢更加明顯:從低約束到高約束,所有模型的準確率和有效方案率都出現了清晰的下滑。約束越多,AI越容易"力不從心"。

六、兩個"救援方案"效果如何?——顯式記憶和質量反饋的作用有限

面對AI在約束管理上的困境,研究團隊嘗試了兩種直覺上應該有效的干預措施,來診斷問題的根源究竟在哪裡。

第一種干預是"顯式約束追蹤":在每一輪交互中,把之前已經披露的所有約束作為一個完整的備忘錄,直接附在AI的輸入資訊里。這相當於給AI配了一個"外掛記事本",讓它不需要依賴自己的"記憶",而是可以直接查閱所有已知限制。

結果顯示,這個干預確實讓有效方案率有所提升,大約提高了5%到15%——說明AI確實存在"忘記已知約束"的問題,顯式提醒有助於減少重複違規。然而,準確率的提升卻微乎其微,三款被測模型中有三款的準確率提升均不超過3%。這意味著,AI面臨的困難並不主要是"記不住",而是"即使記住了,也不知道怎麼找到一個真正好的解法"。

第二種干預是"質量反饋循環":當AI的方案滿足了所有約束,但在質量維度(物理合理性、有效性等)上仍有不足時,讓系統告知AI具體哪些維度沒有達標,並允許它進行最多六輪的修改。

這個干預的效果更加矛盾。準確率確實有所提升,大約提高了10%左右——這說明質量反饋能幫助AI修正一些局部錯誤。但與此同時,有效方案率卻出現了急劇下滑,兩款開源模型的有效方案率下降了約40%,兩款專有模型也下降了約20%。出現這種現象的原因,研究團隊認為是AI存在一種"近因偏差":當AI收到質量層面的新反饋時,它傾向於集中精力應對新暴露的問題,卻在無意中忽視了此前已經滿足的約束,導致老問題復發。換句話說,AI很難在修補局部缺陷的同時保持整體方案的一致性。

七、用戶約束比世界約束更難對付——為什麼"偏好"比"沒有工具"更棘手?

為了進一步弄清楚是哪一類約束更讓AI頭疼,研究團隊設計了一組對照實驗:分別在"僅有世界約束"、"僅有用戶約束"和"兩類約束同時存在"三種條件下評測AI表現。

結果出乎不少人的意料:在單一約束類型的情況下,用戶約束造成的難度明顯高於世界約束。也就是說,"家裡沒有吹風機"這類客觀限制,對AI的困擾反而比"我不喜歡用會產生高熱的東西"這類主觀偏好要小。當兩類約束同時存在時,難度進一步疊加,成為最難應對的場景。

研究團隊對此給出了一個合理的解釋:一個用戶偏好,往往會排除掉一大類工具或操作方式,而不僅僅是某一件具體的東西。"不喜歡高熱"意味著吹風機、熱風槍、烤箱、蒸汽熨斗等一系列工具全都不能用;"怕打碎玻璃容器"意味著所有需要用力擰、敲或撬的方法都不適用。相比之下,"家裡沒有吹風機"只是排除了一件工具,AI還可以轉向其他很多選項。正因如此,用戶約束對可行解法空間的壓縮效果,往往遠比表面上看起來要大。

此外,用戶約束的邊界也更模糊。"家裡沒有錘子"是一個清晰的是非判斷,但"不喜歡用會產生噪音的方法"就需要AI對工具和操作的屬性有更深入的理解——什麼算"噪音大"?臨界點在哪裡?這種模糊性,給判斷和調整都帶來了額外的難度。

八、AI最常在哪裡出錯?——效果不達標和物理常識缺失

在質量評估的四個主要維度中,AI表現最差的兩項是"有效性"和"物理合理性"。

"有效性"方面的問題,在研究給出的案例中有一個極為典型的例子:一款模型在被要求修復一盞檯燈的損壞電線時,給出了一個詳盡的"保護方案"——把電線束好、蓋上塑膠袋、貼上警告標籤、放入盒子收納。整個過程安全有序,條理清晰。但問題在於,檯燈的電線從頭到尾都沒有被修好。用戶要的是"修好",而AI給的是"妥善擱置"——這是一種在形式上無懈可擊、在目標上卻南轅北轍的失敗。研究團隊將這種現象稱為"效果漂移":當約束越來越多,AI在努力避免違規的過程中,悄悄地改變了對任務目標的理解,把"解決問題"偷換成了"避免任何可能違規的操作"。

"物理合理性"方面的問題則更加有趣。Gemini-3.1-Pro在處理馬桶堵塞問題時,給出了一個頗為創意的方案:往馬桶里倒入大量冰塊,然後按沖水鍵,利用冰塊的重量把堵塞物沖走。這個方案乍聽起來似乎有點道理,但實際上完全違背了物理規律——冰塊會漂浮在水面上,不會沉入U形管道;一次正常沖水的水量和壓力,根本不足以將冰塊轉化為一個"衝擊錘"來疏通堵塞。同一款模型,在被要求熨燙一件有皺紋的襯衫時,提出了"把襯衫鋪在地板上,然後把床墊壓在上面放置一個小時"的方案。這個方案同樣邏輯看起來順暢(重壓可以消除皺紋),但忽略了一個關鍵事實:消除布料皺紋需要熱量和濕氣的配合,單純的物理壓力在沒有熱源的情況下,對純棉或化纖類面料幾乎沒有實質效果。

GPT-5的物理合理性問題則出現在橙汁製作任務上:在一系列約束的壓迫下,它提出了"把橙子切成幾段,放進冰箱冷凍四小時,然後取出放在筷子上,讓汁液自然滴入杯中"的方案。冷凍的確會破壞細胞壁釋放汁液,但筷子上架著的橙段在室溫下解凍,絕大部分汁液會浸入果肉而非滴入杯中——這個方案在物理上是嚴重低效的,實際上幾乎榨不出什麼橙汁。

這兩類錯誤共同揭示了一個深層問題:當約束越堆越多,AI似乎會進入一種"只求合規、不顧合理"的模式——它把精力集中在如何繞開每一個約束,而不是從物理常識和任務本質出發去設計一個真正可行的方案。

九、什麼樣的模型表現更好?——主動探索是關鍵

研究中還有一個頗為有趣的正向發現:表現最好的模型,往往也是在交互過程中"觸發最多約束"的模型。GPT-5和GPT-5-Mini不僅準確率最高,每輪交互中觸發的世界約束數(ATWC)和用戶約束數(ATUC)也是所有模型中最高的。統計上,準確率與ATWC的相關係數高達0.898,與ATUC的相關係數為0.919——這是非常強的正相關。

觸發更多約束,意味著AI在每次修改方案時,並不是只做最小限度的調整,而是大幅度地探索不同的方案路徑,從而"撞上"了更多此前未曾揭露的約束。從某種角度看,這是一種更積極的探索策略:與其每次只改動一兩個細節,不如徹底換一條思路,在更廣泛的解法空間裡尋找真正可行的出路。

相比之下,那些觸發約束較少的模型,往往是在已有方案的基礎上做小修小補,每次只改動一個被點名的違規項,導致整體策略沒有實質性進化,最終陷入局部最優的困境。這一發現在某種程度上說明,在這種需要持續應變的規劃任務中,"大膽換方案"比"小心修方案"更有效——這與人類在解決實際問題時的直覺頗為吻合。

說到底,AdaPlanBench這項研究用一套精心設計的"家務困境"揭示了當前AI規劃能力的真實底線。當約束只有一兩個、而且一次性告知時,今天的AI表現得相當不錯。但當約束來自兩個方向、而且一點一點地在對話中浮現時,AI的表現就會大打折扣——最好的模型只能做到三分之二正確,大多數模型在三成以下。更令人深思的是,"告訴AI記住已知約束"和"給AI更多質量反饋"這兩種直覺上的補救措施,效果都相當有限,說明問題根植於更深層的能力缺陷,而不僅僅是"健忘"或者"粗心"。

對於普通用戶來說,這意味著當你向AI助手尋求複雜任務的幫助時,尤其是在涉及多個個人偏好和現實限制的情況下,最好的策略是從一開始就儘可能把所有約束告知AI,而不是指望它能在反覆的來回中自行整合。而對於AI開發者來說,這項研究清晰地指出了下一代模型需要重點突破的方向:如何在長對話中穩定地追蹤和遵守不斷累積的約束,如何在解法空間被大幅壓縮時仍然給出物理上合理、目標上有效的方案,如何避免在應對新問題時丟失對舊約束的遵守。

這些問題,AI還沒有找到令人滿意的答案。但研究團隊搭建AdaPlanBench的意義正在於此——提供一把精確的尺子,讓我們能清楚地看見差距在哪裡。感興趣的讀者可以通過arXiv編號2606.05622檢索到完整的論文,親自了解這項測試的完整細節與數據。

Q&A

Q1:AdaPlanBench測試平台和普通AI規劃測試有什麼本質區別?

A:普通的AI規劃測試通常會在一開始就把所有限制條件告訴AI,讓它一次性給出答案。AdaPlanBench則模擬了更接近真實生活的場景:限制條件被隱藏起來,只有當AI提出的方案違反了某個限制時,系統才會"告知"AI這個限制存在。這樣一來,AI必須在每輪對話後調整方案,同時記住所有已知限制,這對AI的記憶能力和靈活應變能力提出了更高的要求。

Q2:用戶約束為什麼比世界約束更讓大模型頭疼?

A:世界約束通常是"有沒有某件工具"這樣清晰的是非判斷,排除的只是特定工具。用戶約束則往往是偏好性的,例如"不喜歡高溫"或"怕噪音",這類約束會一下子排除掉一大類工具和操作方式,對可行方案空間的壓縮效果更大。加上用戶約束的邊界更模糊,AI需要理解工具的隱含屬性,判斷難度自然也更高。

Q3:AdaPlanBench的測試結果對普通用戶使用AI助手有什麼實際參考價值?

A:研究表明,AI在面對逐步浮現的多重約束時表現明顯下滑,因此在向AI助手求助複雜任務時,最好在一開始就把所有已知的限制條件(比如家裡沒有哪些工具、有哪些個人偏好和禁忌)一併說清楚,而不是等AI給出方案後再逐一糾正。提前告知完整約束,能幫助AI更快給出質量更高的方案,避免多輪無效來回。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新