這項由美國伊利諾伊大學厄巴納-香檳分校(UIUC)與亞馬遜公司聯合開展的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.26396,感興趣的讀者可通過該編號查詢完整原文。
說到"創造力",你腦海中浮現的大概是藝術家的靈感迸發,或者發明家的奇思妙想。但有一種更接地氣的創造力,幾乎每個人都在日常生活中不知不覺地用著——那就是"就地取材"的能力。螺絲釘鬆了,沒有改錐,你順手拿起一枚硬幣;信封要封口,沒有膠水,你用唾液潤濕;開箱子沒有刀,你用鑰匙的鋸齒邊緣劃開膠帶。這種把手邊物品"借來一用"的本事,是人類智慧中相當迷人的一面。
那麼,如今號稱無所不能的大型多模態AI模型(也就是那些能看圖、能讀文字、能回答覆雜問題的AI),能不能做到同樣的事情?當一個AI面對一張亂糟糟的房間圖片,被問到"沒有剪刀,怎麼裁剪包裝紙",它能不能看著圖裡的東西,找到那個真正有用的部件,並說清楚為什麼它能派上用場?
UIUC的研究團隊對這個問題產生了濃厚的興趣。他們不僅設計了一套專門測試AI"就地取材"能力的評測系統,還深入分析了AI在這件事上究竟卡在哪裡,並提出了一套針對性的訓練方法。研究結果既令人清醒,也給出了一條相對明確的改進路徑。
---
一、為什麼這種能力比我們以為的更難
要理解這項研究的重要性,得先搞清楚"就地取材"這件事在認知層面到底有多複雜。
心理學上有個概念叫"物體的功能可供性"(affordance),通俗說就是"這個東西能讓你做什麼"。椅子的功能可供性是"可以坐",但當你需要夠到高處的東西時,椅子的功能可供性就變成了"可以踩著站上去"。這種靈活轉換,對人類來說幾乎是無意識的,但對AI來說卻是巨大的挑戰。
原因在於,人類對物體的認知是建立在幾十年親身體驗之上的。你知道鑰匙有鋸齒,是因為你無數次地摸過它;你知道橡皮筋很有彈性,是因為你彈過別人的手背;你知道透明玻璃杯的彎曲弧面能聚光,是因為你可能曾經好奇地拿它對著陽光試過。這些知識是"身體性"的、"情境性"的。
而現有的AI模型,哪怕視覺和語言能力再強,本質上是從海量圖文數據中學習模式,缺乏真正的物理世界體驗。當它們遇到需要"創造性地重新解讀物體功能"的任務時,往往會陷入一種"快速聯想"的模式——聽起來合理,但實際上沒有真正檢驗物體的具體物理特徵。
研究團隊把這種傾向比作"系統一"式思維(借用諾貝爾獎得主卡尼曼的框架),也就是那種快速、直覺、依賴經驗的判斷方式。這種思維在很多情況下夠用,但在面對需要仔細檢查、逐步排查、最終找到那個"雖然不是常規用途但物理上完全可行"的部件時,就力不從心了。
---
二、一場專門的"摸底考試":MM-CreativityBench
為了系統地考察AI的這種能力,研究團隊設計了一套他們稱為"MM-CreativityBench"的評測基準,這個名字可以理解為"多模態創造力測試台"。
這套測試的核心邏輯非常聰明,可以用一個"反向出題"的方式來理解。通常我們出題是先寫一個場景,再找一個答案。但這套測試反過來:先確定答案——某個具體物體的某個具體部件,以及它所具備的某種物理特性——再圍繞這個答案設計一道題。這樣做的好處是,每道題的"正確答案"有明確的物理依據,不是主觀判斷,而是從一個經過整理的"物體功能知識庫"中嚴格驗證過的事實。
這個知識庫收錄了大量日常物品,對每個物品進行了細緻的"拆解":它有哪些部件,每個部件有哪些物理屬性(比如形狀、材質、硬度、表面紋理),以及每個部件在什麼條件下能發揮什麼樣的非常規功能。
以開頭那個"用鑰匙裁膠帶"的例子為例:鑰匙這個物體被拆解出"鋸齒邊緣"這個部件,該部件的屬性包括"薄而硬"、"有鋒利的凸起",因此具備"切割軟性材料"的功能可供性。題目的設計則是:給定一個場景(比如需要開膠帶的包裹),提供一張包含鑰匙和其他幾個物品的房間圖片,讓AI找出哪個物體的哪個部件可以用來解決問題。
測試中的"干擾項"設計也相當用心。團隊專門挑選了兩類容易讓AI"踩坑"的干擾物:一類是功能上看起來相似但關鍵物理屬性不符合要求的物體(比如也有邊緣但邊緣是圓潤的),另一類是在場景中很容易出現、但其實根本幫不上忙的物體。這樣一來,AI如果只是憑著"這種東西通常能幹這個"的經驗聯想來回答,就會被這些干擾項所迷惑。
測試的評分邏輯也不只看最終答案對不對,還要看AI在找到答案的過程中做了什麼。測試設計成了一個"交互式"的探索流程:AI首先看到一張整體場景圖,然後可以選擇"放大"看某個具體物體,再進一步"放大"看這個物體的某個具體部件。每一步"放大"操作都會返回更清晰的圖片和文字描述。最終,AI要說明自己選擇了哪個物體的哪個部件,以及為什麼它的物理特性能解決當前的問題。
整套測試最終包含333道題用於評測,以及868道題用於後續的模型訓練,兩個集合之間沒有重疊。
---
三、考試結果出爐:頂尖AI的表現有多糟糕
測試結果相當出人意料,或者說,出乎意料地差。
研究團隊把市面上多個主流AI模型都拉來參加了這場考試,其中包括OpenAI的GPT-5.4、GPT-5.4 Mini,阿里的Qwen3-VL(8B和32B版本),以及InternVL3.5和Gemma-4等開源模型。
成績最好的是Qwen3-VL-32B,它的"完全正確率"(也就是既找到了正確物體又找到了正確部件)是24%。GPT-5.4的完全正確率是19.2%。換句話說,就算是當前最強的商業AI,面對這道"就地取材"的題目,每答五道只能答對不到一道。
更值得關注的是一個細節上的對比數據。大多數AI在"找到正確物體"這件事上做得還不錯,但在進一步"找到這個物體的正確部件"上卻糟糕得多。舉個例子,GPT-5.4在"找對物體"這個層面的準確率是43.5%,但完全正確率只有19.2%——差距將近一半。Qwen3-VL-32B的對應數字是44.7%和24%。這個數據揭示了一個關鍵問題:AI並非完全不知道該用什麼東西,但它不知道應該用這個東西的哪個地方、依據什麼物理特性來用它。
另一個有趣的發現是關於"探索數量"的。Qwen系列的模型在測試中平均會查看近五個不同的物體,而GPT-5.4平均只查看不到兩個。但更多的查看並沒有帶來更好的成績——Qwen3-VL-8B探索的次數遠多於GPT-5.4,最終正確率卻持平,都是19.2%。這說明,問題不在於"探索得夠不夠多",而在於"看到了有用資訊之後能不能正確地加以利用"。
---
四、AI到底卡在哪裡:解剖失敗模式
研究團隊對錯誤答案進行了系統分類,找出了幾種反覆出現的失敗模式,這部分內容像是在給AI的"考卷"批註錯誤原因。
最常見的失敗類型是"功能可供性判斷錯誤",也就是AI選了一個物理上根本不適合的部件,或者把這個部件的物理屬性搞錯了。具體又可以細分為兩種:一種是"憑空捏造屬性",比如AI聲稱某個部件很尖,但實際圖片顯示它是圓潤的;另一種是"形狀材質不匹配",比如AI知道需要一個硬邊緣,也找到了有邊緣的物體,但沒有意識到這個邊緣的形狀或彈性根本撐不起它聲稱的用途。
還有一類失敗是"只解決了部分問題"。比如,任務需要一個能提供摩擦力同時又足夠大的平面,AI可能找到了一個有摩擦力的小橡膠塊,但沒有意識到"足夠大"這個維度上它完全不夠格。這種失敗的微妙之處在於,AI選出的東西並非毫無道理,只是考慮不夠全面。
另外還有兩類相對少見但同樣重要的失敗:一是AI選出的方案需要破壞或拆解物體才能實現,在實際情境中根本不可行;二是AI的方案存在安全風險,比如選了一個可能造成劃傷或觸電危險的部件。在經過訓練之後,這兩類失敗幾乎被完全消除了,這是後續訓練方法的成果之一。
還有一個有趣的規律:當場景中的物體具有越來越相似的功能可供性時(也就是干擾項越來越像正確答案時),AI的成績下降越來越明顯。但與此同時,AI進行的探索步驟數量並沒有增加。這意味著AI並不會在"覺得難"的時候自動調整策略,更仔細地去檢查每個候選物。它只是用同樣的力氣,做出了更差的判斷。
---
五、一次"教育改革":如何訓練出更會就地取材的AI
發現了問題,研究團隊接下來設計了一套針對性的訓練方案,名字叫"功能可供性紮根對齊"(affordance-grounded alignment)。這個名字聽起來複雜,但核心思想並不難理解。
訓練分成兩個階段,可以用"先學走路,再學跑步"來理解。
第一個階段叫做"有監督微調"(SFT),可以把它理解成"示範教學"。研究團隊利用那868道訓練題,為每道題構建了一條"示範探索軌跡"——告訴AI在這道題里應該先看哪個物體、再看哪個部件、應該關注哪些屬性、應該得出什麼結論、最後應該給出什麼答案。這些示範軌跡是從知識庫中提取正確答案的物理依據,然後用GPT-5.4幫助生成流暢的推理文字,最後把整個探索過程打包成一個完整的"學習樣本"。
AI通過模仿這些樣本,學會了一種更有條理的探索方式:先看整體場景,找出可能相關的候選物體,依次檢查每個物體的關鍵部件,對比各部件的物理屬性,最後綜合判斷選出最合適的那個。這一階段讓AI的行為變得更加有序,不再像之前那樣隨意跳躍或反覆查看同一個地方。
第二個階段叫做"直接偏好優化"(DPO),可以理解成"反面教材教學"。光學習正確做法還不夠,因為訓練里用到的示範軌跡都是在有"參考答案"的情況下生成的,但實際使用時AI沒有這個後盾。所以研究團隊還專門為每道訓練題準備了"錯誤示範"——有些是普通的錯誤,比如探索了不重要的部件、選了一個差強人意的答案;有些是更難識別的"精緻錯誤",比如推理過程聽起來頭頭是道,用詞也很專業,但關鍵的物理屬性判斷是錯的,或者得出的結論從視覺證據上根本找不到支撐。
通過讓AI同時看到"正確做法"和"錯誤做法",並要求AI學會區分兩者、偏向前者,AI逐漸培養出了一種更精細的判斷能力:不只是能說出聽起來合理的答案,而是能從實際檢查到的視覺資訊中,找出真正支持某個答案的物理依據,並拒絕那些"表面像但本質不對"的錯誤選項。
---
六、訓練效果如何:數字背後的故事
訓練效果可以用幾個數字來說明,但數字本身不是重點,重點是數字背後反映的變化。
以較小的4B版Qwen模型為例。在沒有任何訓練的情況下,它的完全正確率是15.6%。經過第一階段(示範教學)之後,提升到了20.4%,進步不大。但在加入第二階段(反面教材教學)之後,正確率躍升至41.7%——比起原始模型提升了將近170%。8B版的模型從19.2%提升到了39.3%,提升幅度同樣超過100%。
同時,訓練之後的模型探索效率也大幅提升。4B模型在訓練前平均需要約19輪交互操作才能給出答案,訓練後縮短到了約6輪。這意味著模型不再"東摸西摸",而是能夠更快速地定位到關鍵證據,在充分但不浪費的探索之後給出判斷。
還有一個技術指標叫做"重複探索率",也就是AI重複查看同一個已經看過的物體或部件的比例。訓練前,4B模型大約47%的探索操作是在重複查看已看過的部件;訓練後,這個比例降到了不到10%。這說明模型學會了"記住自己看過了什麼",不再做無用功。
研究團隊還發現,示範教學和反面教材教學這兩個階段是互補的,缺一不可。示範教學讓模型的探索變得更有條理、更不重複,但探索範圍也因此變得更窄,有時會錯過真正有用的候選項。加入反面教材教學之後,模型在保持高效的同時,探索的語義密度(也就是探索到的物體和部件與正確答案的相關度)反而提升了。兩個階段一起作用,才能達到最理想的效果。
---
七、三個真實案例:AI改變了什麼
研究團隊挑選了三個具體案例來說明訓練前後的差異,這些案例非常生動,值得細細品味。
第一個案例是關於"防止浴室掛鉤損壞牆漆"的問題。場景是這樣的:一個金屬毛巾掛鉤緊壓著浴室牆壁,需要找一個小墊片來防止它損壞油漆。正確答案是浴簾弧形撐杆末端的防滑橡皮頭。
未經訓練的8B模型看了毛巾的絨毛面之後,立刻認定毛巾是最佳答案——因為毛巾確實很軟。但它犯了一個關鍵錯誤:它把"軟"當成了全部相關屬性,完全沒有考慮"能不能固定在壓力點上"、"會不會移位"等問題。它也從未去看過撐杆的橡皮頭。
經過訓練的8B模型則表現出了截然不同的思維方式。它同樣看了毛巾的絨毛面,但沒有就此停下,而是繼續探索。它查看了撐杆,發現了防滑橡皮頭,檢查了它的物理屬性(EPDM橡膠材質、柔軟、高摩擦、有彈性、體積小),然後在最終答案中做了明確的對比分析:毛巾很軟,但橡皮頭更小、更耐用、摩擦力更強,且能穩定貼合在壓力點上,不會像毛巾那樣發生移位或變形。這種推理方式,才是真正建立在物理屬性之上的判斷。
第二個案例是關於"用什麼當包裝紙裁切的導尺和襯板"。正確答案是床底收納箱的硬質蓋板。
未經訓練的4B模型在這道題上卡了整整50輪交互操作,把大部分時間都花在反覆查看一支中性筆的橡皮握手套上。它的邏輯是:握手套有摩擦力,可以防止紙張滑動。但它始終沒有意識到,單點摩擦根本無法防止一整張大紙的滑動,更沒有提供任何能夠沿長邊對齊的直邊。
經過訓練的8B模型則在第一輪就直接選擇檢查收納箱,發現了它的蓋板,並準確識別出這個半硬質、有內置支撐板、表面光滑的面板同時具備"襯板"和"導邊"兩種功能,乾淨利落地解決了問題。
第三個案例是關於"疏通洗手台溢水口裡的頭髮和肥皂堵塞物"。正確答案是電動鬍鬚刀的可調節梳齒。
未經訓練的4B和8B模型都犯了同一個錯誤:它們第一反應是找"鋒利的東西"來刮除堵塞物,最終選擇了雙刃刀片或者鬍鬚刀的切割刀頭。這背後有一個先入為主的模式:"狹窄開口裡有堵塞物,應該用刮的方式處理"。但問題在於,堵塞物是鬆散的濕發和肥皂,根本不需要切割,而刀刃插入狹窄開口還存在安全風險。
經過訓練的4B模型表現出了更細膩的判斷。它確實也探索了那個令人"眼饞"的刀片,但在獲得反饋之後,它轉而去查看鬍鬚刀,然後檢查了可調節梳齒。這個梳齒的特點是:硬質塑料、細密的齒、尺寸能夠插入狹窄開口、沒有鋒利的刃,可以像小耙子一樣撥動並鉤出鬆散的堵塞物,而不會造成劃傷風險。最終,它選擇了梳齒,並給出了具體的使用方式:插入溢水口,輕輕來回移動,讓齒縫鉤住堵塞物,然後用水沖走。
這三個案例清楚地說明,訓練帶來的改變不是讓AI變得"更聰明"了,而是讓AI學會了不去依賴第一個看起來合理的聯想,而是把物理屬性當成真正的判斷標準——逐項檢查,逐項對比,最後得出有據可查的結論。
---
八、這項研究的更大意義
研究團隊在討論部分提出了一個值得深思的區分:創造力和幻覺,在這套測試框架里是截然不同的東西。
在文學創作或頭腦風暴里,"憑空想像"有時是有價值的——你可以天馬行空,越大膽越好。但在"就地取材解決實際問題"這個場景下,憑空捏造物體屬性是一種失敗,而不是創意。真正的創造力在這裡被定義為:基於實際可見的物理證據,發現物體的非常規但確實可行的用途。想法可以新穎,但必須是經得起檢驗的。
這個區分對未來的具身AI(也就是那些在物理世界中操作機器人或自動化系統的AI)來說尤為重要。一個在虛擬測試中"幻覺"出錯誤物理屬性的AI,只是答了一道錯題;但在真實世界中,同樣的幻覺可能意味著一隻機器手臂用錯誤的力道夾取了錯誤的物體,造成實際損壞。
研究團隊還指出,現有的標準訓練方法往往只獎勵"答案對不對",而忽視了"答案是怎麼得到的"。一個通過運氣或錯誤推理得出正確答案的AI,和一個通過系統性視覺檢查、物理屬性分析最終找到答案的AI,在只看最終結果的評估框架下會得到同樣的分數。但實際上,兩者的能力差異是天壤之別的。這也是為什麼這項研究特別強調"過程"評估的重要性,以及為什麼訓練方案要針對整條探索軌跡,而不只是最終答案。
歸根結底,這項研究說明了一件事:讓AI變得真正有用,不只是讓它掌握更多知識,更要讓它學會如何在真實的、不完整的、充滿干擾的環境中,用眼前看到的證據去推理,而不是用記憶里儲存的模式去套用。這是從"知識型AI"走向"判斷型AI"的關鍵一步,也是讓AI真正能夠適應陌生環境、解決意料之外問題的基礎能力。
這項研究目前還有一些局限,比如所有圖片都是通過AI生成的(而不是真實拍攝的場景),這在一定程度上限制了測試的真實感。但研究團隊也坦承,這是出於"控制變量"的考慮——真實照片中物體的遮擋、光線、角度變化會引入太多干擾因素,反而不利於準確測量AI的推理能力本身。未來,將這套測試框架遷移到真實環境拍攝的圖像上,將是一個重要的後續方向。
對這項研究有興趣的讀者,可以通過arXiv編號2605.26396找到完整論文,代碼和測試數據也已通過論文中的鏈接公開。
---
Q&A
Q1:MM-CreativityBench和普通的AI視覺問答測試有什麼區別?
A:MM-CreativityBench要求AI不只是識別圖片裡有什麼,而是要找到某個物體的某個具體部件,並基於該部件的真實物理屬性(比如形狀、材質、彈性)來判斷它是否能用於解決特定問題。普通視覺問答通常有標準答案可以套用,而MM-CreativityBench要求AI做"非常規用途"的推理,答案建立在物理證據上而非常識聯想上,因此難度和評測維度都更高。
Q2:為什麼GPT-5.4這樣的頂尖模型在這個測試上表現反而不如開源的Qwen模型?
A:研究結果顯示,GPT-5.4的探索次數非常少(平均不到兩次),說明它更傾向於快速給出看似合理的答案,而不是耐心檢查候選物體的具體部件。Qwen系列模型的探索更廣泛,因此更容易找到關鍵證據。這表明在需要"仔細檢查物理細節"的任務上,模型的探索策略比模型的整體規模更重要,單靠擴大模型參數量無法解決這個根本問題。
Q3:訓練AI做"就地取材"推理,對普通人的日常生活有什麼實際意義?
A:這項能力是讓AI真正成為實用助手的基礎。當你在家中遇到需要臨時替代工具的情況、需要用有限材料完成任務、或者身處不熟悉環境時,一個能夠基於實際可見物品進行物理推理的AI助手,才能給出真正可執行的建議,而不是那種"理論上可以但實際上你手邊根本沒有的"方案。這對未來的家庭機器人、智能助理、以及各類自動化系統的實用性都有直接影響。






