宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

多模態智能時代,AI模型遭遇「空間推理危機「——蘇黎世聯邦理工學院的MARBLE基準測試挑戰來襲!

2025年07月03日 首頁 » 熱門科技

說起人工智慧的發展,我們總是被各種"AI超越人類"的新聞轟炸。Claude能寫詩,GPT-4能看圖說話,最新的模型甚至能理解影片內容。當這些看似無所不能的AI遇到真正需要空間思維和多步驟推理的複雜問題時,會發生什麼呢?

就像一個看似聰明的學生在遇到真正需要動腦筋的數學應用題時突然卡殼一樣,目前最先進的多模態語言模型,在面對複雜的空間推理任務也時常表現得相當糟糕。這並不是因為這些AI不夠先進,而是因為真正的智能推理比我們想像的要複雜得多。

這個問題的核心在於,現有的AI測試基本上都像是在考"填空題"——給AI一張圖片和一個問題,它只需要從圖片中找到答案就行了。但真實世界的問題往往需要像偵探破案一樣,把多個線索串聯起來,制定一個詳細的行動計劃,還要考慮各種物理限制和空間約束。

正是基於這樣的思考,來自蘇黎世聯邦理工學院的研究團隊開發了一個名為MARBLE(MultimodAl Reasoning Benchmark for Language modEls)的測試套件。這個名字聽起來很學術,但它的本質就是一個"AI智力測試的地獄模式"。這個基準包含兩個極具挑戰性的任務:M-Portal和M-Cube,它們要求模型在空間、視覺和物理約束下制定和理解多步驟計劃。

研究人員想要找出現有AI模型在複雜推理方面的真實水平,就像給學霸出一套特別難的綜合應用題,看看他們到底有多少真本事。

傳送門的迷宮——M-Portal任務的複雜世界

M-Portal任務受到知名謎題遊戲《傳送門2》的啟發,這是一個第一人稱視角的謎題遊戲。在這個遊戲中,玩家需要通過放置兩個傳送門來克服障礙物和通過房間,玩家可以在這兩個傳送門之間瞬移。遊戲的一個關鍵機制是動量守恆:當玩家以給定速度進入一個傳送門時,他們會以相同的相對動量從第二個傳送門出來。這使得創造性的穿越策略成為可能,比如通過將重力驅動的下落與傳送門放置相結合來跳躍穿越大間隙或越過障礙物。

多模態智能時代,AI模型遭遇「空間推理危機「——蘇黎世聯邦理工學院的MARBLE基準測試挑戰來襲!

要理解M-Cube任務的複雜性,我們可以把它想像成一個立體版的拼圖遊戲。你有六塊形狀奇特的拼圖片,每一塊都有複雜的凸起和凹槽圖案。你的任務是將這些拼圖片組裝成一個完美的立方體,其中邊緣無縫對齊,沒有間隙或重疊。為了解決M-Cube任務,多模態語言模型需要為每個拼圖片分配一個立方體面並確定正確的方向,也就是說,需要相應地旋轉和翻轉拼圖片以與其他拼圖片對齊。

對於每個問題,多模態語言模型必須考慮6!種可能的拼圖片到面的分配(模去旋轉對稱性),對於每個拼圖片,還有8種離散的旋轉和翻轉狀態,這導致了候選解的組合爆炸。在這個巨大的搜索空間中,考慮到互鎖凸起和凹槽圖案施加的幾何約束,只有極少數解是有效的。András等人報告說,大多數商業可用的立方體只有一個解(在旋轉等價性下),這使得這是一個具有挑戰性的推理問題。

雖然M-Cube任務受到Happy Cube拼圖的啟發,但研究團隊合成生成了所有樣本。數據生成管道從5×5×5立方體開始,將表面分解為6個互鎖拼圖片。每個拼圖片可以視為5×5網格,其中中心3×3區域始終保留。對於位於邊緣的其餘單元格,研究團隊隨機將每個單元格分配給大5×5×5立方體的相鄰面之一,以創建沿邊界的凸起和凹槽圖案。

為了控制難度級別,研究團隊創建了兩個子任務:CUBE和CUBE-easy,每個子任務包含1000個示例。CUBE-easy是CUBE的簡化版本,簡化體現在三個方面:首先,輸入拼圖片被表示為二維數組而不是渲染圖像,以減少多模態語言模型的感知錯誤;其次,每個拼圖都經過特別設計,使得解決方案不需要翻轉任何拼圖片;第三,在提示中提供了4個拼圖片排列的部分解決方案,只留下2個缺失的拼圖片需要放置。

令人震驚的測試結果——AI巨頭們的集體"落榜"

當研究團隊用MARBLE基準測試來評估12個最先進的多模態語言模型時,結果令人震驚。在M-Portal任務的計劃正確性評估中,所有被調查的模型(包括多模態語言模型和純文本語言模型)表現都非常糟糕,少數類F1分數約為6%,與隨機基線相似。這就像是讓一群成績優異的學生去參加一場全新類型的考試,結果所有人的成績都和隨機猜測差不多。

多模態智能時代,AI模型遭遇「空間推理危機「——蘇黎世聯邦理工學院的MARBLE基準測試挑戰來襲!

令人驚訝的是,研究團隊發現所有模型在每個單元格上只能達到約70%的準確率。最好的感知性能來自Gemini-2.5-pro,準確率為76%,這意味著模型仍然可能偶爾出錯。結果,所有模型在整個拼圖片上的準確率都是0%。這些結果突出表明,即使是先進的多模態語言模型在這個看似簡單的感知任務上也有困難,這為複雜場景(如CUBE)中的多模態推理構成了潛在瓶頸。

在推理方面,除了感知錯誤,M-Cube由於來自所有6個拼圖片的可能排列和方向組合的巨大搜索空間,仍然是一個極具挑戰性的問題。CUBE包含6!×8^6=188,743,680種可能的解決方案。相比之下,CUBE-easy只包含32種可能的解決方案,假設空間減少了500萬倍。為了將推理挑戰與感知限制分離,研究團隊手動將視覺輸入轉換為相應的文本數組。他們比較了DeepSeek-R1在不同搜索空間配置下的性能。該模型在只有一個缺失拼圖片的最簡單設置中獲得了57%的準確率。然而,隨著搜索空間的擴大,性能急劇下降,當超過3個拼圖片缺失時降至0%。

工具輔助的疊代改進嘗試

面對如此困難的任務,研究團隊還探索了一種更接近真實問題解決過程的方法:讓模型使用解決方案驗證器作為工具來收集反饋并疊代改進其響應。在每一輪中,模型提出候選解決方案並使用解決方案驗證器進行評估。基於驗證器的反饋,模型可以在下一輪中疊代地改進其響應,朝著更好的解決方案發展。

多模態智能時代,AI模型遭遇「空間推理危機「——蘇黎世聯邦理工學院的MARBLE基準測試挑戰來襲!

A:MARBLE的結果揭示了當前多模態AI模型的重要局限性,指出了未來研發的關鍵方向。它表明我們需要開發能夠進行複雜空間推理和多步規劃的新一代模型,這對於機器人技術、自動駕駛、增強現實等需要空間理解的應用領域至關重要。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新