宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

阿里團隊推出DeepPHY:首個專門測試AI視覺模型物理推理能力的綜合評估平台

2025年08月13日 首頁 » 熱門科技

當我們看到小朋友玩積木時,他們能夠直覺地判斷哪塊積木放在哪裡不會倒塌,或者預測皮球從斜坡滾下來會朝哪個方向。這種對物理世界的理解看似簡單,但對於人工智慧來說卻是一項巨大的挑戰。目前最先進的視覺語言模型雖然能夠識別圖片中的物體,甚至進行複雜的視覺推理,但當需要它們像人類一樣進行物理推理並採取行動時,表現卻令人失望。

為了系統性地評估這個問題,阿里淘寶天貓集團與中科院軟體所等機構開發了DeepPHY這個全新的評估平台。這就像為AI模型設計了一套"物理課考試",通過六個不同難度的物理推理環境,全面測試AI模型是否真正理解物理世界的運作規律,而不僅僅是記住一些物理知識。

研究團隊發現了一個有趣但令人擔憂的現象:即使是當前最強大的AI模型,在這些物理推理任務中的表現也遠遠低於人類。更關鍵的是,AI模型能夠準確描述物理現象,但卻無法將這種描述性知識轉化為有效的行動控制。這就像一個人能夠完美地解釋如何騎自行車的原理,但實際騎上車時卻摔得體無完膚。

DeepPHY的誕生背景:AI物理推理的困境

當我們談論AI的智能水平時,往往會想到它們在下棋、語言翻譯或圖像識別方面的卓越表現。然而,真正的智能不僅僅是靜態的知識理解,更重要的是能夠在動態環境中進行推理和行動。物理推理能力正是這種動態智能的核心體現。

目前的AI評估體系主要集中在靜態的問答任務上。比如詢問AI"如果一個球從10米高的地方掉下來會發生什麼",AI能夠給出標準的物理學答案。但這種評估方式就像只考察學生的理論知識而不測試實際操作能力一樣,無法真正反映AI在實際物理環境中的表現。

研究團隊注意到,現有的一些AI評估環境雖然也涉及交互,但它們往往過於簡化了物理規律。比如一些遊戲環境提供的是高層次的觀察和動作空間,繞過了低層次的物理推理需求。而GUI環境雖然需要交互,但不涉及真實世界的物理動力學。至於機器人環境,雖然需要物理交互,但通常過分簡化了物理動態過程。

這種評估體系的缺陷導致我們無法準確了解AI模型的真實能力邊界。就像只通過書面考試來評估一個人的駕駛技術一樣,缺乏實際的路況測試,我們永遠不知道這個人在真實駕駛中會遇到什麼問題。

六個物理世界的考驗:DeepPHY的核心組成

DeepPHY評估平台的設計理念就像為AI模型準備了六個不同類型的"物理實驗室",每個實驗室都專注於測試不同方面的物理推理能力。這種多樣化的設計確保了評估的全面性和深度。

PHYRE環境就像一個2D物理拼圖遊戲。在這個環境中,AI模型需要通過放置一個紅球來觸發連鎖反應,最終讓綠球接觸到藍球或紫球。這聽起來簡單,但實際上需要模型準確預測物體間的碰撞、重力效應和穩定性。研究團隊選擇了1000個不同難度的任務,涵蓋了各種複雜的物理場景。結果令人震驚:即使是最強大的模型GPT-o3,成功率也僅有23.1%。

阿里團隊推出DeepPHY首個專門測試AI視覺模型物理推理能力的綜合評估平台

I-PHYRE環境增加了時間維度的挑戰。這裡的任務是通過在精確時間點移除灰色障礙物,讓紅球掉入深淵。這需要模型不僅理解物理規律,還要掌握精確的時間控制。有趣的是,頂級模型在這個環境中表現相對較好,GPT-o3達到了81.7%的成功率,說明某些AI模型在結構化的順序推理任務中確實具備一定能力。

Kinetix環境像一個物理控制實驗室,提供了從簡單到極其複雜的各種物理控制任務。任務目標很直接:讓綠色物體接觸藍色物體,同時避免接觸紅色物體。但實現這個目標需要協調控制多個馬達和推進器。研究發現,隨著任務複雜度的提升,所有模型的表現都急劇下降。即使在最簡單的S級任務中,最好的模型成功率也只有60%左右,而在複雜的L級任務中,成功率跌至10%以下。

Pooltool環境是一個高精度的檯球模擬器。任務是通過擊打最小號碼的球來將9號球打入袋中。這個環境特別有趣,因為一些模型表現出了令人誤解的"完美"成績。比如GPT-4o-mini達到了100%的成功率。但深入分析後發現,這種"成功"完全依賴於簡單粗暴的策略:總是用最大力度直接擊打目標球。這種方法在簡單布局中有效,但完全忽略了檯球的核心技巧——球的控制和旋轉效應。

Angry  Birds環境測試的是結構力學和拋射軌跡的綜合理解。模型需要調整彈射角度和力度來摧毀所有綠色小豬。這個看似簡單的遊戲實際上需要對重力、慣性、結構弱點和連鎖反應有深刻理解。最好的模型Claude  3.7 Sonnet只達到了41.18%的成功率,遠低於人類玩家的64.71%。

Cut the  Rope環境可能是最具挑戰性的,因為它需要精確的時機控制和複雜的物理直覺。模型需要通過切斷繩索、操控氣泡和氣墊等方式,讓糖果最終到達綠色小怪物Om  Nom的嘴裡。這個環境暴露了AI模型在感知層面的根本問題——它們甚至難以準確識別卡通風格遊戲中的繩索數量,更不用說進行複雜的物理推理了。

評估方法的創新:讓AI模型公平競爭

為了確保評估的公平性和準確性,研究團隊對每個環境都進行了精心的改造。這種改造就像為不同語言背景的學生準備統一的考試題目一樣,需要在保持題目本質的同時,消除不必要的障礙。

阿里團隊推出DeepPHY首個專門測試AI視覺模型物理推理能力的綜合評估平台

在觀察空間的處理上,研究團隊意識到當前的視覺語言模型在細節感知方面存在顯著缺陷。比如在Cut the  Rope遊戲中,即使是最先進的模型也無法準確計算場景中繩索的數量。為了公平評估物理推理能力而非感知能力,研究團隊為每個環境添加了詳細的視覺標註。在PHYRE中,他們在場景上疊加了5×5的網格;在I-PHYRE和Kinetix中,為交互元素添加了數字標籤;在Pooltool中,將3D視圖轉換為更適合AI處理的2D俯視圖。

動作空間的設計同樣經過了深思熟慮的簡化。研究團隊發現,當前的視覺語言模型在生成連續動作參數方面表現很差。因此,他們將所有環境的連續動作空間都轉換為離散的結構化格式。比如在PHYRE中,將連續的坐標放置轉換為網格選擇;在Pooltool中,將複雜的力度和旋轉參數轉換為預定義的選項組合。這種處理確保了AI模型能夠專注於物理推理本身,而不是被動作生成的技術細節所困擾。

研究團隊還設計了兩種不同的提示策略來測試模型的能力。視覺-語言-動作(VLA)格式讓模型直接基於環境規則、當前視覺觀察和歷史失敗記錄來輸出動作。而世界模型(WM)格式則要求模型不僅輸出動作,還要預測這個動作會產生的環境變化。這種對比設計旨在測試模型是否真正具備內在的物理預測能力。

令人震撼的實驗結果:AI的物理推理盲點

當研究團隊公布實驗結果時,即使是最樂觀的研究者也感到震驚。這些結果就像是給AI界潑了一盆冷水,讓人們清醒地認識到當前AI技術在物理推理方面的嚴重不足。

在總體性能方面,幾乎所有的開源模型都無法超越隨機行動的基線水平。這意味著這些模型的表現還不如完全隨機的選擇。即使是最先進的閉源模型,表現也令人失望。在PHYRE環境中,表現最好的GPT-o3模型經過10次嘗試後的成功率僅為23.1%。考慮到這個任務對人類來說並不困難,這個結果凸顯了AI在物理直覺方面的巨大缺陷。

更令人擔憂的是模型在學習適應方面的表現。在多次嘗試的任務中,大多數模型都表現出了學習效率低下的問題。它們無法從失敗的嘗試中有效學習,也無法建立準確的內在世界模型來指導後續決策。這就像一個學生在數學考試中,即使告訴他前面幾道題做錯了,他也無法調整策略來正確解答後面的題目。

在Kinetix環境中,隨著任務複雜度的增加,所有模型的表現都出現了斷崖式下降。在簡單的S級任務中,一些模型還能達到50-60%的成功率,但在複雜的L級任務中,幾乎所有模型的成功率都跌至10%以下。這種急劇下降說明當前AI模型缺乏處理多組件協調控制的能力。

在比較不同提示策略時,研究團隊發現了一個反直覺的現象:要求模型預測物理結果的世界模型(WM)策略並沒有比直接輸出動作的VLA策略表現更好,在很多情況下甚至更差。這個發現揭示了一個關鍵問題:即使模型能夠生成看似正確的物理描述,這種描述性知識也無法有效轉化為精確的控制行為。

研究團隊還發現了一些有趣的細節。比如在Pooltool環境中,某些模型表現出了誤導性的"完美"表現。GPT-4o-mini在設定溫度為0.1時表現出完全確定性的行為,每次都輸出相同的動作,恰好在第8次嘗試時成功。這種成功完全依賴於環境的確定性和簡單粗暴的策略,與真正的物理推理能力無關。

深層問題的揭示:描述與控制的鴻溝

通過詳細分析模型的失敗模式,研究團隊發現了一個深層次的問題:當前AI模型的物理理解主要是描述性的,而非預測性和程序性的。這種差異就像理論駕駛和實際駕駛的區別一樣根本。

在Kinetix環境的案例研究中,研究團隊觀察到一個典型的失敗模式。某個模型能夠準確預測第一次嘗試的結果:"綠色物體將激活左側和底部推進器,向右上方移動,遠離紅色地面和右側紅色垂直障礙物,接近右上角的藍色目標。"這個預測完全正確,第一次嘗試也確實成功了。但在第二次嘗試時,模型重複了完全相同的動作,沒有考慮到物體現在處於不同位置和具有不同動量的事實,結果直接撞上了障礙物。

阿里團隊推出DeepPHY首個專門測試AI視覺模型物理推理能力的綜合評估平台

這種失敗模式揭示了一個關鍵問題:模型缺乏狀態感知的控制能力。它們能夠基於初始狀態做出合理的預測,但無法根據動態變化的狀態調整策略。這就像一個GPS導航系統只能在出發時規劃路線,但無法根據實時交通狀況進行調整。

在Cut the  Rope環境中,問題變得更加明顯。研究團隊發現,即使是最先進的模型也無法準確感知遊戲中的基本視覺元素。當要求模型計算場景中繩索的數量時,它們經常給出錯誤答案,即使在研究人員的提示下進行修正,準確率仍然很低。這種基礎感知能力的缺陷嚴重限制了後續的推理過程。

更深層的問題在於時空推理能力的不足。在需要精確時機控制的任務中,模型往往要麼過早行動,要麼猶豫不決。它們無法像人類那樣直覺地判斷最佳行動時機,比如在繩索擺動到最高點時切斷以獲得最大水平距離。

對未來AI發展的深遠啟示

DeepPHY的研究結果對AI領域具有深遠的啟示意義。這些發現不僅暴露了當前技術的局限性,也為未來的研究方向提供了重要指引。

首先,這項研究證明了評估AI物理推理能力的重要性和緊迫性。傳統的靜態問答評估無法反映AI在動態環境中的真實表現。就像評估一個醫生的能力不能僅僅通過筆試,還需要臨床實踐考核一樣,評估AI的智能水平也需要更加全面和動態的測試環境。

研究結果還揭示了當前AI訓練方法的一個根本缺陷:過分依賴描述性知識而忽視了程序性技能的培養。現有的大語言模型雖然掌握了大量的物理學知識,但這些知識主要以文本形式存儲,無法有效轉化為實際的控制行為。這就像一個人熟讀了所有的游泳教學,但從未下過水一樣。

對於未來的AI系統設計,這項研究強調了集成感知、推理和控制能力的重要性。單純提升模型的語言理解能力或視覺識別能力是不夠的,真正的智能需要這些能力的有機結合。這種集成不是簡單的模塊組合,而需要在系統層面進行深度融合。

研究還表明,當前的AI模型在處理物理世界的不確定性和動態性方面存在根本缺陷。真實世界中的物理過程往往涉及複雜的非線性動力學,需要系統能夠處理意外情況和適應性調整。這要求未來的AI系統具備更強的魯棒性和適應性。

從技術發展的角度來看,這項研究指出了幾個關鍵的研究方向。首先是需要開發更好的物理仿真和推理能力,讓AI系統能夠建立準確的內在世界模型。其次是需要改進學習算法,使模型能夠從交互經驗中快速學習和適應。最後是需要探索新的架構設計,更好地整合感知、推理和控制功能。

對於AI安全和可靠性來說,這項研究也具有重要意義。如果AI系統要在真實世界中執行任務,特別是涉及物理交互的任務,那麼準確的物理推理能力是基礎前提。缺乏這種能力的系統可能會產生不可預測的行為,帶來安全風險。

至頂AI實驗室洞見

DeepPHY的研究讓我們重新審視了AI智能的本質。真正的智能不僅僅是資訊處理和模式識別,更重要的是能夠在複雜的物理世界中進行有效的推理和行動。當前的AI系統雖然在某些任務上表現出色,但在物理推理這個基礎能力上仍然遠遠落後於人類。這提醒我們,通往真正人工智慧的道路還很漫長,需要更多的基礎研究和技術突破。

DeepPHY不僅是一個基準測試,更是一個研究平台,可以幫助研究者系統地分析和改進AI模型的物理推理能力。隨著更多研究團隊使用這個平台,我們期待看到AI在物理推理方面的持續進步。

最後,DeepPHY的價值不僅在於揭示了當前AI的不足,更在於為未來的發展指明了方向。只有真正理解和解決這些基礎問題,AI才能真正走向成熟,在更廣泛的應用場景中發揮價值。對於那些關心AI發展前景的人來說,這項研究既是一個警示,也是一個機遇——它告訴我們還有多少工作要做,同時也展示了未來可能的突破方向。

論文地址:

https://arxiv.org/pdf/2508.05405

END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。Q&A

Q1:DeepPHY是什麼?它主要測試AI的哪些能力?

A:DeepPHY是阿里巴巴團隊開發的首個專門評估AI視覺語言模型物理推理能力的綜合平台。它通過六個不同的物理環境(包括PHYRE、I-PHYRE、Kinetix、Pooltool、Angry  Birds和Cut the Rope)來測試AI模型是否能像人類一樣理解物理世界的運作規律,並在動態環境中做出正確的物理推理和控制決策。

Q2:目前最先進的AI模型在DeepPHY測試中表現如何?

A:表現令人失望。即使是最強大的模型如GPT-o3,在不同環境中的成功率也遠低於人類水平。比如在PHYRE環境中僅有23.1%的成功率,而在一些複雜任務中,大多數開源模型的表現甚至不如隨機選擇。更重要的是,研究發現AI模型雖然能描述物理現象,但無法將描述性知識轉化為有效的控制行為。

Q3:DeepPHY的研究結果對AI發展有什麼重要意義?

A:這項研究揭示了當前AI技術的一個根本缺陷:缺乏真正的物理推理和動態控制能力。它表明僅僅提升語言理解或視覺識別能力是不夠的,真正的智能需要感知、推理和控制能力的深度整合。這為未來AI系統設計指明了方向,強調了開發更好的物理仿真能力、改進學習算法以及探索新架構設計的重要性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新