宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

香港科技大學推出PhysToolBench:首個專門測試AI模型「動手能力」的全新評估體系

2025年11月14日 首頁 » 熱門科技

這項由香港科技大學張紫欣、陳康浩等研究團隊領導的突破性研究發表於2025年10月,論文編號為arXiv:2510.09507v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。

想像一下這樣一個場景:你正在廚房裡準備做一道複雜的菜,突然發現缺少某個關鍵工具。一個聰明的助手會怎麼做?是束手無策地說"抱歉,沒有專門的工具我無法幫助您",還是機智地環顧四周,找到替代品來完成任務?這個看似簡單的場景實際上觸及了人工智慧發展的一個核心問題:我們的AI助手真的理解物理工具嗎?

在當今這個AI技術突飛猛進的時代,我們已經看到了能夠生成精美圖像、撰寫流暢文章,甚至進行複雜對話的多模態大語言模型(MLLM)。這些模型就像是擁有淵博知識的學者,能夠回答各種問題,處理圖像和文本資訊。然而,當涉及到真正的物理世界互動時,特別是使用工具完成實際任務時,這些看似聰明的AI系統是否真的具備了人類那樣的理解能力?

正是帶著這樣的疑問,香港科技大學的研究團隊開發了PhysToolBench這個全新的評估基準。這就好比是為AI系統設計的一套"動手能力考試",專門測試它們對物理工具的理解程度。研究團隊發現了一個令人意外的事實:即使是目前最先進的AI模型,在這項測試中的表現也遠遠不如人類。

這項研究的重要性不僅僅在於揭示了當前AI技術的不足,更在於為未來的機器人和智能助手的發展指明了方向。畢竟,如果我們希望AI真正成為我們日常生活中的得力助手,它們就必須像人類一樣理解和使用各種工具。

PhysToolBench包含了超過1000個精心設計的圖像-文本對,涵蓋了從日常生活到專業工作的各種場景。研究團隊設計了三個難度級別的測試,就像駕照考試分為理論考試、路考和高級駕駛技能測試一樣。每個級別都在檢驗AI系統不同層面的工具理解能力。

第一層是基礎的工具識別能力,相當於問"這是什麼工具,它的主要用途是什麼"。第二層深入到工具的使用原理和組合應用,比如"在特定條件下應該選擇哪種工具"或者"完成這個任務需要哪幾種工具配合"。第三層則是最具挑戰性的創造性使用,當標準工具不可用時,如何利用現有物品創造替代工具。

研究團隊測試了32個不同的AI模型,包括GPT-5、Claude等頂尖的商業模型,以及各種開源模型和專門為機器人設計的模型。結果令人深思:即使是表現最好的模型,得分也僅有63%左右,而人類的平均得分超過90%。這個巨大的差距揭示了當前AI技術在理解物理世界方面的根本局限性。

更有趣的是,研究團隊發現了幾個關鍵問題。首先,小型AI模型在工具理解方面表現極差,這意味著目前嵌入在機器人中的AI"大腦"可能還不夠聰明。其次,即使是大型模型也經常在識別相似工具時出錯,特別是在區分各種數字產品時表現糟糕。第三,許多模型會"幻想"工具的可用性,即使工具已經損壞也會盲目推薦使用。

為了解決這些問題,研究團隊還提出了一種名為"視覺中心推理"的改進方法。這種方法就像教導AI"仔細觀察每個細節",通過更細緻的視覺分析來改善其工具理解能力。初步測試顯示,這種方法能夠顯著提升AI的表現。

一、基礎能力測試:AI能認識工具嗎?

PhysToolBench的第一層測試就像是給AI做一個基礎的"工具識別考試"。研究團隊會給AI展示一張包含多種物品的圖片,然後問它:"我需要完成某個特定任務,應該使用哪個工具?"

這聽起來似乎很簡單,就像問一個人"我要切菜,應該用哪把刀"一樣直接。但實際上,這個測試揭示了AI理解工具功能的基本能力。比如,當研究團隊展示一張廚房場景的圖片,裡面有各種刀具、鍋具和餐具,然後問"我需要燉牛尾湯三小時,應該選擇哪個鍋"時,一個真正理解工具的AI應該能夠識別出需要使用帶蓋的大鍋,而不是平底鍋或其他容器。

研究結果顯示,大多數AI模型在這個基礎層面上表現還算不錯,特別是那些參數量超過100億的大型模型,準確率通常能達到60-70%。這就好比一個剛學會做飯的新手,雖然不是專家,但基本的工具選擇還是能夠應付的。

然而,當涉及到一些不那麼常見的工具時,AI的表現就開始下滑。研究團隊發現,AI對於專業工具或者不太常見的器具往往會出現誤判。比如,在區分不同類型的扳手、鉗子或者專業醫療器械時,即使是頂尖的AI模型也會犯錯。

更令人擔憂的是,小型AI模型(參數量少於50億)在這個基礎測試中的表現極差,準確率往往低於50%。這意味著目前許多嵌入在實際機器人或設備中的AI系統,可能連最基本的工具識別都做不好。這就像讓一個對廚房工具完全陌生的人來幫你做飯一樣,結果可想而知。

特別值得注意的是,AI模型在處理數字產品時表現尤其糟糕。當面對各種看起來相似的電纜、充電器或者電子接口時,即使是最先進的模型也經常會搞混。研究團隊測試發現,許多AI無法準確區分HDMI線和DP線,或者混淆Type-C接口和Lightning接口。這種錯誤在現實生活中可能會造成設備損壞或者無法正常工作。

二、深度理解測試:AI真的懂工具的工作原理嗎?

當AI通過了基礎的工具識別測試後,研究團隊設計了更加複雜的第二層測試,專門檢驗AI是否真正理解工具的工作原理和使用條件。這就像是從"認識工具"升級到"會用工具"的考試。

在這個層面,研究團隊設計了三種不同類型的挑戰。第一種是屬性理解測試,要求AI根據特定的使用條件選擇最合適的工具。比如,當任務是"在300度高溫下煎牛排"時,AI需要理解不同材質的鍋具在高溫下的表現差異,從而選擇鑄鐵鍋而不是普通的不粘鍋。這不僅僅是識別工具,更是理解工具的物理特性和適用條件。

第二種是工具組合測試,檢驗AI是否能夠理解某些任務需要多個工具配合完成。就像組裝家具需要螺絲刀、扳手和測量工具一樣,許多現實任務都需要工具的協同工作。比如,"給手機充電"這個看似簡單的任務,可能需要充電器、數據線,有時還需要轉接器。AI需要理解這些工具之間的關係和組合方式。

第三種也是最具挑戰性的可用性判斷測試。研究團隊故意在圖片中放置一些損壞或無法正常工作的工具,然後觀察AI是否能夠識別出這些"陷阱"。這就像在工具箱裡放一把斷了柄的錘子,看AI是否還會推薦使用它來敲釘子。

測試結果令人深思。即使是表現最好的AI模型,在這個層面的準確率也大幅下降。特別是在可用性判斷測試中,幾乎所有的AI模型都表現糟糕,有些甚至比隨機選擇的結果還要差。這揭示了一個令人擔憂的問題:當前的AI模型更多的是在進行表面的模式匹配,而不是真正理解工具的本質功能。

比如,在一個測試案例中,圖片顯示的是一個破損的馬桶疏通器,橡膠杯部分已經開裂無法形成密封。然而,大多數AI模型仍然會推薦使用這個工具來疏通馬桶,完全忽視了它已經無法正常工作的事實。這種"盲目推薦"在現實應用中可能會導致嚴重的後果。

研究團隊還發現,AI模型經常會被工具的外觀所迷惑,而忽視其實際功能狀態。這就好比一個人看到一輛外觀完好的汽車就認為它能正常行駛,卻沒有注意到發動機已經壞了。這種表面化的理解方式暴露了當前AI技術在物理世界理解方面的根本缺陷。

更令人意外的是,專門為機器人應用而訓練的AI模型在這些測試中的表現並不比通用模型好多少。這意味著簡單地在機器人數據上進行訓練並不能自動獲得更好的工具理解能力,可能需要更加針對性的訓練方法和數據。

三、創造性應用測試:當沒有合適工具時AI會怎麼做?

PhysToolBench的最高難度測試模擬了一個我們在日常生活中經常遇到的情況:當標準工具不可用時,如何創造性地利用現有物品來完成任務。這就像是"荒島求生"式的工具使用考驗,真正檢驗了AI的創造性思維能力。

在這個測試中,研究團隊會給出一個需要完成的任務,但在提供的物品中故意不包含專門用於該任務的標準工具。然後觀察AI是否能夠想出替代方案。比如,任務是"擰緊一個平頭螺絲",但圖片中沒有螺絲刀,只有各種日常物品如硬幣、鑰匙、刀具等。一個聰明的AI應該能夠意識到硬幣的邊緣可以插入螺絲槽中,起到螺絲刀的作用。

這種創造性工具使用能力是人類智能的一個顯著特徵,也是真正的通用人工智慧必須具備的能力。當我們在野外露營時用石頭當錘子,用樹枝當撬棒,或者在廚房裡用勺子背面壓蒜泥時,我們展現的正是這種靈活的工具理解和創新應用能力。

然而,測試結果顯示,絕大多數AI模型在這個層面的表現都很差。它們似乎被困在了"標準工具標準用法"的思維模式中,無法跳出既定框架進行創造性思考。當沒有專門的工具時,大多數AI會簡單地回答"無法完成任務"或者"沒有合適的工具",而不是嘗試尋找替代方案。

有趣的是,研究團隊發現AI在這個測試中的表現甚至比中等難度的測試還要好一些。這個看似矛盾的結果實際上揭示了AI思維的一個特點:它們在進行"是否有合適工具"的判斷時,反而比評估"工具是否損壞"更加謹慎。這就好比一個過分小心的助手,在沒有專門工具時會老實地說"我做不了",但在面對損壞工具時卻可能盲目地說"可以用"。

研究團隊還測試了一些更加複雜的創造性應用場景。比如,在沒有專門武器的情況下"製作自衛工具",或者在野外"製作捕獵工具"。這些測試不僅檢驗AI的工具創造能力,還涉及到對物理原理的理解,比如如何利用重力、槓桿原理或者材料特性來實現特定功能。

結果顯示,即使是最先進的AI模型也很少能夠提出真正有效的創造性解決方案。它們往往缺乏對物理原理的深層理解,無法將抽象的物理知識應用到具體的工具創造中。這就像是一個只會背誦物理公式但不會實際應用的學生,知識和實踐之間存在巨大的鴻溝。

四、測試結果分析:AI的"工具盲區"在哪裡?

通過對32個不同AI模型的全面測試,研究團隊發現了當前AI技術在工具理解方面的幾個關鍵問題,這些發現就像給AI做了一次全面的"體檢",揭示了它們的健康狀況和需要改進的地方。

首先,模型規模確實很重要,這就像人的大腦容量會影響學習能力一樣。研究團隊發現,只有當AI模型的參數量超過100億時,它們才開始表現出基本的工具理解能力。那些參數量較小的模型,特別是目前嵌入在機器人系統中作為"大腦"的小型模型,在工具理解測試中的表現極其糟糕,總體得分往往低於15%。這就好比讓一個剛學會說話的孩子去操作複雜的機械設備,結果可想而知。

其次,AI存在嚴重的"長尾問題"。就像人類對常見物品很熟悉,但對罕見物品可能一無所知一樣,AI模型對於常見工具的識別相對較好,但一旦遇到不常見或專業性較強的工具,就會出現明顯的認知偏差。特別是在數字產品領域,即使是最先進的模型也經常會混淆外觀相似但功能不同的設備,比如把HDMI線當成DP線,或者搞錯各種充電接口。

第三個令人擔憂的發現是AI的"幻覺問題"。當研究團隊故意在測試中放置損壞的工具時,大多數AI模型都會"視而不見",仍然推薦使用這些已經無法正常工作的工具。這就好比一個人明明看到錘子的柄已經斷了,卻仍然堅持說它能用來敲釘子。這種現象表明,AI更多的是在進行表面的圖像識別,而不是真正理解工具的功能狀態。

研究團隊還發現了一個有趣的現象:專門為機器人應用而訓練的AI模型並沒有在工具理解方面表現出明顯優勢。比如RoboBrain-2和Embodied-R1這些專門的機器人AI,在測試中的表現甚至略遜於它們的通用版本。這個結果說明,簡單地在機器人數據上進行訓練並不能自動提升工具理解能力,可能需要更加針對性的訓練策略。

另一個重要發現是推理能力的重要性。當研究團隊給AI模型增加了"鏈式思考"提示,要求它們在給出答案前先分析問題時,模型的表現有了顯著提升。那些本身就擅長推理的模型,比如GLM-4.5V和Ovis-2.5-9B,即使參數量相對較小,也能取得不錯的成績。這就好比一個善于思考的人,即使知識量不如博士,但在解決實際問題時可能表現更好。

最令人意外的是,AI在最難的創造性應用測試中的表現,有時竟然比中等難度的工具可用性判斷測試要好。這個看似矛盾的結果實際上揭示了AI思維的特點:它們在面對明顯沒有標準工具的情況時會變得謹慎,但在判斷工具是否損壞時卻可能過於自信。這就像一個過分老實的助手,在沒有工具時會說"我做不了",但面對壞工具時卻可能說"應該還能用"。

五、改進方案:讓AI更好地"看"工具

面對AI在工具理解方面的種種不足,研究團隊並沒有止步於發現問題,而是積極探索解決方案。他們提出了一種名為"視覺中心推理"的改進方法,這種方法的核心思想就是教會AI更仔細、更系統地觀察和分析圖像中的工具。

傳統的AI處理方式就像一個匆忙的人快速掃一眼就下結論,往往會遺漏重要細節。而視覺中心推理就像是訓練一個專業的偵探,教它按照系統化的步驟來觀察和分析現場。這個方法分為三個步驟,就像偵探破案的標準流程一樣。

第一步是全局分析階段。AI首先需要對整個場景進行整體把握,理解用戶的任務需求和可用物品的總體情況。這就像偵探剛到案發現場時,首先要觀察整體環境,了解大致情況,而不是立刻關注某個具體細節。

第二步是細節檢查階段。這是這個方法的核心創新,AI會使用專門的物體檢測工具,像放大鏡一樣仔細檢查圖片中的每個物品。它會將每個物品單獨"取出"進行詳細分析,檢查工具的狀態、材質、尺寸等關鍵屬性。這就好比偵探用放大鏡仔細檢查每一件證據,不放過任何細節。

第三步是綜合推理階段。AI將前兩步獲得的全局資訊和細節資訊進行整合,運用邏輯推理來得出最終結論。這就像偵探將所有線索串聯起來,得出案件的真相。

研究團隊在最困難的工具可用性判斷測試中驗證了這種方法的效果,結果令人鼓舞。使用GPT-4o作為基礎模型時,視覺中心推理方法將準確率從35.54%提升到了45.78%,提升幅度超過10個百分點。當使用更先進的GPT-5時,提升幅度更是達到了18.06%,從36.75%躍升至54.81%。

這種改進方法的成功證明了一個重要觀點:當前AI模型的問題不僅僅在於知識不足,更在於觀察和推理方式的缺陷。它們往往過於依賴語言層面的推理,而忽視了視覺資訊的重要性。這就好比一個人閉著眼睛憑感覺修理機器,即使理論知識再豐富,也很難成功。

研究團隊強調,雖然這種改進方法在理念上並不複雜,也與一些同期研究有相似之處,但它在機器人和智能助手應用中的潛力是巨大的。通過更加細緻的視覺分析,AI可以避免許多低級錯誤,比如推薦使用損壞的工具或者錯誤識別物品功能。

不過,研究團隊也坦承,這種方法目前還只是一個初步解決方案。要真正讓AI具備人類水平的工具理解能力,還需要更多的技術突破和創新。比如,如何讓AI理解更複雜的物理原理,如何提升它們的創造性思維能力,如何處理更加複雜和多變的現實場景等等。

六、對未來的展望:AI助手何時能真正"心靈手巧"?

PhysToolBench的研究結果不僅揭示了當前AI技術的局限性,更為未來智能系統的發展指明了方向。就像一張詳細的"體檢報告"不僅診斷了問題,還為治療方案提供了指導一樣,這項研究為AI領域的發展提供了寶貴的洞察。

研究團隊認為,要讓AI真正具備實用的工具理解能力,需要在多個方面實現突破。首先是模型規模的問題。目前的研究清楚地表明,只有足夠大的模型才能展現出基本的工具理解能力。這意味著未來的機器人和智能助手可能需要更強大的計算能力來支撐更大的AI模型。

其次是訓練數據的質量和多樣性問題。當前的AI模型在處理常見工具時表現尚可,但在面對專業工具或不常見物品時就會出錯。這說明訓練數據中可能缺乏足夠多樣化的工具使用場景,特別是那些涉及專業領域或創造性應用的案例。

第三是推理能力的提升。研究表明,那些具備強推理能力的模型在工具理解測試中表現更好。這提示我們,未來的AI發展不應該只關注模型規模和數據量,還要重視邏輯推理和因果理解能力的培養。

對於普通用戶而言,這項研究的意義在於幫助我們更好地理解當前AI技術的能力邊界。雖然AI在許多方面已經表現出了令人驚嘆的能力,但在需要深度物理世界理解的任務中,它們仍然有很大的改進空間。這意味著在可預見的未來,人類仍然需要在複雜的物理任務中發揮主導作用。

不過,這並不意味著AI在工具使用方面沒有價值。即使在當前的技術水平下,AI仍然可以在許多場景中提供有用的輔助,特別是在工具識別和基礎應用建議方面。關鍵是要了解其局限性,避免過度依賴。

研究團隊還指出,PhysToolBench作為一個開放的評估基準,將有助於推動整個AI領域在工具理解方面的進展。就像標準化考試推動教育質量提升一樣,有了統一的評估標準,研究人員就可以更好地比較不同方法的效果,從而加速技術進步。

從更廣闊的視角來看,這項研究觸及的是AI走向真正通用智能的關鍵問題。工具使用能力一直被認為是人類智能的重要標誌,也是區別人類和其他動物的關鍵特徵之一。如果AI要真正成為我們生活中不可或缺的智能夥伴,它們就必須掌握這種基本而重要的能力。

說到底,PhysToolBench這項研究為我們提供了一個清醒的認知:雖然AI技術發展迅速,但要真正實現通用人工智慧,我們還有很長的路要走。這不僅需要技術上的突破,還需要對智能本質的更深層理解。但正如這項研究所展示的,只要我們能夠準確識別問題、設計合適的評估方法,並持續努力改進,AI終將在各個方面接近甚至超越人類能力。

現在的AI就像是一個擁有豐富理論知識但缺乏實踐經驗的學生,它們知道很多關於工具的資訊,但還不能真正理解工具的本質和靈活運用。但隨著像PhysToolBench這樣的研究不斷推進,相信未來的AI助手會變得更加"心靈手巧",真正成為我們生活和工作中的得力夥伴。

Q&A

Q1:PhysToolBench測試的三個難度等級具體是什麼?

A:PhysToolBench設計了三個遞進的難度等級。第一級是基礎工具識別,測試AI能否認識工具並知道其主要用途。第二級是深度理解,包括根據特定條件選擇最合適的工具、判斷多工具組合使用,以及識別損壞工具的可用性。第三級是創造性應用,當沒有標準工具時,測試AI能否利用現有物品創造替代工具完成任務。

Q2:當前最先進的AI模型在工具理解測試中表現如何?

A:研究結果顯示,即使是最先進的AI模型如GPT-5,在PhysToolBench上的得分也只有63%左右,遠低於人類90%以上的平均水平。大多數AI模型在基礎工具識別上還算可以,但在判斷工具損壞狀態和創造性應用方面表現很差。特別令人擔憂的是,許多模型會推薦使用已經損壞的工具,存在安全隱患。

Q3:視覺中心推理方法是如何改善AI工具理解能力的?

A:視覺中心推理方法通過三步流程改善AI表現:首先進行全局場景分析,然後使用專門工具仔細檢查每個物品的細節狀態,最後綜合所有資訊進行邏輯推理。這種方法讓AI更像人類一樣仔細觀察,而不是匆忙下結論。測試顯示,該方法能將GPT-5在困難測試中的準確率從36.75%提升到54.81%,提升幅度達到18%。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新