宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

研究指AI助理仍會發生失誤 針對Claude Computer Use模式進行測試

2024年11月24日 首頁 » 熱門科技

研究指AI助理仍會發生失誤 針對Claude Computer Use模式進行測試


Anthropic於去年10月推出了Claude「Computer Use」功能,可以讓大型語言模型直接控制電腦,進行各種操作。新加坡國立大學Show Lab對此進行深入測試,研究目前AI代理的能力與限制。

Claude的Computer Use功能屬於GUI(圖形用戶界面)代理,也就是通過分析真人用戶看到的界面,針對指令進行互動,讓用戶無需API即可自動化各種操作。研究團隊測試了Claude在網頁搜索、工作流程、辦公生產力和遊戲等方面的表現,並從規劃、執行和評估三個維度進行評估。

研究結果顯示,Claude在執行複雜任務方面表現出色。它能夠合理規劃多步驟任務、協調不同應用程序之間的操作,並持續評估進度。然而,模型也經常出現一些真人不會犯的基本錯誤,例如未能滾動網頁找到按鈕,或是在簡單的文本編輯時失誤,而且模型往往無法正確評估自己的錯誤。

研究認為對企業而言,目前這項技術尚未成熟到可大規模部署的程度。模型行為的不穩定性可能帶來不可預測的結果,且通過GUI界面執行工作的效率遠低於API。研究人員建議,這類工具更適合用於產品團隊的創意探索和方案疊代,而非直接用於生產環境。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新