AI助手真的能幫你訂機票、投簡歷嗎？英屬哥倫比亞大學等多所高校聯合揭開真相

這項由英屬哥倫比亞大學、滑鐵盧大學、Vector Institute、卡內基梅隆大學、上海交通大學、浙江大學、香港科技大學、清華大學等十餘所高校與研究機構聯合開展的研究，於2026年4月以預印本形式發布在arXiv平台，論文編號為arXiv:2604.08523。

贊助商廣告

你有沒有想過，讓AI幫你訂一張機票、在招聘網站投一份簡歷、或者在寵物用品平台下單買貓糧？聽起來很美好——只要動動嘴皮子，AI就把事情全辦了。事實上，已經有不少人開始相信AI助手正在迅速接近這個目標，畢竟你時常能聽到"AI完成了某某基準測試，得分高達70%"之類的新聞。

然而，當研究團隊真正把AI放到真實的網站上，讓它去完成這些普通人每天都要做的事情時，結果卻相當出乎意料。即便是目前公認最強的AI模型，也只能完成大約三分之一的任務。這個發現不是在說AI很差，而是在說：我們此前用來測量AI能力的"尺子"，可能一直量錯了地方。

這項研究的核心產出，是一個名為ClawBench的評測框架。它橫跨153個真實網路任務、144個正在運營的真實網站、15個生活類別，從日常購物、旅行預訂、求職申請，到學術註冊、寵物服務、金融操作，幾乎涵蓋了普通人在網上能碰到的所有需要"動手操作"的場景。更重要的是，這些任務都在真實的網站上運行，而不是搭建的模擬環境。

一、AI做網路任務，到底難在哪裡

要理解這項研究為什麼重要，先要搞清楚"讓AI完成網路任務"這件事，究竟難在哪裡。

假設你讓一個朋友幫你在某個旅遊網站上訂一張從北京飛上海的機票，經濟艙，12月31日出發，單程。對於你的朋友來說，這件事不過需要幾分鐘：打開網站、填寫出發地和目的地、選擇日期、選擇艙位、找到合適的航班、點擊預訂，在確認頁面再核對一遍資訊，最後提交。整個過程看似簡單，但中間涉及無數個小步驟：網站可能彈出一個Cookie同意彈窗需要先點掉，日期選擇器的交互方式可能跟別的網站不一樣，某些選項藏在下拉菜單里需要點兩次才能展開，還有可能遇到驗證碼……

贊助商廣告

這些在人類眼中只是"小麻煩"的東西，對AI來說卻是真實的挑戰。現實網站不像教科書，它們是動態的、不斷變化的，充滿了各種JavaScript動態渲染的內容、各種意想不到的交互設計、各種需要登錄驗證的環節，以及各種針對機器人的防禦機制。

過去，研究者們為了讓測試變得可控和可重複，通常會搭建一個"沙盒環境"——就像在一個精心布置的攝影棚里拍照，而不是在真實街道上拍攝。這些沙盒環境裡的網站是靜態的HTML頁面，DOM結構（可以理解為網頁的骨架結構）是固定不變的，不需要登錄，沒有動態內容，沒有彈窗，沒有Cookie提示。在這樣一個被極度簡化的環境裡，AI的表現自然會好看很多。

正是因為這個根本性的差距，那些在舊式測試中表現亮眼的AI，一旦放到真實的網站上，就會原形畢露。研究團隊把這個現象稱為"基準測試飽和"——不是AI真的很強了，而是測試題太簡單了。

二、一把真正難用的"尺子"是如何造出來的

ClawBench的設計思路，說白了就是：既然要測真實能力，就必須在真實環境裡測。但真實網站有個大問題——如果AI真的幫你在購物網站下了單、在招聘網站投了簡歷、在餐廳平台訂了位子，這些操作可能會產生真實的後果，比如真的被扣款、真的提交了一份不該提交的申請表。

研究團隊解決這個問題的方式非常精巧，就像在現實賽道上安裝了一個"最後一步剎車"。他們開發了一個輕量級的Chrome瀏覽器擴展程序，配合一個基於CDP（Chrome開發者工具協議）的監控伺服器。這套系統會在AI操作整個過程中安靜地旁觀，完全不干預AI與網站的任何交互——彈窗讓AI自己處理，動態頁面讓AI自己應對，登錄環節讓AI自己摸索——直到最後那一刻，當AI即將點下"提交訂單"或"發送申請"這個最終的、不可逆的按鈕時，系統會在這個HTTP請求真正發出之前把它攔截下來，記錄下AI填寫的所有內容，然後阻止這個請求真正到達伺服器。

贊助商廣告

這樣一來，AI經歷的是完整的、真實的網站操作過程，但最終那個會產生真實後果的動作被悄悄"攔截"了。整個過程對AI來說是完全透明的，它不知道有人在"最後一秒"按了剎車，所以它會像真正要提交一樣認真操作。這確保了測試的真實性，同時又保證了零副作用——沒有真實訂單被提交，沒有真實申請被發出。

任務庫的構建同樣經過了嚴格的篩選流程。研究團隊的人工標註員逐一訪問各類平台，設計出真實的用戶場景，並親自在同樣的系統下完成每一個任務，留下"人類參考軌跡"作為標準答案。整個153個任務的最終數據集，經歷了多輪篩選，去掉了需要付費訂閱的任務、地理限制導致無法訪問的任務，以及已經下線的網站上的任務。每一個攔截信號——也就是那個"最後剎車"的觸發條件——都由人類專家手動標註，明確指定是哪個URL、哪種HTTP請求方法、哪些表單欄位，以確保攔截系統不會誤攔良性操作，也不會漏掉真正的提交動作。在對全部153個任務的驗證中，這套攔截機制的準確率達到100%，沒有一次誤觸發。

三、給AI裝上"行車記錄儀"：五層數據記錄系統

ClawBench另一個值得細說的設計，是它的五層行為數據記錄系統。以往很多測試只看最終結果——AI有沒有完成任務，成了就是1分，沒成就是0分。但ClawBench想知道的不僅僅是結果，還有"為什麼失敗"以及"在哪一步出了問題"。

為了實現這一點，系統在AI操作的每一個瞬間都同時記錄五類數據。第一層是會話錄像，通過Xvfb虛擬顯示器加上FFmpeg錄屏工具，把AI整個操作過程的瀏覽器畫面完整錄製下來，就像給AI裝了一台行車記錄儀。第二層是動作截圖，每當AI執行一個操作（點擊、輸入文字、滾動頁面），系統就立刻截一張屏，記錄下那一刻的頁面狀態。第三層是HTTP流量日誌，記錄AI的操作引發的所有網路請求，包括請求的內容、時間和目標地址，最終被攔截的那個提交請求也屬於這一層。第四層是AI自身的"思考記錄"，AI在每一步決策時產生的推理過程、工具調用記錄和中間輸出，都以結構化的JSON格式保存下來。第五層是底層瀏覽器動作日誌，記錄鼠標點擊的坐標、鍵盤輸入的內容、頁面滾動的距離、標籤頁切換等低層次操作，這份記錄獨立於AI的自我匯報，可以作為交叉核驗的依據。

贊助商廣告

人類標註員在同樣的系統下完成每一個任務，也會產生同樣格式的五層記錄。這樣，AI的記錄和人類的記錄就形成了完全可以逐層對比的平行結構。當一個任務失敗時，開發者可以像偵探翻閱案件檔案一樣，逐層查看AI當時看到了什麼頁面、做出了什麼判斷、執行了什麼操作、最終提交了什麼數據，然後與人類參考記錄逐步對照，精確定位失敗發生在哪一步、原因是什麼。

四、如何判斷AI到底有沒有完成任務

有了這些記錄，接下來的問題是：誰來判斷AI做的對不對？

ClawBench的答案是用另一個AI來做裁判——具體來說，是調用Claude Code這個具有代碼執行和分析能力的AI子系統，在一套固定的評估規則下，把AI的完整軌跡記錄和人類參考軌跡記錄放在一起進行比對分析。這個評估AI不只是看最終狀態，而是進行逐步對齊：找出AI和人類在對應步驟上的差異，檢查每一個必填欄位是否填寫正確，判斷AI最終到達的狀態是否與人類參考軌跡等價。最終輸出一個二元判定（通過或失敗），並附上結構化的理由說明，指出具體是哪個欄位填錯了、哪一步走偏了。

這套評估體系還制定了一些特殊情況的處理規則。如果任務被驗證碼或手機號驗證阻斷，但AI在此之前的所有操作都是正確的，那麼判定為通過——因為這是網站本身對自動化工具的防禦，不是AI能力的缺陷。如果任務中出現驗證碼但AI根本沒有嘗試處理，則判定為失敗。這些規則的存在，讓評判標準更貼近"真實能力"的考量，而非機械地要求AI繞過所有人類安全機制。

五、153個任務涵蓋了哪些真實生活場景

ClawBench的153個任務被組織成一個兩級分類體系。在宏觀層面，分為八大類別：日常生活類、工作類、開發技術類、社交類、學術類、旅行類、寵物類和金融類。每個大類下面再細分出具體的子類別，總共形成15個細分方向，包括日常生活與購物與娛樂、求職與辦公室與個人管理、學術與教育、旅行、寵物、金融，以及開發技術與自動化、評分與社交等。

贊助商廣告

這些任務的性質非常具體，都是普通人在生活中真實需要完成的操作，而且每一個都涉及在網站上提交某種"最終動作"——填寫並提交表單、完成購買流程、發出預訂請求、提交申請材料等。這一類任務被研究團隊稱為"寫入型任務"（write-heavy tasks），與單純在網上查資訊的"只讀型任務"形成對比。研究者選擇聚焦在寫入型任務，正是因為這類任務在過去的測試體系中幾乎是空白，但在現實生活中卻是人們最需要AI幫忙的那部分。

六、七個頂尖AI模型的真實考場成績單

研究團隊在ClawBench上測試了7個當前最主流的前沿AI模型，其中包括5個商業閉源模型：Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Flash Lite、Claude Haiku 4.5、Gemini 3 Flash，以及2個開源模型：GLM-5和Kimi K2.5。

整體結果相當清晰地描繪出了當前AI能力的真實邊界。排名第一的Claude Sonnet 4.6完成了33.3%的任務，第二名GLM-5完成了24.2%，第三名Gemini 3 Flash完成了19.0%，第四名Claude Haiku 4.5完成了18.3%。而GPT-5.4隻完成了6.5%的任務，Gemini 3.1 Flash Lite完成了3.3%，排名最末的Kimi K2.5僅完成了0.7%——幾乎可以認為是基本失能。

這個結果的反差感在與其他測試的對比中更加突出。Claude Sonnet 4.6在OSWorld（一個基於虛擬機沙盒的作業系統任務測試）上的得分是72.5%，在WebArena（一個基於自託管沙盒的網頁任務測試）上的得分是75.0%，而在ClawBench上只有33.3%。GPT-5.4在同樣這兩個舊測試上分別得了66.4%和67.3%，在ClawBench上卻只有6.5%。這兩個數字之間的懸殊差距，清楚地說明了一件事：在受控沙盒裡表現出色，並不等於在真實網路環境中具備實際能力。

從細分類別來看，不同模型在不同類別上的表現也大相徑庭，沒有任何一個模型在所有類別上都占主導地位。Claude Sonnet 4.6在日常生活類（44.2%）、金融類（50%）、學術類（50%）和社交類（38.9%）表現最好；GLM-5在工作類（38.1%）表現領先；Gemini 3 Flash在旅行類（30.8%）拔得頭籌；Claude Haiku 4.5則在開發技術類（27.8%）相對占優。這種分散的領先格局說明，當前的AI在不同領域的能力發展並不均衡，還沒有任何一個模型能夠在日常網路任務上展現出全面穩定的勝任能力。

贊助商廣告

七、ClawBench與其他測試框架的根本區別

為了讓讀者更清楚地理解ClawBench的定位，有必要把它和目前主流的幾個同類測試框架放在一起比較。

WebArena有812個任務，但全部運行在5個自託管的沙盒網站上，使用的是腳本化驗證，沒有行為軌跡記錄，也沒有人類參考軌跡。VisualWebArena類似，910個任務只覆蓋3個自託管網站，偏向視覺任務。OSWorld有369個任務，覆蓋9個應用程序，運行在虛擬機沙盒裡，使用腳本加截圖的方式驗證，沒有人類參考軌跡。Mind2Web覆蓋了2350個任務和137個真實網站，但測試的是動作序列的匹配，而非端到端的任務完成，且只有部分人類參考軌跡。WebVoyager在真實網站上運行，有643個任務覆蓋15個網站，但全部是只讀資訊檢索型任務，用AI作為裁判打分，只有截圖記錄。

ClawBench則是在144個真實網站上運行153個任務，全部是寫入型的狀態改變任務，使用基於人類參考軌跡的Agentic Evaluator進行五層對比評估，並為所有任務提供完整的人類參考軌跡。這套組合——真實網站、寫入型任務、人類參考軌跡、五層記錄、可追溯的失敗診斷——在現有所有測試框架中是獨一無二的。

研究團隊還在圖表中展示了一個"基準飽和曲線"，列出了Claude Sonnet 4.6在一系列測試上的得分從高到低排列：PinchBench 88.0%、WildClawBench 77.6%、WebArena-Verified 72.5%、OSWorld-Verified 66.4%、Claw-Eval 51.1%、ClawBench 33.3%。這條下降曲線非常直觀地說明：測試越接近真實世界的複雜性，AI的得分就越低。ClawBench在這條曲線的末端，是目前最接近真實挑戰的測試。

說到底，ClawBench這項研究揭示的核心資訊並不複雜：我們以為AI已經很能幹，很大程度上是因為我們用來測量它能力的工具，本身就被設計得過於"友好"。真實網站的混亂、動態、複雜，才是AI真正需要面對的考場，而在這個考場上，最強的選手也只能拿到三分之一的分數。這當然不意味著AI一無是處，它只是意味著，在AI真正能幫你搞定機票、簡歷和外賣之前，還有相當長的路要走。對於普通人來說，這項研究是一個有益的提醒：目前AI作為"網路操作助手"的能力，遠不如各種宣傳材料描述的那麼成熟可靠，在真正把敏感任務交給AI之前，還是要多留一個心眼。對於AI研究者和開發者來說，ClawBench提供的不僅是一個更難的考題，還有一套詳盡的失敗診斷工具——它能告訴你AI具體在哪一步卡殼了，這對於改進AI的實際能力，遠比一個籠統的分數有價值。

贊助商廣告

有興趣深入探究這一研究的讀者，可以通過arXiv編號2604.08523查閱完整論文，也可以訪問研究團隊的項目主頁claw-bench.com獲取更多資訊和數據集。

Q&A

Q1：ClawBench和WebArena這類舊測試有什麼本質區別？

A：WebArena等舊測試在自託管的沙盒網站上運行，網頁結構固定、沒有彈窗和動態內容，相當於在一個特別簡化的"練習場"里考AI。ClawBench則直接在144個真實運營的網站上測試，AI要面對Cookie彈窗、動態頁面、驗證碼等真實挑戰，同時測的任務都是需要填表單、提交訂單等會改變伺服器狀態的操作，更貼近人們日常真正需要AI完成的事情。

Q2：ClawBench測試怎麼保證AI不會真的在網站上下單或提交申請？

A：研究團隊開發了一個Chrome瀏覽器擴展程序，在AI操作全程安靜旁觀不干預，直到AI觸發最終提交的HTTP請求時，系統在請求發出之前將其攔截，記錄下AI填寫的內容，但阻止它真正到達伺服器。AI的整個操作體驗是完整真實的，只有最後那一下被悄悄"剎住"，確保零真實副作用。

Q3：目前最強的AI模型在ClawBench上的通過率是多少？

A：目前在ClawBench上表現最好的是Claude Sonnet 4.6，通過率為33.3%，意味著153個任務里大約只能完成51個。排名第二的GLM-5通過率為24.2%，而GPT-5.4隻有6.5%，Kimi K2.5更是只有0.7%。這與這些模型在舊式測試上動輒65%-75%的得分形成了鮮明對比。