卡內基梅隆大學造了26個假App，測試AI手機助手有多懂你

這項由卡內基梅隆大學主導的研究發表於2026年6月，論文編號為arXiv:2606.09764，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

你有沒有想過，如果手機里住著一個真正懂你的AI助手，它能幫你做什麼？不是那種你說"幫我查一下天氣"、它老老實實回答"今天20度"的簡單助手，而是一個真正了解你生活的助手——它知道你常去哪家餐廳、你跟哪些朋友借過錢、你下周有個飛往紐約的航班、你的銀行卡餘額不太夠再多刷一次。這樣的助手，才算真正有用。

問題在於：現有的AI測試，根本沒法考出這種能力。現有的測試方式就像讓廚師考試時只問"怎麼切洋蔥"，從不考"如果鍋里已經有了昨天剩下的食材，你今天該做什麼菜"。這就是卡內基梅隆大學的研究團隊注意到的核心缺口。他們決定親自動手，建造一個能真正測出"懂你"這件事的手機AI基準測試，這個測試叫做**iOSWorld**。

一、為什麼要造一個假的手機世界來測AI

研究團隊發現，當前所有針對手機AI助手的測試，都把任務限定在一個"孤立的沙盒"里——就好比讓一個人在完全陌生的酒店房間裡執行任務，房間裡沒有任何屬於他自己的東西，他不知道自己是誰、不知道自己平時有什麼習慣，也不知道外面的世界發生了什麼。這種測試的結果，只能說明AI能不能按按鈕，而不能說明AI是否真的幫到了你這個真實的人。

更具體地說，現有的測試幾乎全部集中在安卓手機或者電腦桌面上，而iOS（蘋果手機作業系統）雖然占據了美國超過58%的手機市場份額、全球活躍設備超過25億台，卻幾乎沒有專門針對它的AI測試。這個空白非常明顯。

於是研究團隊做了一件聽起來有點瘋狂但實際上很合理的事：他們從頭開始建造了26個完整的iOS應用程式，這些App涵蓋了一個真實人類數字生活的幾乎全部場景——銀行、叫車、外賣、旅行預訂、社交聊天、健身記錄、餐廳訂位、購物、待辦事項……然後，他們給這26個App注入了同一個虛構人物的完整生活數據。這個人叫**喬丹·艾弗里（Jordan Avery）**，居住在舊金山，在一家叫Northstar Studio的公司做自動化工程師，正在訓練半程馬拉松，下周有一班從舊金山飛紐約的航班，每月給朋友Arnav轉650美元房租，最近在Chipotle點了外賣……

贊助商廣告

這26個App里的數據彼此關聯、互相印證，就像真實生活一樣。在外賣App里點了一單Chipotle，銀行賬單里就會出現對應的扣款，郵件收件箱裡也會有收據。SkyTrip里記錄的航班，和StayFinder里的酒店預訂日期對得上，Notes里還有提醒。每一條數據都不是孤立存在的，它們構成了喬丹這個人完整的數字足跡。

這就是iOSWorld的核心野心：不只是測試AI能不能完成一個動作，而是測試AI能不能理解一個人。

二、三種難度的考題，層層遞進考驗AI助手

研究團隊設計了133個測試任務，按照難度分成三大類，就像學校里的小測驗、期中考和期末考一樣，逐級遞進。

最基礎的一類叫"單App任務"，共27道。這類題只涉及一個App，考的是最基本的操作能力，例如在DineSpot（類似OpenTable的訂餐App）里搜索舊金山有戶外座位的餐廳，然後給Harborline Seafood訂一個今晚7點、兩人的位子；或者在QuickChat（類似WhatsApp）里搜索"Brooklyn Half"，找到提到這個詞的對話，然後回復確認已經報名。這類任務的目標是確認AI能正常使用一個App。

第二類叫"多App任務"，共60道，也是三類中數量最多的。這類題要跨越2到8個App，把資訊從一個地方搬運到另一個地方。舉個例子：檢查QuickBite（類似DoorDash）里最近一次Chipotle的訂單，然後去MyBank（類似Chase銀行App）查找對應的刷卡記錄，接著在Mail里找到收據郵件，最後把有沒有價格差異這件事記錄在Notes里。另一道題則是這樣：查看StayFinder里卡塔利娜島的行程（4月18日到21日），查看那幾天的天氣預報，再翻出TasteRank（類似Beli美食榜單App）里"想去嘗試"清單上有沒有附近的餐廳，最後把所有資訊整理進Notes。

第三類叫"記憶與個性化任務"，共46道。這類題是真正考驗"懂你"的難題。題目不會告訴AI應該去哪裡找答案，AI必須自己去探索、發現、推斷。比如：看看CityRide（類似Uber的叫車App）的使用記錄，分析我最常走哪條路線，然後按照這條路線叫一輛車。或者：翻閱TrailBlaze（類似Strava的運動記錄App）里的跑步數據，推斷出我平時的跑步規律和偏愛的路線，查看天氣App看我平時跑步時間段的天氣狀況，然後給我的跑步群發條消息。這類任務平均需要跨越4.4個App，因為推斷一個人的習慣，往往需要從多個數據源里拼湊線索。

贊助商廣告

這133道題並非憑空捏造，而是由一個AI編程助手（Claude Code）仔細閱讀每個App的源代碼和種子數據之後生成的，確保每道題都有真實答案。然後，人工標註員把每道題都在模擬器上親自走了一遍，驗證可行性。最初生成的175道候選題里，有44道因為存在問題——比如不存在的航線、對不上的食物名稱、指向無法到達的App界面——被修正或淘汰，最終留下133道有效題目。

三、AI助手的兩種"視力"：只能看螢幕，還是還能看無障礙數據

在測試這些AI的時候，研究團隊設計了兩種不同的條件，就像測試一個外科醫生——一種是讓他用普通燈光做手術，另一種是給他配上高清頭燈和放大鏡。

第一種條件叫"僅視覺模式"。在這種模式下，AI每一步只能看到手機的截圖，就像普通人用眼睛盯著螢幕。它必須從像素里判斷哪裡有按鈕、哪裡有文字、點哪裡才能前進。螢幕截圖解析度為706×1536像素，坐標系統是0到1000的範圍。AI能做的操作包括：點擊某個坐標、輸入文字、滑動螢幕、按Home鍵、等待幾秒、以及宣布任務完成並給出答案。

第二種條件叫"視覺+XML模式"。在這種模式下，AI除了看截圖，還能額外收到一份由蘋果開發者工具XCUITest提取的"無障礙樹"——這是一份以XML格式呈現的界面元素清單，告訴AI當前螢幕上每個可交互元素的類型（比如按鈕、文本框、列表項）、它的名稱、當前顯示的值、在坐標系統里的精確位置，以及一個用於程序識別的ID。在這種模式下，AI額外獲得了兩種能力：可以直接用元素ID精準點擊，無需估算坐標；還可以用App的包名直接跳轉打開某個App，不用在主螢幕上用眼睛找圖標。

這兩種模式的區別很重要。研究團隊明確指出：在真實部署的環境裡，一個消費級AI助手只有"僅視覺"這種能力，因為XCUITest是蘋果專供開發者的工具，普通App無法調用。所以"僅視覺"的得分反映的是現實中能達到的水平，而"視覺+XML"則代表一個理論上限——如果系統有特權訪問界面數據，AI能達到多好。

贊助商廣告

四、六個AI選手的真實發揮：從不及格到勉強及格

研究團隊測試了六個AI系統，包括五個商業前沿模型和一個開源模型。商業模型方面，測試了Anthropic公司的Claude Opus 4.6和Claude Sonnet 4.6、OpenAI的GPT-5.4和GPT-5.4 Mini，以及Google的Gemini 3 Flash。開源模型則是Qwen3.5 35B-A3B，這是阿里巴巴團隊發布的一個混合專家架構模型，總參數量350億但每次激活的只有30億。每個模型在兩種條件下各跑一遍，共12種配置，每次任務最多允許走50步。

成績說出來可能有點令人意外。在"視覺+XML"模式下，表現最好的是Claude Opus 4.6，整體通過率達到了52%。它在單App任務上拿到了81.5%，在記憶與個性化任務上拿到54.3%，但在多App任務上只有36.7%。Claude Sonnet 4.6緊隨其後，整體46.6%，單App任務甚至高達92.6%。GPT-5.4整體39.8%，而Gemini 3 Flash整體只有28.6%。

開源模型Qwen3.5在兩種模式下都表現不佳，"視覺+XML"整體只有10.5%，"僅視覺"也只有12.8%。更奇特的是，當你給它加上XML數據，它的表現不但沒提升，反而在多App任務上從6.7%直接跌到了0%。

從"僅視覺"模式來看，所有前沿商業模型的整體通過率都擠在20%到29%之間，Sonnet和Opus以29%和26%領跑，而Gemini雖然通過率只有27.8%，但每道題平均只需要21步就能結束，而Anthropic和OpenAI的模型平均要走42到45步，效率上Gemini更高。

還有一個有趣的反轉現象：GPT-5.4 Mini在加上XML數據後，通過率從26.3%跌到了15.8%，有22道原本能過的題變成了失敗。研究團隊發現，XML數據大概每步會多增加約3100個token（可以理解為AI處理資訊的基本單位），這對GPT-5.4 Mini來說已經超過了它有效處理的上限，資訊越多反而越亂。這說明某些模型在容量上存在瓶頸，更多資訊不一定帶來更好表現。

五、為什麼XML的幫助如此巨大，以及失敗的三種方式

加上XML數據之後，強模型的提升幅度非常顯著：Opus從26.3%上升到51.9%，整整漲了25.6個百分點；Sonnet從28.6%漲到46.6%；GPT-5.4從20.3%漲到39.8%。

贊助商廣告

這麼大的提升背後，原因其實並不神秘。在只能看截圖的情況下，iOS手機存在幾個讓AI特別頭疼的問題。密密麻麻的界面讓坐標估算非常容易出錯，一個小小的切換開關可能只有幾像素寬，視覺判斷稍有偏差就點錯了位置。從主螢幕切換App需要找到圖標，但圖標也可能在不同頁面，這本身就是好幾個步驟的障礙。iOS沒有安卓那種通用的返回鍵，返回必須靠界面左上角的按鈕或者從螢幕左邊緣向右劃，這個操作很多AI基本不會主動用——研究數據顯示，在總計12255次滑動操作里，只有133次（1.1%）是左邊緣向右的返回滑動。

研究團隊統計了422個前沿模型在"視覺+XML"模式下的失敗案例，把失敗原因分成三類。最常見的是"耗盡步數"，占51%——AI沒幹完就用完了50步的預算，通常發生在多App任務（55%）和記憶任務（52%）上。第二類是"放棄了"，占26%，指AI在沒完成任務的情況下提前停止，最終得分低於67%，GPT-5.4 Mini有47%的失敗屬於這種。第三類是"過早停止"，占23%，指AI差不多快做完了但停早了，最終得分在67%以上，這種情況在單App任務里最多（48%）。

Qwen3.5的失敗模式則完全不同。它在加上XML之後，有約50%的失敗案例是陷入了重複動作的死循環——比如在設置6:45鬧鐘這個簡單任務里，它在時間滾輪上連續發出了38次一模一樣的向下滑動操作，從第6步到第46步，既沒改成正確時間，也沒設置標籤，也沒點保存，就這樣把50步預算全部浪費掉了。

六、一個五應用綜合財務分析的成功案例，以及三個讓人扼腕的失敗案例

研究團隊在論文裡展示了幾個具體的運行軌跡，讓人對AI的實際表現有更直觀的感受。

Opus在"視覺+XML"模式下成功完成了一項需要跨越五個App的財務匯總任務。任務要求是："給我一個全面的財務情況總覽。檢查MyBank的賬戶餘額、SplitPay的待處理請求、MegaMart的訂閱情況、FreshCart的即將送貨訂單，以及CloudDocs里的預算表格，並預測下個月的支出。"Opus在第3步就從MyBank里拉出了賬戶餘額，第7步查看了SplitPay里的待還款記錄，第22步打開了CloudDocs里的預算追蹤表格，第28步寫完了跨越五個App的綜合分析，全程只用了29步，滿分通過。

贊助商廣告

另一個成功案例是Opus完成了一個DineSpot訂位加TeamChat通知的連續任務——在DineSpot找到一家舊金山有戶外座位的餐廳並訂了位，然後跑去TeamChat的#general頻道把預定細節發給團隊。"視覺+XML"版Opus用22步完成，而同一個模型在"僅視覺"模式下則卡在了外賣結賬頁面的一個小小支付確認開關上，用完50步都沒打開TeamChat，最終得分只有0.20。

失敗的案例同樣具體。Opus在一個通勤模式分析任務里走到了第24步才到達MyBank的交易記錄界面，但等到第50步預算用完時，CloudSheets里的數據還沒錄完，最終得分0.45。GPT-5.4在一個叫車任務里，把出發時間和預計費用都查對了，卻在走了8步之後停在了最後"請求叫車"的按鈕面前，沒有點那個按鈕就宣布完成，得了0.80分。還有一個記憶任務，Opus翻查了Notes里的生日資訊、在QuickChat里找到了家人的討論、在MegaMart里找到了合適預算範圍內的禮物，但等它想去DineSpot訂餐廳時，50步已經耗盡，被加入等候名單了事，得分0.50。

七、用步數換精度，以及評分的公正性如何保證

每道題最多50步的限制，並不是隨意定的。研究團隊繪製了"步數預算-通過率曲線"，發現單App任務在走到第20步時就基本飽和了，再多走也沒什麼提升空間。多App任務則一直到第40步都還在持續改善，說明這類任務本身需要更多操作空間。記憶與個性化任務的曲線則參差不齊，Opus在走到第30步時整體通過率只有17%，但到第50步時跳到了54%，說明這類任務的後半段存在大量關鍵突破，截斷太早會嚴重低估其能力。

至於評分的公正性，研究團隊採用了"LLM-as-a-Judge"的方式——用GPT-5.4 Mini來批改每一道題。批改時，它會看到整條操作軌跡（包括每一步的截圖和操作記錄）以及AI最終給出的答案，然後根據配套的評分標準（每道題有4到13條可獨立核查的評分細則，平均8.4條）給出一個通過或失敗的判斷。

贊助商廣告

為了驗證這個自動批改有沒有偏差，研究團隊找了4個人工標註員，在128條Opus軌跡上獨立評分，然後與AI批改進行對比。結論是：任務級別的一致性達到89%，Cohen's kappa值為0.77（這是衡量兩個評判者之間一致性的統計指標，0.77屬於"高度一致"的範圍）。細則級別的kappa為0.69，Pearson相關係數為0.85，說明兩者對同一批數據的判斷高度吻合。148處分歧里，AI偏寬鬆（把失敗判成通過）79次，偏嚴格（把通過判成失敗）69次，沒有明顯的系統性偏向。

研究團隊還測試了換用其他AI來當批改員會不會影響結論，結果發現Gemini 3 Flash、GPT-5 mini等換用其他批改員後，結論基本一致。唯一的異常是GPT-5.4（完整版）當批改員時，它會過度嚴苛地拒絕，在128條軌跡里只有1個誤判為通過，卻有27個誤判為失敗，是所有批改員里表現最差的。

八、給開源模型裝上專屬工具，表現能翻倍

研究團隊還做了一項有趣的額外實驗，專門針對表現最差的Qwen3.5開源模型。這個實驗的目的是驗證一個猜想：Qwen3.5之所以表現差，到底是因為它腦子不夠用（模型能力不足），還是因為給它的操作工具太笨拙（界面工具不合適）？

實驗做法是：保持模型、任務、評分和50步預算都不變，只把操作工具換掉——把原來那7個通用動作（點擊、滑動、輸入等）換成專門為每個App定製的高層工具，比如caltrack.log_food（記錄一餐到CalTrack里）、mybank.send_zelle（用MyBank發一筆Zelle轉賬）。這套定製工具通過MCP 卡內基梅隆大學造了26個假App測試AI手機助手有多懂你（模型上下文協議）伺服器提供，截圖依然保留，但操作的顆粒度從"點這個坐標"變成了"執行這個語義動作"。

結果很說明問題：通過率從12.8%跳升到24.8%，平均評分細則完成度從0.33提升到0.683，幾乎翻了一倍。同樣一個Qwen3.5模型，面對同樣的133道題，僅僅因為手裡拿到了更好用的工具，成績就大幅提升。不過即便如此，它依然落後於所有前沿商業模型，說明工具固然重要，基礎能力也是瓶頸。

贊助商廣告

從論文附錄里展示的具體案例可以看出差距的來源：同一道DineSpot訂位題，Qwen3.5用定製工具17步完成並滿分通過，而用通用工具則在篩選菜單上卡了整整50步，最後連預約都沒做到，只得了0.25分。

九、這項研究還留下了什麼，以及未來還能走多遠

iOSWorld作為一個開源測試平台，在發布時包含了所有26個App的完整源代碼、喬丹·艾弗里這個人物的全部種子數據、133道測試題及其評分細則，還有評估代碼和一個AWS雲跑通方案——因為跑這個測試需要macOS和Xcode，不是人人都有Mac電腦，所以研究團隊提供了EC2管理的Mac雲實例，讓沒有蘋果硬體的研究人員也能提交任務。

從數字的角度來看當前的局限性也很清晰：最好的模型組合（Opus + 視覺+XML）整體才過了52%，而多App任務只有37%。51%的失敗案例是在走完50步之後依然沒做完任務。這意味著當前的AI在處理真實生活的複雜連環任務時，依然存在相當大的能力缺口。研究團隊在結論中指出，要關閉這個缺口，需要三方面的進展：更強的循環檢測與自我糾錯能力（避免反覆做同樣的事）、更精準的視覺定位能力（在密集界面里準確點到目標），以及能夠感知用戶歷史數據的規劃能力（真正把喬丹是誰、有什麼習慣融入推理過程）。

此外，iOSWorld目前只有一個虛構用戶（喬丹·艾弗里）。研究團隊已經開放了種子數據框架和任務生成流水線，任何人可以按照同樣的方式創造一個新的虛構人物並生成對應的任務集，支持未來的多用戶、多場景評測擴展。

歸根結底，這項研究做的事情聽起來很簡單：造了26個假App，塞進一個虛構人物的生活數據，然後考了幾個AI助手。但它真正挑戰的問題卻很深刻——一個AI助手，到底算不算懂你？現在的答案是：懂一點，但遠遠不夠。單獨用一個App時還湊合，一旦任務需要跨越多個App、調用你的歷史和習慣，最聰明的AI也只能做到一半。手機里那個"懂你的助手"，還需要走很長一段路。

贊助商廣告

---

Q&A

Q1：iOSWorld測試和現有的手機AI測試有什麼不同？

A：iOSWorld的最大不同在於它給AI注入了一個真實用戶的完整生活數據。現有測試通常是讓AI在空白App里完成孤立任務，而iOSWorld里的26個App全部共享同一個虛構用戶喬丹·艾弗里的數據——銀行賬單、聊天記錄、外賣歷史、航班預訂等互相關聯，就像真實的手機一樣。測試的任務也因此更難，需要AI跨多個App理解用戶習慣並做出推斷。

Q2：視覺+XML模式為什麼能讓AI表現好這麼多？

A：加上XML數據之後，AI可以直接知道螢幕上每個按鈕的精確位置和名稱，不需要從截圖里估算坐標。還能用App的程序ID直接跳轉打開任何App，不必在主螢幕上找圖標。這消除了iOS界面里的很多障礙，比如小按鈕難點、切換App容易走錯、沒有通用返回鍵等問題。數據顯示，Opus的整體通過率因此從26.3%提升到51.9%，漲了將近26個百分點。

Q3：Qwen3.5開源模型為什麼在加上XML之後反而表現變差了？

A：主要原因是XML數據讓每一步需要處理的資訊量大幅增加，大約每步多出3100個token。對於Qwen3.5這個規模的模型來說，這超過了它能有效處理的上限，資訊太多反而導致它頻繁陷入重複動作的死循環——比如在同一個地方連續滑動38次都不知道換動作。這說明更多的輸入資訊並不總是有幫助，模型的處理能力本身才是瓶頸。