這項由中國科學院自動化研究所牽頭,聯合北京大學、香港中文大學共同完成的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.26114。有興趣深入了解技術細節的讀者,可以通過該編號在arXiv平台上查閱完整論文。
**手機里的AI助手,為什麼還學不會幫你訂票?**
每天早上,你打開手機,可能需要在微信里回幾條消息、在支付寶轉一筆賬、在12306搶一張回家的票。這些事情對你來說輕而易舉,但對AI來說,卻是一道至今沒有完全攻克的難關。能看懂手機螢幕、能模擬手指點擊、能理解你的口頭指令然後一步步幫你完成這些日常操作的AI——研究界稱之為"移動端圖形界面智能體",通俗說就是"手機AI代理"——近年來進步飛速,卻始終卡在一個核心瓶頸上:缺少一個既能反覆練習、又能客觀評分的訓練和測試環境。
這就好比你要培養一個計程車司機,卻既沒有模擬駕駛器、也沒有考官評分表,只能把學員直接放到真實馬路上去闖。真實馬路上的問題多得數不清:每次練習的交通狀況不一樣,練習結束之後道路狀態還被永久改變了,無法重置,而且一旦出了事故就是真實損失。這正是當前手機AI研究面臨的困境。
來自中科院自動化所的研究團隊決定為這個問題打造一個解決方案。他們構建的這套名為MOBILEGYM的系統,本質上是一個運行在瀏覽器里的"手機模擬訓練場"——裡面的每一個APP、每一條消息、每一筆訂單都是虛擬的,AI可以在裡面反覆練習、犯錯、重來,研究人員也可以隨時知道AI做得對不對,整個過程既安全又可量化。
**一、手機AI為什麼難訓練?真實世界有四道"鐵牆"**
在理解MOBILEGYM的設計思路之前,有必要先搞清楚為什麼訓練手機AI如此困難。這背後有四道看似簡單、實則難以逾越的障礙。
第一道障礙叫做"狀態不可讀"。當你在支付寶里查餘額,這個數字存在支付寶的伺服器里,外部程序無法直接讀取它。AI模擬的點擊操作結束後,研究人員想判斷AI有沒有真正完成任務,只能靠截圖來猜測,而截圖往往只是冰山一角。更成問題的是,如果讓另一個AI來看截圖、判斷任務是否完成,這個"裁判AI"本身也會犯錯,誤判率相當高——後文會提到,研究團隊測試下來發現裁判AI的誤判率高達10.2%。
第二道障礙叫做"狀態不可寫"。要讓AI反覆練習同一個任務,你需要能在每次練習開始前把APP恢復到同一個初始狀態。但真實APP的數據散落在伺服器、本地緩存、賬號後台各處,根本無法像按一個按鈕一樣統一重置。
第三道障礙叫做"狀態不可複製"。當前最有效的AI訓練方法之一,叫做強化學習中的分組策略優化(GRPO),它要求從完全相同的起點出發,同時進行多條平行練習軌跡,然後比較哪條軌跡表現更好。但真實APP里,兩個平行練習的初始狀態不可能完全一致,賬號狀態、推送內容、後台數據都在隨時變化。
第四道障礙叫做"操作不可逆"。在真實APP里練習轉賬、註銷賬號、批量刪除數據,一旦操作執行就無法撤銷,而且會產生真實的經濟損失或賬號風險,這讓大規模訓練在現實中根本無法實施。
現有的兩種解決路徑都不理想。一種是用安卓模擬器,雖然可以重置、可以評分,但覆蓋的APP種類主要是系統工具類的開源應用,缺少微信、支付寶、12306這類真實日常APP,而且每個模擬器實例需要占用約4.5GB內存、啟動時間將近80秒,想要同時運行幾百個平行實例幾乎是奢望。另一種是用真實手機,覆蓋了真實APP,但以上四道障礙全部存在,價格昂貴,還無法並行擴展。
MOBILEGYM選擇了第三條路:既然手機AI只需要看螢幕、點螢幕,那隻要能做到"螢幕上的內容和真實APP一樣逼真",其實並不需要真的運行那個APP。就像拍電影不需要真的炸掉一棟樓,用特效做一個視覺上以假亂真的爆炸場景就夠了。MOBILEGYM在瀏覽器里用代碼重新實現了28個常見APP的核心交互邏輯和視覺界面,讓AI在裡面的所有操作體驗,和在真實APP里幾乎沒有區別。
**二、MOBILEGYM的核心設計:一個可讀、可寫、可複製的"JSON世界"**
MOBILEGYM最關鍵的設計決策,是用一種叫做JSON的結構化數據格式來表示整個手機環境的狀態。
JSON是一種電腦里常用的數據記錄格式,你可以把它理解成一本非常精密的賬本。MOBILEGYM里,用戶的聯繫人列表、所有訂單記錄、賬戶餘額、消息記錄、APP設置——所有這些東西都被記在這本"賬本"里。這樣一來,之前的四道"鐵牆"就全部迎刃而解。
狀態可讀:想知道AI有沒有成功幫你買到票,只需要檢查賬本里的訂單條目是不是新增了一條正確的記錄,完全不需要AI裁判來看截圖猜測。狀態可寫:想把環境重置到某個特定初始狀態,直接把賬本改成那個狀態就行,就像把Excel表格里的數字改回去一樣。狀態可複製:想從同一個起點出發運行100條平行練習軌跡,只需要把這本賬本複製100份,分發給100個瀏覽器實例,每個實例都從完全相同的初始狀態出發。操作可逆:AI在這個系統里發的消息不會真的發給任何人,轉的賬不會真的扣任何錢,所有"後果"都只是賬本里數字的變化,練習結束後把賬本恢復原樣就好。
在內存和啟動速度上,MOBILEGYM的優勢非常顯著。每個瀏覽器實例只需要約400MB內存,啟動時間約3秒。這意味著一台普通伺服器可以同時運行數百個平行實例,而同等條件下的安卓模擬器方案需要的資源大約是它的十倍以上。研究團隊在實際測試中,用一台伺服器同時運行了256個平行實例,整個256個任務的基準測試只需要約6分鐘就能跑完,而且CPU占用率不超過10%,內存總消耗約100GB。相比之下,據公開報道,某個基於安卓模擬器的大規模訓練項目需要10台裸金屬雲伺服器、合計3840GB內存才能運行512個並行實例。
MOBILEGYM的狀態模型在設計上也非常精巧。它把整個環境的數據分成三層:第一層是"世界數據",包含所有用戶可見但AI不能修改的公開內容,比如電商平台上的商品資訊、社交平台上的公共帖子;第二層是"運行時覆蓋層",包含當前用戶的私人數據,比如購物車內容、消息記錄、賬戶設置,這是AI可以修改的部分;第三層是"作業系統運行時",負責管理APP的打開關閉、返回鍵邏輯、通知欄等系統級行為。只有第二層會被記錄和追蹤,這樣每次保存環境狀態時只需要儲存這一小部分數據,快如閃電。
**三、MOBILEGYM-BENCH:416道精心設計的"考題"**
光有訓練場還不夠,還需要一套標準考卷才能知道AI到底學到了什麼程度。研究團隊基於MOBILEGYM構建了一個配套的基準測試集,叫做MOBILEGYM-BENCH,包含416道任務題目,其中256道用於測試、160道用於訓練,兩套題目完全不重疊。
這416道題覆蓋了28個APP的日常使用場景,涉及的APP種類包括社交通訊(微信、小紅書)、金融支付(支付寶)、影片娛樂(嗶哩嗶哩)、出行旅遊(地圖、12306)、閱讀音樂(微信讀書、Spotify)、社交媒體(Reddit、Twitter)、商務生產力(騰訊會議、eBay),以及16個系統級APP(設置、聯繫人、簡訊、日曆、天氣等)。
為了描述任務的難度和類型,研究團隊設計了一套四維分類體系。第一個維度是"範圍",分為單APP任務、跨兩個APP的任務、跨三個及以上APP的任務三檔。第二個維度是"目標",分為"操作類"(改變某個狀態,比如發送消息)、"查詢類"(獲取某個資訊,比如查詢餘額)和"混合類"(既要操作又要查詢)。第三個維度是"結構",分為單步原子操作、多步順序操作、跨APP數據傳遞,以及需要深入多層頁面才能完成的深潛式任務。第四個維度是"難度",按照L1到L4四級劃分,L1最簡單,L4最難。
難度等級的確定方式非常有意思——不是靠主觀猜測,而是靠8個參考AI模型實際做題後的表現來客觀標定。L1級任務要求這8個模型的平均成功率在75%以上,L4級任務則是這8個模型幾乎全部失敗的那些題。這種做法讓難度標定有了可重複的客觀依據,就像用一批考生的實際考試成績來判斷一道題是不是"壓軸難題",而不是靠出題人的感覺。
每道題目設計為"模板"而非"固定題目",這是另一個關鍵設計。以"幫我買一張從某地到某地的高鐵票"為例,這個任務里的出發地、目的地、乘客姓名都是可變參數,系統在每次生成任務實例時會從預設的參數集裡隨機抽取填入。研究團隊估算,僅這416道題目模板,通過參數組合就可以生成超過2.7萬個不同的具體任務實例,有效防止AI靠死記硬背特定題目來"刷分"。
**四、"答題紙"協議:一個讓評分更可靠的小發明**
在所有查詢類任務里,評分方式是個老大難問題。比如任務是"告訴我北京現在的氣溫",AI回答"34攝氏度",評分系統怎麼判斷對錯?
傳統方法是讓AI直接說出答案,然後用字符串匹配的方式判斷。但這種方法漏洞百出。"34攝氏度"和"34°C",意思完全一樣,字符串相似度卻可能低於閾值而被判為錯誤——這叫做"假拒絕"。反過來,如果AI的回覆是"我覺得答案可能是18,但也有可能是19",如果設定規則"只要包含正確答案就給分",那AI就會因為文字里順帶提到了正確答案而錯誤得分——這叫做"假接受"。某些推理型AI會在給出最終答案之前先進行大段思維鏈推理,這個問題尤為突出。
MOBILEGYM的解決方案叫做"答題紙協議"(AnswerSheet Protocol)。具體做法是:查詢類任務完成後,AI需要打開一個特殊的系統APP——就叫"答題紙"——然後在裡面找到對應的填寫框,把答案填進去提交。這個APP里的每個填寫框都聲明了數據類型:數字框只接受數字,日期框只接受特定格式的日期,選擇題框只允許選擇預設選項之一。評分時,系統直接檢查填寫框裡的值,用類型對應的精確匹配規則判斷,完全不涉及自然語言處理。"34攝氏度"和"34°C"在數字框裡都只會被錄入為數字34,判斷邏輯簡單清晰。
這個設計還有一個額外好處:它要求AI必須真的完成了任務、找到了答案,然後再去打開答題紙APP、找到對應欄位、填寫、提交,這是一系列真實的界面操作。AI不能靠在回復文字里隨便提到答案來矇混過關,必須用手指(模擬點擊)把答案準確地填進表格里。為了公平起見,含有答題紙環節的任務會額外獲得15步的操作預算,用於完成"切換到答題紙APP並填寫提交"這個額外流程。
**五、評分體系:不只看"成沒成功",還要看"壞沒壞事"**
MOBILEGYM的評分體系比單純看任務是否完成要細緻得多,這體現了研究團隊對手機AI實際部署場景的深刻理解。
最核心的指標自然是"成功率",即AI完成任務的比例。除此之外,還有四個診斷性指標。"進度率"衡量AI完成了任務中多少個子步驟,即使最終沒有完全成功,局部進展也能被量化。"誤報完成率"記錄AI聲稱自己完成了任務、但實際上並沒有完成的比例,這個指標反映了AI自我評估能力的準確性。"超時終止率"記錄AI其實已經達成了目標、但沒有及時聲明完成而是繼續操作直到超出步驟預算的比例,這反映了AI"知道自己什麼時候該停手"的能力。
最後一個指標叫做"意外副作用率"(Unexpected Side Effects),這是MOBILEGYM獨有的能力,也是最難得的一個指標。簡單說,它檢測AI在完成目標任務的同時,有沒有改變任何不該改變的東西。舉一個例子:假設任務是"給媽媽發一條微信說明天到家",AI完成任務的同時,如果不小心還刪除了一條舊消息,或者修改了某個聯繫人資訊,這些"順帶改動"就會被檢測到並計入副作用。
這個指標之所以重要,是因為手機是一個非常私密的環境,用戶委託AI幫忙操作時,最擔心的就是AI在完成指令的同時"搞了什麼其他事情"。傳統方法——無論是截圖裁判還是界面樹檢查——都無法可靠地發現那些藏在APP內部狀態里的悄悄改動,只有MOBILEGYM這樣把完整狀態都記在賬本里的系統,才能在任務結束後把賬本前後對比一遍,找出所有"賬本不應該變卻變了"的地方。
研究團隊的測試結果表明,意外副作用率在9個被測AI模型之間從4.7%到14.5%不等,而且與模型的整體能力並不成正比——能力相近的兩個模型,副作用率可能相差將近一倍。這說明這個指標捕捉到了一個獨立的、有意義的行為維度。
**六、九個AI模型的大考:能力差異懸殊,最難任務近乎全敗**
研究團隊用MOBILEGYM-BENCH測試了9個AI模型,包括3個商業閉源模型(谷歌的Gemini 3.1 Pro、字節跳動的豆包Seed 2.0 Pro、阿里的Qwen3.6-Plus)、5個專門針對手機界面操作微調過的開源模型(AutoGLM-Phone-9B、UI-TARS-1.5-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B-Think、Step-GUI-4B),以及1個通用型開源視覺語言模型(Qwen3-VL-4B-Instruct)。
測試結果呈現出一幅非常清晰的分層圖景。整體成功率方面,最強的Gemini 3.1 Pro達到58.8%,最弱的Qwen3-VL-4B-Instruct只有9.4%,兩者之間相差超過6倍,說明當前手機AI的能力差異極為懸殊,整個測試集既沒有"天花板效應"(最強的模型還遠沒有滿分),也沒有"地板效應"(最弱的模型也能完成約十分之一的任務),是一套區分度很好的測試集。
按難度分層來看,規律更加鮮明。L1級任務(最簡單)上,所有9個模型的成功率都相當不錯,即使是最弱的通用模型也能完成71.2%,商業模型全部滿分或接近滿分。這說明L1任務考的是基礎導航和單步操作,當前AI已經基本過關。L2級任務開始出現明顯分化,商業模型仍然表現出色(78%到93%),但手機專用開源模型驟降到17%到33%之間。L3和L4才是真正的"壓軸"。L3上,即使是Gemini 3.1 Pro也只能完成63.3%,開源手機專用模型最高只有9.6%。L4更是近乎全面潰敗:只有Gemini 3.1 Pro還保有21.9%的成功率,而其他兩個商業模型只有3.8%到6.2%,所有開源手機專用模型都在2%以下——接近於隨機猜測的水平。
這個結果傳遞出一個重要信號:L4難度的任務——通常需要AI在多個APP之間來回穿梭、深入多層頁面、同時完成資訊提取和操作,有時還要進行多步推理——已經遠遠超出了目前所有開源手機AI模型的能力上限,成為一塊真正意義上的"前沿荒地"。
**七、強化學習實驗:模擬訓練,在真機上依然奏效**
研究中最引人關注的部分,是一個從模擬到真實的轉移實驗(Sim-to-Real Transfer Study)。
研究團隊選取了Qwen3-VL-4B-Instruct——9個被測模型里表現最差的那個——作為起點,用MOBILEGYM里的160道訓練題對它進行強化學習訓練。訓練方法採用了當前業界流行的GRPO算法,訓練過程在單台配備3塊RTX Pro 6000顯卡的伺服器上進行,同時運行96個並行模擬環境實例,總共訓練了10步。
獎勵信號的設計非常細緻。基礎獎勵來自任務進度——AI完成了多少個目標檢查項就得多少分,而不是只有完全成功才給分,這種"密集獎勵"信號對於引導AI學習更有幫助。此外還設有若干乘法懲罰因子:如果AI完成了任務目標但產生了意外副作用,獎勵會打八折;如果AI聲稱任務完成但實際上沒完成,也會打八折;如果AI達成目標後沒有及時聲明完成、而是繼續操作直到超時截斷,獎勵再打對摺;答題紙填寫出錯同樣會扣分。
訓練效果相當顯著。在模擬環境裡,這個模型的整體成功率從9.4%提升到22.2%,絕對提升了12.8個百分點。具體到各難度層級,L1上從71.2%提升到92.5%,L2上從12.3%躍升到37.7%,L3上從0.6%升到11.7%,L4上從0.3%升到1.2%——L4的提升極為有限,與之前提到的該層級任務"超出當前模型能力上限"的判斷相吻合。訓練後的4B參數模型,在L1到L3三個難度層級上甚至超過了原本參數量更大(9B)的AutoGLM-Phone-9B,這說明在目標明確的強化學習訓練下,較小的模型完全可能超越較大但訓練方向不同的模型。
然而這一切效果都是在模擬環境裡測量的,關鍵問題來了:這種在虛擬手機里學到的技能,能不能在真實手機上用得上?
**八、真機驗證:95.1%的訓練成果成功"跨越"到真實世界**
為了回答這個問題,研究團隊在一台真實的Redmi Note 12 Turbo手機(解析度1080×2400)上進行了驗證實驗。
首先,研究團隊把256道測試題按照訓練前後的模擬環境表現,劃分成幾個"信號桶"。"提升桶"包含那些訓練前模型幾乎做不到、訓練後模型幾乎每次都能做到的任務,共26道;"穩定通過桶"包含訓練前後模型都能穩定完成的任務,共21道;"中間桶"包含那些有部分提升但不那麼穩定的任務,共20道;"穩定失敗桶"包含訓練前後模型都幾乎無法完成的189道任務,這些任務在模擬環境裡本身就沒有訓練收益可言,沒有必要花大力氣在真機上驗證。
三個信號桶合計67道任務,其中8道因為需要不可逆的賬號級操作或無法在真實手機上等效復現的預設狀態(比如虛構的會議歷史記錄),被排除在外,最終在真機上運行了59道任務,外加從"穩定失敗桶"隨機抽取的15道任務作為對照。
結果令人振奮。在這59道信號任務上,訓練後模型的真機成功率從32.2%提升到72.9%,提升了40.7個百分點;與此同時,模擬環境裡的提升幅度是42.8個百分點。用模擬提升量除以真機提升量,得到的保留比例是95.1%——也就是說,在模擬環境裡學到的技能,有超過95%的部分成功遷移到了真實手機上。更值得關注的是,訓練前後兩個版本的模型,在模擬環境和真機環境之間的絕對差距都很小:訓練前模型相差約1.7個百分點,訓練後模型相差約3.8個百分點。
那15道從"穩定失敗桶"隨機抽取的對照任務,在真機上兩個模型都一題未過,與模擬環境的表現完全一致,進一步驗證了模擬環境的預測有效性。
研究團隊特別強調,真機環境與模擬環境在很多細節上並不相同——界面布局的細微差異、APP里的真實數據(聯繫人、地點名稱等與模擬數據不同)、真實APP本身的行為變化。在這種條件下,訓練收益仍然高度保留,更傾向於說明AI學到的是可泛化的操作策略,而非死記硬背了模擬環境裡的特定情形。
**九、一個能說明問題的案例:學會"認識"灰色按鈕**
研究團隊在論文中記錄了一個特別能說明問題的真機案例,發生在Reddit上的一個"在特定社區發布帖子"的任務。
這個任務的微妙之處在於:這個真實Reddit社區(r/China_irl)要求發帖前必須添加一個"flair"(類似話題標籤)才能激活"發布"按鈕。在模擬環境的訓練任務里,這個社區具體的flair要求並不存在,所以AI並沒有直接"見過"這個場景。
訓練前的基礎模型在這道題上的表現如下:它把帖子的標題和正文都填寫好了,然後看到右上角的"發布"按鈕,開始點擊。按鈕沒反應,它繼續點。還是沒反應,它還是繼續點。這樣一直持續了整整60步,把整個操作預算耗盡,始終沒有意識到按鈕之所以不可用,是因為缺少了一個必填的flair標籤。
訓練後的模型走了另一條路。它同樣點擊了兩次無響應的"發布"按鈕,但在第15步,它的推理過程中出現了關鍵的一句話:"發布按鈕顏色是灰色的,這可能說明系統還沒有檢測到所有必填項……'添加標籤和flair'旁邊有一個星號,說明這是必填欄位。"然後它打開了flair選擇界面,選了"科技數碼"這個分類,回到發帖頁面,這時"發布"按鈕變成了藍色,第18步成功發布。完成時間:22步,遠少於基礎模型消耗的60步。
這個案例的意義在於,AI從沒有在訓練里見過這個特定社區的這個特定要求,但它通過在模擬環境裡反覆練習各種操作場景,學會了一種通用的"看懂界面狀態"能力——能從按鈕的視覺狀態(灰色)推斷出當前操作的前置條件未被滿足,並主動尋找原因。這種能力在面對新的真實場景時依然有效,這才是"從模擬到真實"最有價值的證明。
**十、裁判AI也會出錯:10.2%的誤判率說明了什麼**
研究團隊還順手做了一件很有價值的事:用人工審核來檢驗AI裁判的可靠性。
他們把信號桶里59道任務、兩個模型版本共118條真機軌跡,讓Qwen3.6-Plus這個商業模型來當裁判,判斷每條軌跡是否成功完成了任務,然後把判斷結果和人工審核結果對比。結果發現,在這118條軌跡里,裁判AI犯了12個錯誤,整體誤判率10.2%。訓練後模型的軌跡誤判率(11.9%)略高於訓練前模型(8.5%),原因很可能是訓練後模型的操作軌跡更複雜、更多聲明性陳述,給裁判AI提供了更多可能被誤解的表面資訊。
為了驗證這個誤判率是否是某個特定模型的問題,研究團隊把同樣的118條軌跡拿去讓GPT-5.4重新判斷。結果GPT-5.4也犯了12個錯誤——數量完全相同,只是分布在不同的具體軌跡上。這表明AI裁判的誤判不是某個模型的特有問題,而是這類"看截圖判斷任務是否成功"的評估方式的系統性局限。相比之下,MOBILEGYM基於賬本對比的程序化評判,完全不存在這類誤判,成本也是零。
---
歸根結底,MOBILEGYM做的事情,是把一個原本只能在真實世界裡學習的技能,搬到了一個既安全又廉價、既可控又可驗證的虛擬訓練場裡。它不是要模擬一個完美無缺的真實手機,而是要確保AI在裡面學到的東西,在真實手機上依然管用。事實證明,95.1%的訓練成果保留率是一個相當有說服力的答案。
手機AI的能力上限依然很遠——L4難度的任務讓幾乎所有AI束手無策,就連當前最強的商業模型也只能完成其中約五分之一。但這條路至少現在有了一個可以大規模、可重複地練習的基礎設施。從這個角度來說,MOBILEGYM更像是一個開端,而非終點。如果你對手機AI、強化學習或可信AI評估這幾個方向感興趣,不妨通過arXiv:2605.26114查閱完整論文,裡面還有大量關於系統架構細節、任務設計原則和實驗分析的內容值得深入探索。
---
Q&A
Q1:MOBILEGYM模擬的APP和真實APP有什麼區別?
A:MOBILEGYM在瀏覽器里用代碼重新實現了真實APP的交互邏輯和視覺界面,但不接入真實伺服器後端。裡面的聯繫人、訂單、餘額都是虛擬數據,操作不會產生真實後果。視覺上會有細微差異,比如布局細節、動畫和部分圖標,但研究結果顯示這不影響AI行為策略的遷移,訓練成果有95.1%能在真機上保留。
Q2:MOBILEGYM的強化學習訓練需要多少計算資源?
A:研究團隊的訓練實驗在單台配備3塊RTX Pro 6000顯卡的伺服器上完成,同時運行96個並行模擬環境實例,總共訓練10步。相比之下,基於安卓模擬器的類似方案據報道需要10台裸金屬雲伺服器、共3840GB內存才能運行512個並行實例。MOBILEGYM每個實例約400MB內存、3秒啟動,大幅降低了硬體門檻。
Q3:MOBILEGYM-BENCH的難度是怎麼定的?
A:難度不是靠主觀判斷,而是用8個參考AI模型實際做題後的平均成功率來客觀標定。L1級要求平均成功率不低於75%,L2級要求不低於25%且進度率不低於50%,L3級要求成功率大於零且進度率不低於25%,其餘歸入L4。這8個參考模型不包括後續用於訓練實驗的Qwen3-VL-4B-Instruct,避免標定數據和訓練數據之間的資訊泄露。






