這項研究由騰訊混元團隊聯合香港中文大學(深圳)、中國人民大學高嶺人工智慧學院以及武漢大學共同完成,論文於2026年6月22日發布,編號為arXiv:2606.23049,有興趣深入了解的讀者可以通過該編號查詢完整論文。
手機,是每個人每天都在用的東西。刷微信、叫外賣、訂機票、查地圖,這些操作對人來說輕而易舉,但對人工智慧來說,卻是一道非常難過的坎。不是因為AI看不懂螢幕上有什麼,而是因為"看懂"和"真正做成事"之間,還差著一個巨大的鴻溝。
這項研究正是為了填平這道鴻溝而生的。研究團隊開發了一套叫做PhoneBuddy的訓練方案,目標只有一個:讓AI模型不僅能認識手機螢幕上的按鈕和文字,更能像一個真正的助手一樣,從頭到尾幫你完成一件實際的事情——比如幫你在微信里找到某個小程序、搜索附近的餐廳、把AI生成的請假條存到文檔里。
這聽起來簡單,但背後的挑戰極其複雜,研究團隊在訓練過程中面臨的核心矛盾,幾乎貫穿了整個項目的設計思路。
**一、為什麼教會AI用手機這麼難?**
把AI放到真實手機上操作,就像把一個剛學會騎自行車的孩子丟進城市早高峰的馬路上——環境複雜、狀態多變、一旦出錯後果難以收拾。
真實的手機環境有幾個讓研究者頭疼的特點。首先,手機操作是有狀態的,每次打開一個應用,都可能因為你的賬號、歷史記錄、網路狀態不同而呈現出不一樣的界面。其次,很多操作是不可撤銷的,AI如果不小心點了"確認支付"或者"發送消息",這件事就真的發生了,沒有後悔的機會。再者,要判斷一個任務有沒有完成,有時候需要依賴伺服器那邊的數據,而不是光看螢幕就能知道的。
正因為這樣,在真實手機上訓練AI的成本極高——每次訓練都要重新設置狀態,每次驗證結果都要人工檢查,而且還有各種風險需要控制。
然而,另一個極端——只用模擬環境來訓練AI——也行不通。模擬環境雖然方便重置、方便檢驗,但畢竟是簡化版的仿真,跟真實手機的行為有差距。在模擬環境裡練得再好的AI,一到真實手機上往往就"水土不服",表現大打折扣。
這就是整個研究的核心矛盾:真實環境訓練效果好但成本高、風險大;模擬環境成本低但效果打折。研究團隊的解法,是把這兩種環境結合起來用,而不是非此即彼地選邊站。
**二、PhoneWorld:一座高度還原的"練習場"**
為了給AI提供一個既安全又逼真的練習場,研究團隊專門開發了一個叫做PhoneWorld的模擬環境。
PhoneWorld的思路是這樣的:既然真實App太貴太危險,那就從真實App的使用軌跡里提取骨架,再重建一批"高仿"的可運行App。這些仿製App不是靜態的截圖,而是真正可以點擊、可以輸入、可以觸發狀態變化的Android應用。它們保留了原始App的核心界面結構和操作邏輯,但因為是重建的,所以可以隨時重置狀態、隨時檢查任務是否完成,完全不需要人工介入。
更重要的是,PhoneWorld還會為每個仿製App自動生成配套的任務和驗證規則。AI做了一個操作,系統能立刻用內置的規則判斷"這件事做對了沒有",而不需要靠人來看結果。
把PhoneWorld比作一個駕校的模擬駕駛系統很合適——它不是真實的道路,但它復現了真實道路上會遇到的關鍵場景,讓學員可以反覆練習、犯錯之後立刻重來,大大降低了"在真實路上練車"的成本和風險。當然,駕校練完之後還是要上真實的路考,這就是真實手機環境的價值所在。
目前的PhoneWorld涵蓋了數十種消費類移動應用場景,提供了大量可執行的任務和軌跡數據,為後續的訓練提供了充足的"練習素材"。
**三、PhoneBuddy:三段式的"成長路徑"**
整個訓練方案分成三個階段,就像一個人從學生到職場新人再到獨當一面的進階過程。
所有實驗都基於同一個基礎模型,叫做Qwen3.5-4B,這是一個參數量為40億的開源模型。使用同一個基礎是關鍵——這樣才能保證最終的結果差異,真正來自訓練方式的不同,而不是模型本身的差異。
第一階段是監督微調,也就是給AI"上課"。研究團隊從真實手機環境和PhoneWorld模擬環境中各自收集了大量操作軌跡,總共約95萬步操作數據,然後用這些數據對基礎模型進行全參數微調。訓練的核心格式很簡單:給AI看當前手機截圖和任務指令,讓它預測下一步該做什麼。這一階段的目的是讓AI掌握基本的手機操作格式和常識,為後續的強化學習打好基礎。經過約1115步優化,得到了PhoneBuddy-4B-SFT這個"畢業生"模型。
第二階段起,模型開始分叉,形成兩條不同的訓練路徑。一條路徑只在真實手機環境中繼續強化學習,得到PhoneBuddy-4B-Real;另一條路徑則混合了真實環境和PhoneWorld模擬環境,各占一半,得到PhoneBuddy-4B-Real+Mock。兩條路徑都只跑了50步在線強化學習,訓練目標相同:最大化任務完成率。
這裡有一個值得關注的細節:在兩種環境裡,"任務完成"的判斷方式是不同的。在真實手機環境裡,因為很多任務的結果依賴於賬號資訊或伺服器狀態,難以直接看出來,所以團隊使用了基於評分規則的大模型裁判——先用Gemini-3.1-Pro-Preview為每個任務生成評分細則,再用Qwen3.5-122B模型對操作軌跡逐項評分,全部通過才算成功。而在PhoneWorld里,仿製App內置了規則驗證器,能直接判斷任務完成與否,不需要大模型來裁判。兩種方式最終都轉化為同一個二元獎勵信號,用於驅動策略優化。
**四、用真實手機和真實人類來評分:150道測試題**
為了評估模型的實際表現,研究團隊設計了一套包含150道任務的真實手機評測套件,邀請人工標註員在真實設備上運行每個模型,然後判斷任務有沒有真正完成。
這150道題分成三類,每類50道。第一類是單應用任務,比如在知乎上找到某篇文章並關注作者,操作路徑相對固定,成功與否容易判斷。第二類是跨應用任務,比如先用AI助手生成一份請假條,再把它保存到騰訊文檔里,需要在不同應用之間傳遞資訊,難度更高。第三類是微信小程序任務,比如在騰訊出行小程序里搜索迪士尼附近的經濟型酒店,操作場景嵌套在微信這個大平台內。
除了這套自建的測試集,研究團隊還在AndroidWorld這個公開基準上評估了模型,以便與其他公開發表的工作進行橫向比較。AndroidWorld是一個專門為自主安卓代理設計的動態評測環境,覆蓋了多種真實安卓應用的任務場景。
**五、數字會說話:逐步提升的任務完成率**
結果擺出來,趨勢非常清晰。
在整體平均成績上,PhoneBuddy-4B-SFT的平均任務成功率是42.6%,PhoneBuddy-4B-Real提升到了49.8%,而PhoneBuddy-4B-Real+Mock進一步達到了54.8%。每一步訓練都帶來了實質性的提升,而不是微小的波動。
單應用任務上的進步最為顯著。從監督微調的34%,到真實環境強化學習的54%,再到混合強化學習的62%——最終成績超過了所有對比的商業模型,包括GPT-5.4的50%和Gemini 3.1 Pro的50%。這說明在結構清晰、步驟穩定的應用操作場景里,這套訓練方案的效果相當突出。
微信小程序任務呈現出一個有趣的模式。僅靠真實環境強化學習,成績反而從54%下滑到了48%,這可能是因為真實手機上的小程序行為更難預測,模型在這類場景下沒能從額外訓練中受益。但加入PhoneWorld的模擬訓練後,成績回升到了56%,超過了監督微調的基線。這個"先降後升"的走勢說明,模擬環境的可重置性和穩定性,在結構多步驟但流程相對固定的場景下,能提供真實環境訓練無法給予的穩定訓練信號。
在AndroidWorld基準上,成績走勢最為乾淨——60.3%、77.2%、83.2%,單調遞增,沒有任何波動。最終83.2%的成績也是所有參與對比的模型中最高的,包括Gemini 3.1 Pro的80.2%。
然而,跨應用任務是這套方案目前無法攻克的堡壘。三個模型的成績分別是22%、20%、18%,不僅沒有進步,反而略有下降。這個結果並不意外,因為當前的PhoneWorld任務池主要針對單應用場景,根本沒有涉及跨應用的資訊傳遞和狀態跟蹤。在沒有對口訓練素材的情況下,混合訓練對這類任務沒有幫助,甚至可能因為引入了不匹配的訓練信號而略有干擾。
**六、兩個真實案例:模型在做什麼,做對了什麼**
數字之外,研究團隊還展示了兩個具體的操作軌跡對比,讓人更直觀地感受到訓練差異帶來的行為差異。
第一個案例是預訂酒店。任務要求在微信小程序"同程旅行"里搜索上海迪士尼附近的經濟型酒店。監督微調版本的模型能正確打開小程序並進行搜索,找到了酒店列表,但就停在那裡了,沒有繼續篩選價格範圍,等於只完成了任務的一半。混合訓練版本的模型則繼續操作,找到了篩選功能,把酒店價格上限設置到了150元,真正滿足了"經濟型"這個約束條件。
第二個案例是資訊轉移。任務是先用AI助手元寶生成一份請假條,然後新建一個騰訊文檔,把請假條內容存進去。監督微調版本的模型在元寶里生成了請假條,但在切換到騰訊文檔時,複製步驟出了問題,最終粘貼進文檔的是剪貼板里遺留的舊內容,而不是剛生成的請假條。混合訓練版本則正確地複製了新生成的請假條,並成功粘貼到了新文檔中。
這兩個例子揭示了一件事:混合環境訓練不只是讓模型"多見世面",更重要的是它幫助模型學會了在操作過程中保持對約束條件的追蹤,以及在不同界面之間正確地傳遞資訊。這些能力,恰恰是PhoneWorld通過大量可重複的模擬練習強化出來的。
**七、跨應用任務:目前仍是一堵沒能打破的牆**
研究團隊對於跨應用任務的失敗,態度是直接承認而非迴避。
跨應用任務之所以難,不僅僅是因為需要操作多個應用那麼簡單。它要求模型在多個應用之間保持對任務狀態的記憶,把從一個應用里獲取的資訊正確地帶入另一個應用,並且在整個過程中追蹤任務的完成進度。任何一個環節出錯,整個任務就算失敗。
當前的PhoneWorld主要覆蓋單應用場景,即使有些學到的交互模式能遷移到小程序場景,也沒有直接對應跨應用工作流的訓練素材。研究團隊明確指出,把PhoneWorld擴展到涵蓋跨應用任務流程,是未來工作的重要方向。不過,即便有了更豐富的訓練環境,跨應用任務也可能依然是高難度任務,因為它還要求更強的長程狀態追蹤能力和運行時協調機制,這些是訓練數據本身解決不了的問題。
**八、這項研究在一個更大的拼圖里**
研究團隊還特別說明了一件事:PhoneBuddy只是他們正在構建的手機AI助手體系里的一塊拼圖,專門負責"訓練"這一層。
與之配套的還有幾個平行項目。PhoneWorld負責構建模擬訓練環境,為PhoneBuddy提供練習素材。PhoneHarness負責運行時執行,它定義了模型預測和真實手機操作之間的接口,相當於把模型"接入"手機的這根線。PhonePrivacy和PhoneSafety則負責隱私和安全邊界,因為手機上有太多敏感的個人數據,一個能真正"用"手機的AI,必須有明確的權限邊界和風險控制機制。
這篇論文刻意將自己限定在訓練問題上,對運行時執行、隱私和安全只作了簡短提及。但研究團隊認為,這些部分同等重要,一個真正可以部署的手機AI助手,必須把這幾塊都做好,缺一不可。
說到底,這項研究告訴我們的,是一個關於"如何練就真本事"的道理。真實戰場固然是最好的磨刀石,但如果每次練習都要付出真實的代價,成本太高,風險也太大。聰明的做法是先在高度還原的練習場裡把基本功練紮實,再放到真實戰場上做最後的磨合。PhoneBuddy用數字證明了這套思路的有效性:混合訓練在幾乎所有任務類型上都優於單獨依賴真實環境的訓練,而在AndroidWorld這個外部基準上83.2%的成績,更說明這套方案學到的能力具有真正的泛化價值,而不只是在自家測試集上表現好看。
跨應用任務的瓶頸懸在那裡,像一道還沒解開的題,提醒著所有人:更好的訓練環境能做很多事,但它不是萬能藥。下一步需要的,是既更好的訓練環境,也更強的執行架構,還有對安全和隱私的認真對待。感興趣的讀者可以通過arXiv編號2606.23049找到完整論文,深入了解每一個技術細節。
---
Q&A
Q1:PhoneBuddy和普通的手機AI助手有什麼區別?
A:普通手機AI助手更多是"看懂螢幕"或"回答問題",而PhoneBuddy的目標是真正從頭到尾幫用戶完成一件具體的手機任務,比如在小程序里搜索篩選酒店、把AI生成的文字保存到文檔。區別在於"識別"和"完成任務"之間的差距,PhoneBuddy專注於填平這道鴻溝。
Q2:PhoneWorld模擬環境和真實手機環境的訓練效果有多大差別?
A:兩者各有優劣,單獨用任何一個都不夠。真實環境能讓模型接觸真實的應用行為和風險,但成本高、難重置。PhoneWorld可以無限重置、自動驗證,適合大規模反覆練習。研究結果顯示,混合使用兩種環境比單獨用真實環境,在單應用任務上成功率從54%提升到62%,在AndroidWorld上從77.2%提升到83.2%。
Q3:PhoneBuddy在跨應用任務上為什麼表現很差?
A:跨應用任務需要在多個應用之間傳遞資訊並持續追蹤任務狀態,比如先在AI助手裡生成內容,再切換到文檔應用保存。當前的PhoneWorld訓練素材主要是單應用場景,沒有專門針對跨應用工作流的訓練數據,導致三個版本的模型在這類任務上成功率都只在18%到22%之間,沒有明顯提升。






