騰訊混元聯合多所高校：手機AI助手終於能真正"用"手機了，而不只是"看"手機

這項研究由騰訊混元團隊聯合香港中文大學（深圳）、中國人民大學高嶺人工智慧學院以及武漢大學共同完成，論文於2026年6月22日發布，編號為arXiv:2606.23049，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

手機，是每個人每天都在用的東西。刷微信、叫外賣、訂機票、查地圖，這些操作對人來說輕而易舉，但對人工智慧來說，卻是一道非常難過的坎。不是因為AI看不懂螢幕上有什麼，而是因為"看懂"和"真正做成事"之間，還差著一個巨大的鴻溝。

這項研究正是為了填平這道鴻溝而生的。研究團隊開發了一套叫做PhoneBuddy的訓練方案，目標只有一個：讓AI模型不僅能認識手機螢幕上的按鈕和文字，更能像一個真正的助手一樣，從頭到尾幫你完成一件實際的事情——比如幫你在微信里找到某個小程序、搜索附近的餐廳、把AI生成的請假條存到文檔里。

這聽起來簡單，但背後的挑戰極其複雜，研究團隊在訓練過程中面臨的核心矛盾，幾乎貫穿了整個項目的設計思路。

**一、為什麼教會AI用手機這麼難？**

把AI放到真實手機上操作，就像把一個剛學會騎自行車的孩子丟進城市早高峰的馬路上——環境複雜、狀態多變、一旦出錯後果難以收拾。

真實的手機環境有幾個讓研究者頭疼的特點。首先，手機操作是有狀態的，每次打開一個應用，都可能因為你的賬號、歷史記錄、網路狀態不同而呈現出不一樣的界面。其次，很多操作是不可撤銷的，AI如果不小心點了"確認支付"或者"發送消息"，這件事就真的發生了，沒有後悔的機會。再者，要判斷一個任務有沒有完成，有時候需要依賴伺服器那邊的數據，而不是光看螢幕就能知道的。

正因為這樣，在真實手機上訓練AI的成本極高——每次訓練都要重新設置狀態，每次驗證結果都要人工檢查，而且還有各種風險需要控制。

然而，另一個極端——只用模擬環境來訓練AI——也行不通。模擬環境雖然方便重置、方便檢驗，但畢竟是簡化版的仿真，跟真實手機的行為有差距。在模擬環境裡練得再好的AI，一到真實手機上往往就"水土不服"，表現大打折扣。

贊助商廣告

這就是整個研究的核心矛盾：真實環境訓練效果好但成本高、風險大；模擬環境成本低但效果打折。研究團隊的解法，是把這兩種環境結合起來用，而不是非此即彼地選邊站。

**二、PhoneWorld：一座高度還原的"練習場"**

為了給AI提供一個既安全又逼真的練習場，研究團隊專門開發了一個叫做PhoneWorld的模擬環境。

PhoneWorld的思路是這樣的：既然真實App太貴太危險，那就從真實App的使用軌跡里提取骨架，再重建一批"高仿"的可運行App。這些仿製App不是靜態的截圖，而是真正可以點擊、可以輸入、可以觸發狀態變化的Android應用。它們保留了原始App的核心界面結構和操作邏輯，但因為是重建的，所以可以隨時重置狀態、隨時檢查任務是否完成，完全不需要人工介入。

更重要的是，PhoneWorld還會為每個仿製App自動生成配套的任務和驗證規則。AI做了一個操作，系統能立刻用內置的規則判斷"這件事做對了沒有"，而不需要靠人來看結果。

把PhoneWorld比作一個駕校的模擬駕駛系統很合適——它不是真實的道路，但它復現了真實道路上會遇到的關鍵場景，讓學員可以反覆練習、犯錯之後立刻重來，大大降低了"在真實路上練車"的成本和風險。當然，駕校練完之後還是要上真實的路考，這就是真實手機環境的價值所在。

目前的PhoneWorld涵蓋了數十種消費類移動應用場景，提供了大量可執行的任務和軌跡數據，為後續的訓練提供了充足的"練習素材"。

**三、PhoneBuddy：三段式的"成長路徑"**

整個訓練方案分成三個階段，就像一個人從學生到職場新人再到獨當一面的進階過程。

所有實驗都基於同一個基礎模型，叫做Qwen3.5-4B，這是一個參數量為40億的開源模型。使用同一個基礎是關鍵——這樣才能保證最終的結果差異，真正來自訓練方式的不同，而不是模型本身的差異。

第一階段是監督微調，也就是給AI"上課"。研究團隊從真實手機環境和PhoneWorld模擬環境中各自收集了大量操作軌跡，總共約95萬步操作數據，然後用這些數據對基礎模型進行全參數微調。訓練的核心格式很簡單：給AI看當前手機截圖和任務指令，讓它預測下一步該做什麼。這一階段的目的是讓AI掌握基本的手機操作格式和常識，為後續的強化學習打好基礎。經過約1115步優化，得到了PhoneBuddy-4B-SFT這個"畢業生"模型。

贊助商廣告

第二階段起，模型開始分叉，形成兩條不同的訓練路徑。一條路徑只在真實手機環境中繼續強化學習，得到PhoneBuddy-4B-Real；另一條路徑則混合了真實環境和PhoneWorld模擬環境，各占一半，得到PhoneBuddy-4B-Real+Mock。兩條路徑都只跑了50步在線強化學習，訓練目標相同：最大化任務完成率。

這裡有一個值得關注的細節：在兩種環境裡，"任務完成"的判斷方式是不同的。在真實手機環境裡，因為很多任務的結果依賴於賬號資訊或伺服器狀態，難以直接看出來，所以團隊使用了基於評分規則的大模型裁判——先用Gemini-3.1-Pro-Preview為每個任務生成評分細則，再用Qwen3.5-122B模型對操作軌跡逐項評分，全部通過才算成功。而在PhoneWorld里，仿製App內置了規則驗證器，能直接判斷任務完成與否，不需要大模型來裁判。兩種方式最終都轉化為同一個二元獎勵信號，用於驅動策略優化。

**四、用真實手機和真實人類來評分：150道測試題**

為了評估模型的實際表現，研究團隊設計了一套包含150道任務的真實手機評測套件，邀請人工標註員在真實設備上運行每個模型，然後判斷任務有沒有真正完成。

這150道題分成三類，每類50道。第一類是單應用任務，比如在知乎上找到某篇文章並關注作者，操作路徑相對固定，成功與否容易判斷。第二類是跨應用任務，比如先用AI助手生成一份請假條，再把它保存到騰訊文檔里，需要在不同應用之間傳遞資訊，難度更高。第三類是微信小程序任務，比如在騰訊出行小程序里搜索迪士尼附近的經濟型酒店，操作場景嵌套在微信這個大平台內。

除了這套自建的測試集，研究團隊還在AndroidWorld這個公開基準上評估了模型，以便與其他公開發表的工作進行橫向比較。AndroidWorld是一個專門為自主安卓代理設計的動態評測環境，覆蓋了多種真實安卓應用的任務場景。

**五、數字會說話：逐步提升的任務完成率**

贊助商廣告

結果擺出來，趨勢非常清晰。

在整體平均成績上，PhoneBuddy-4B-SFT的平均任務成功率是42.6%，PhoneBuddy-4B-Real提升到了49.8%，而PhoneBuddy-4B-Real+Mock進一步達到了54.8%。每一步訓練都帶來了實質性的提升，而不是微小的波動。

單應用任務上的進步最為顯著。從監督微調的34%，到真實環境強化學習的54%，再到混合強化學習的62%——最終成績超過了所有對比的商業模型，包括GPT-5.4的50%和Gemini 3.1 Pro的50%。這說明在結構清晰、步驟穩定的應用操作場景里，這套訓練方案的效果相當突出。

微信小程序任務呈現出一個有趣的模式。僅靠真實環境強化學習，成績反而從54%下滑到了48%，這可能是因為真實手機上的小程序行為更難預測，模型在這類場景下沒能從額外訓練中受益。但加入PhoneWorld的模擬訓練後，成績回升到了56%，超過了監督微調的基線。這個"先降後升"的走勢說明，模擬環境的可重置性和穩定性，在結構多步驟但流程相對固定的場景下，能提供真實環境訓練無法給予的穩定訓練信號。

在AndroidWorld基準上，成績走勢最為乾淨——60.3%、77.2%、83.2%，單調遞增，沒有任何波動。最終83.2%的成績也是所有參與對比的模型中最高的，包括Gemini 3.1 Pro的80.2%。

然而，跨應用任務是這套方案目前無法攻克的堡壘。三個模型的成績分別是22%、20%、18%，不僅沒有進步，反而略有下降。這個結果並不意外，因為當前的PhoneWorld任務池主要針對單應用場景，根本沒有涉及跨應用的資訊傳遞和狀態跟蹤。在沒有對口訓練素材的情況下，混合訓練對這類任務沒有幫助，甚至可能因為引入了不匹配的訓練信號而略有干擾。

**六、兩個真實案例：模型在做什麼，做對了什麼**

數字之外，研究團隊還展示了兩個具體的操作軌跡對比，讓人更直觀地感受到訓練差異帶來的行為差異。

第一個案例是預訂酒店。任務要求在微信小程序"同程旅行"里搜索上海迪士尼附近的經濟型酒店。監督微調版本的模型能正確打開小程序並進行搜索，找到了酒店列表，但就停在那裡了，沒有繼續篩選價格範圍，等於只完成了任務的一半。混合訓練版本的模型則繼續操作，找到了篩選功能，把酒店價格上限設置到了150元，真正滿足了"經濟型"這個約束條件。

贊助商廣告

第二個案例是資訊轉移。任務是先用AI助手元寶生成一份請假條，然後新建一個騰訊文檔，把請假條內容存進去。監督微調版本的模型在元寶里生成了請假條，但在切換到騰訊文檔時，複製步驟出了問題，最終粘貼進文檔的是剪貼板里遺留的舊內容，而不是剛生成的請假條。混合訓練版本則正確地複製了新生成的請假條，並成功粘貼到了新文檔中。

這兩個例子揭示了一件事：混合環境訓練不只是讓模型"多見世面"，更重要的是它幫助模型學會了在操作過程中保持對約束條件的追蹤，以及在不同界面之間正確地傳遞資訊。這些能力，恰恰是PhoneWorld通過大量可重複的模擬練習強化出來的。

**七、跨應用任務：目前仍是一堵沒能打破的牆**

研究團隊對於跨應用任務的失敗，態度是直接承認而非迴避。

跨應用任務之所以難，不僅僅是因為需要操作多個應用那麼簡單。它要求模型在多個應用之間保持對任務狀態的記憶，把從一個應用里獲取的資訊正確地帶入另一個應用，並且在整個過程中追蹤任務的完成進度。任何一個環節出錯，整個任務就算失敗。

當前的PhoneWorld主要覆蓋單應用場景，即使有些學到的交互模式能遷移到小程序場景，也沒有直接對應跨應用工作流的訓練素材。研究團隊明確指出，把PhoneWorld擴展到涵蓋跨應用任務流程，是未來工作的重要方向。不過，即便有了更豐富的訓練環境，跨應用任務也可能依然是高難度任務，因為它還要求更強的長程狀態追蹤能力和運行時協調機制，這些是訓練數據本身解決不了的問題。

**八、這項研究在一個更大的拼圖里**

研究團隊還特別說明了一件事：PhoneBuddy只是他們正在構建的手機AI助手體系里的一塊拼圖，專門負責"訓練"這一層。

與之配套的還有幾個平行項目。PhoneWorld負責構建模擬訓練環境，為PhoneBuddy提供練習素材。PhoneHarness負責運行時執行，它定義了模型預測和真實手機操作之間的接口，相當於把模型"接入"手機的這根線。PhonePrivacy和PhoneSafety則負責隱私和安全邊界，因為手機上有太多敏感的個人數據，一個能真正"用"手機的AI，必須有明確的權限邊界和風險控制機制。

贊助商廣告

這篇論文刻意將自己限定在訓練問題上，對運行時執行、隱私和安全只作了簡短提及。但研究團隊認為，這些部分同等重要，一個真正可以部署的手機AI助手，必須把這幾塊都做好，缺一不可。

說到底，這項研究告訴我們的，是一個關於"如何練就真本事"的道理。真實戰場固然是最好的磨刀石，但如果每次練習都要付出真實的代價，成本太高，風險也太大。聰明的做法是先在高度還原的練習場裡把基本功練紮實，再放到真實戰場上做最後的磨合。PhoneBuddy用數字證明了這套思路的有效性：混合訓練在幾乎所有任務類型上都優於單獨依賴真實環境的訓練，而在AndroidWorld這個外部基準上83.2%的成績，更說明這套方案學到的能力具有真正的泛化價值，而不只是在自家測試集上表現好看。

跨應用任務的瓶頸懸在那裡，像一道還沒解開的題，提醒著所有人：更好的訓練環境能做很多事，但它不是萬能藥。下一步需要的，是既更好的訓練環境，也更強的執行架構，還有對安全和隱私的認真對待。感興趣的讀者可以通過arXiv編號2606.23049找到完整論文，深入了解每一個技術細節。

---

Q&A

Q1：PhoneBuddy和普通的手機AI助手有什麼區別？

A：普通手機AI助手更多是"看懂螢幕"或"回答問題"，而PhoneBuddy的目標是真正從頭到尾幫用戶完成一件具體的手機任務，比如在小程序里搜索篩選酒店、把AI生成的文字保存到文檔。區別在於"識別"和"完成任務"之間的差距，PhoneBuddy專注於填平這道鴻溝。

Q2：PhoneWorld模擬環境和真實手機環境的訓練效果有多大差別？

A：兩者各有優劣，單獨用任何一個都不夠。真實環境能讓模型接觸真實的應用行為和風險，但成本高、難重置。PhoneWorld可以無限重置、自動驗證，適合大規模反覆練習。研究結果顯示，混合使用兩種環境比單獨用真實環境，在單應用任務上成功率從54%提升到62%，在AndroidWorld上從77.2%提升到83.2%。

贊助商廣告

Q3：PhoneBuddy在跨應用任務上為什麼表現很差？

A：跨應用任務需要在多個應用之間傳遞資訊並持續追蹤任務狀態，比如先在AI助手裡生成內容，再切換到文檔應用保存。當前的PhoneWorld訓練素材主要是單應用場景，沒有專門針對跨應用工作流的訓練數據，導致三個版本的模型在這類任務上成功率都只在18%到22%之間，沒有明顯提升。