這項由浙江大學、蘋果公司及騰訊公司聯合開展的研究發表於2026年(預印本編號arXiv:2604.13822v1,2026年4月15日公開),提出了一套名為UI-Copilot的智慧型手機操作輔助系統,以及配套的訓練方法Tool-Integrated Policy Optimization(TIPO)。有興趣深入了解的讀者可以通過arXiv編號2604.13822查詢完整論文。
手機已經成了我們日常生活的延伸。打開購物應用、查快遞、比價格、填表格、記賬單——這些事我們每天都在做,已經熟悉到不需要思考。但換個角度:如果這些事都要一個人工智慧助手來替你完成,而且任務可能跨越十幾個應用、需要記住幾十步前看到的數字,AI還能應付得來嗎?
這正是研究團隊想解決的問題。他們的出發點,是當前最先進的AI手機助手在面對"長任務"時暴露出的三個根本性缺陷,而這三個缺陷,幾乎會讓任何一個普通人也感同身受。
一、AI助手為什麼會"記性差"、"算錯數"、"迷失方向"?
以一個具體例子來理解這三個問題:假設你讓AI助手完成這樣一個任務——"在必應App里查NVIDIA和蘋果的股價,然後告訴我50股NVIDIA加上75股蘋果一共值多少錢。"這個任務表面上簡單,實際上要求AI分別打開應用查詢兩支股票的價格,記住這兩個數字,再進行乘法和加法運算,最後給出答案。
研究團隊測試了多個當前最先進的7B規模(70億參數)AI助手,發現失敗率極高。第一種失敗叫**記憶衰退**:任務走到第15步時,AI早就把第9步看到的蘋果股價"忘了",反而憑空捏造了一個錯誤數字繼續往下算。第二種失敗叫**進度混亂**:AI在浩繁的操作歷史裡迷路了,明明已經查完了所有股價,卻不知道自己到了哪一步,要麼重複操作,要麼莫名其妙地提前宣告完成,要麼任務還沒做完就停下來。第三種失敗叫**數學幻覺**:AI在心算乘法和加法時出錯,算出來的結果和正確答案差了幾千塊。
這三種失敗有一個共同根源,研究團隊把它概括得很簡潔:**AI被要求做的事情已經超出了它本身的能力範圍**。當歷史記錄越堆越長,AI的"工作檯"就越來越亂,判斷力隨之下降。就像一個廚師,如果讓他同時記住三十道菜的配方、各自的進度、每個鍋里的火候,他遲早也會搞錯。
統計數據很能說明問題:在專門針對"記憶密集型"任務設計的評測基準MemGUI-Bench上,現有7B規模的AI助手的平均性能,相比短任務下降了整整**90.9%**。換句話說,短任務能做對的事,放到長任務里幾乎全部失敗。
二、解決方案:給AI助手配一個"隨身小秘書"
研究團隊的應對思路,可以用一個工作場景來類比。假設你是一位經理,需要完成一個複雜項目。過去的做法是讓你把所有資料、所有筆記、所有計算都裝在腦子裡,同時還要指揮執行。這當然容易出錯。新的做法是:**經理只管做決策和執行,而查資料、做計算這兩件事,隨時可以交給一位隨叫隨到的助理來完成。**
UI-Copilot正是這個思路的技術實現。系統由兩個角色組成:一個是負責實際操控手機的**主控AI**(基於Qwen2.5VL-7B模型),另一個是輕量級的**副駕駛模型**(Qwen3-4B),隨時待命。主控AI負責理解任務、規劃步驟、點擊螢幕,而副駕駛模型承擔兩項具體職責:一是**Retriever(檢索者)**,當主控AI需要回想之前看到的資訊時,它可以主動調用檢索者去翻閱之前記錄下來的"筆記",精準取回所需內容;二是**Calculator(計算者)**,當任務涉及數字運算時,它調用計算者生成並執行Python代碼,直接返回精確結果,繞過AI自身不可靠的心算能力。
關鍵在於,副駕駛模型不是每一步都被調用,而是**按需啟用**。主控AI在每一步都要自己判斷:這一步我需要檢索歷史資訊嗎?需要做數學運算嗎?還是我直接操作就好?這種"自主決定何時求助"的能力,正是整個系統設計的核心。
與此同時,研究團隊還引入了一個叫**記憶解耦**的設計。傳統的AI助手把所有思考過程和操作歷史都堆在"對話記錄"里,久而久之這份記錄就變得極其臃腫,AI讀起來費力,理解質量也隨之下降。記憶解耦的做法是把"記錄"分成兩層:**對話歷史只保留簡潔的進度摘要**,比如"我已經查完了蘋果的股價",而詳細的觀察內容(比如具體是多少錢、看到了什麼界面)則單獨存在一個本地文件里。當AI需要某條具體資訊時,再調用檢索者去文件里精準取回,而不是讓AI自己在一份幾千字的歷史記錄里艱難搜尋。
這個設計的比喻是:一個人在做項目時,不需要把所有資料都攤在桌子上,只需要在桌上放一張進度便簽,資料本身整整齊齊歸檔在文件櫃裡,需要時隨時取用。桌面清爽,思路自然清晰。
三、訓練方法:怎麼讓AI學會"知道自己什麼時候需要幫助"
光有這套框架還不夠,關鍵問題是:**怎麼訓練主控AI,讓它既能準確判斷何時調用工具,又能在多步驟任務中穩定執行?**
研究團隊設計了一套叫做Tool-Integrated Policy Optimization(TIPO,工具集成策略優化)的訓練方法。這個方法的核心思想是**把兩件事分開訓練**:學習"什麼時候調用哪個工具"是一件事,學習"怎麼完成多步驟任務"是另一件事,兩者分別優化,互不干擾。
訓練數據從AndroidControl數據集出發,其中包含人工標註的手機操作軌跡。研究團隊用GPT-4o對這些軌跡進行了"加工":為每一步生成了應當調用的工具、思考內容以及進度摘要,形成專家示範數據集。此外,他們還用GPT-4o為同一批任務生成了記憶密集型查詢和計算型查詢,專門用來訓練工具調用能力。
訓練分三個階段進行。第一階段是**冷啟動**,通過監督式微調讓AI先學會基本的輸出格式和行為規範,建立一個穩定的起點。第二階段是**工具調用強化學習**:對於每一個工具調用預測,系統給出一個即時獎勵——格式正確時得一部分分,工具選擇正確時再得另一部分分,兩部分加權合併。這一步採用單步預測的方式進行,歷史記錄由專家數據提供(所謂"離線策略"),因為工具調用的訓練不需要完整地走完整個任務流程。第三階段是**多步驟行動強化學習**:這一步讓AI在自己生成的歷史記錄上進行訓練,也就是"在線策略",每一步的歷史都是AI自己走出來的,而不是專家寫好的。這樣做的理由在於,實際使用時AI也是在自己的歷史上操作,訓練和使用環境一致,訓練效果才能真正反映到部署表現上。
獎勵計算也有巧思。行動步驟的獎勵分三層:格式正確獎勵、動作類型正確獎勵、坐標或文字內容正確獎勵,三層依次加權疊加,鼓勵AI既做對"做什麼",也做對"怎麼做"。此外系統還引入了折扣未來獎勵,讓AI不僅關注當前這一步走得好不好,也關注整個任務後續的走向。為了確保訓練信號足夠豐富,系統還設置了一個最低優勢方差閾值,如果一批樣本的分數差異太小(說明AI對這批任務已經掌握得差不多了,沒什麼可學的),就繼續採樣更有挑戰性的樣本,直到滿足閾值為止。
理論分析也為這套方法提供了支撐。研究團隊用數學推導證明:如果在訓練時用專家提供的歷史記錄,而不是AI自己走出來的歷史,那麼訓練的梯度方向和實際部署時的優化目標之間存在系統性的偏差,用學術語言說就是"訓練與推理不對齊"。而用自己生成的歷史訓練,這種偏差就會大幅消減。這個道理用日常經驗來理解也直接明了:如果你練習駕駛時,每次都坐在別人開的車裡只看不動手,那真正上路時一定會手生;只有自己開過足夠多,才算真正掌握。
四、實驗結果:數字說明了什麼
在MemGUI-Bench這個專門評測記憶密集型和計算密集型長任務的基準上,UI-Copilot-7B取得了**pass@1準確率16.4%、pass@3準確率20.3%**的成績,在所有7B規模的模型中排名第一,明顯超過了此前最強的GUI-Owl-7B和UI-TARS-1.5-7B(兩者最好成績為10.2%)。
MemGUI-Bench之所以難,數字足以說明:這個基準的任務里有70.3%是記憶密集型,19.5%是計算密集型,平均每個任務需要36步才能完成,遠高於AndroidWorld的8.4步均值。換個說法,它要求AI助手記住三十多步前看到的資訊,還要在中途做計算,這對傳統方法來說幾乎是一道無法逾越的障礙。
與此同時,在更常規的動態任務基準AndroidWorld上,UI-Copilot-7B達到了**39.1%的準確率**,比基礎Qwen2.5VL-7B模型提升了整整**17.1個百分點**,與閉源的GPT-4o(34.5%)相比也有明顯優勢。在MiniWob++上,UI-Copilot-7B達到61.2%,同樣保持了強勁水準。
單步任務(不需要歷史記憶的靜態任務)上,UI-Copilot-7B同樣表現穩健:在AndroidControl-High上,動作準確率達到82.9%,坐標定位準確率72.2%,步驟成功率71.8%;在GUI Odyssey上,坐標定位63.8%,步驟成功率57.2%。與基礎模型相比,動作成功率提升了約19個百分點。這說明TIPO的訓練不僅提升了長任務能力,也沒有損害基礎操作能力。
從訓練動態來看,準確率在大約40步訓練後趨於收斂,說明訓練過程足夠高效。工具調用頻率在訓練過程中穩步降低,說明AI逐漸學會了更加精準地判斷"需不需要求助",而不是無差別地頻繁調用。平均每個任務的執行步數也隨訓練推進而減少,這是進度混亂問題得到緩解的直接體現。
五、消融實驗:拆開看,每一塊都有用
為了驗證各個設計選擇是否真的有必要,研究團隊做了大量的消融實驗——也就是把系統里的某個部件拔掉或換掉,看看效果是否下降。
首先比較了三種歷史管理方式:只保留動作和思考內容的傳統方式(AT)、保留完整多輪上下文的方式(MC),以及只保留簡潔進度摘要的新方式(MS)。結果表明,MS方式在準確率和執行步數上都優於前兩者,驗證了記憶解耦的有效性。
在工具組合上,只用Retriever或只用Calculator,效果都不如兩者同時使用。同時使用時,在MemGUI-Bench上準確率達到36.4%、平均步數19.3步,在AndroidWorld上準確率66.7%、平均步數13.8步,綜合表現最優。與每一步都強制調用副駕駛模型的"多智能體流程"相比,UI-Copilot的按需調用策略取得了相近甚至更好的準確率,同時步數更少,效率更高。
在副駕駛模型的選擇上,Qwen3-4B的表現優於更小的Qwen3-0.6B和Qwen3-1.7B,也優於視覺語言模型Qwen2.5VL-7B。研究團隊認為,Qwen3-4B的強項在於上下文理解和摘要能力,這正是檢索任務的核心需求。
在訓練範式上,監督微調(SFT冷啟動)是必要的,去掉後性能下降明顯。工具調用強化學習和行動強化學習缺一不可:前者提升工具使用準確率,後者穩定多步執行能力。在線策略(自生成歷史)相比離線策略(專家歷史)有顯著優勢,印證了理論分析的結論。
在訓練數據比例上,行動數據與工具數據的比例定在600:2000時綜合效果最好,進一步增大任何一方都不再帶來明顯提升,說明兩類數據的比例有其最優區間。
六、哪些地方還沒做好
研究團隊在論文末尾也坦誠指出了當前系統的局限。目前副駕駛模型只包含Retriever和Calculator兩種工具,而真實世界的手機操作任務往往還需要網路搜索、圖像裁剪、文件管理等更多類型的輔助能力。如何將框架擴展到更豐富的工具集,是下一步研究的方向。
從失敗案例來看,系統仍然存在三類典型問題:視覺感知和空間推理上的偏差(比如面對有障礙的迷宮,AI看不出障礙而反覆執行錯誤操作)、任務進度判斷的混淆(誤以為某個子任務無法完成而提前終止整個任務)、以及計劃與執行之間的不一致(AI在思考中說要繼續,實際操作卻選擇了停止)。這三類問題揭示了當前AI助手在視覺理解、狀態感知和執行一致性上仍有較大的提升空間。
---
歸根結底,這項研究做的事情,是給AI手機助手配備了一套更合理的"分工"機制。過去是一個人扛所有,記憶、計算、操作全靠自己,壓力大了就容易出錯。現在是經理只管執行,遇到需要翻資料時叫一聲檢索者,遇到需要算數時叫一聲計算者,整個流程清晰、專注、高效。
這對普通用戶意味著,未來的手機AI助手在處理"查多個資訊再綜合計算"這類現實任務時,將變得更可靠。不只是幫你打開應用、點擊按鈕,而是真正理解你的意圖、記住過程中收集到的資訊、計算出準確結果,然後告訴你答案。
當然,這個領域依然在快速演進。工具種類的擴展、視覺感知能力的提升、執行一致性的改善,都是擺在研究者面前的真實挑戰。感興趣的讀者可以通過arXiv編號2604.13822閱讀完整論文,深入了解技術細節。
---
Q&A
Q1:UI-Copilot和普通AI手機助手的區別是什麼?
A:普通AI助手把所有記憶、計算、操作都壓在同一個模型上,任務步驟一多就容易出錯。UI-Copilot把職責分開,主控AI只負責操作,需要查歷史資訊時調用Retriever,需要計算時調用Calculator,各司其職,不互相干擾。對話歷史也只保留簡潔進度摘要,詳細內容另外存檔,避免上下文過長導致的混亂。
Q2:TIPO訓練方法和普通強化學習訓練有什麼不同?
A:普通強化學習通常用專家提供的歷史數據訓練,但實際部署時AI面對的是自己走出來的歷史,兩者不匹配會導致性能下降。TIPO把工具調用和行動執行分開訓練,工具調用用離線數據,行動執行用AI自己生成的在線歷史,確保訓練和部署環境一致。研究團隊還用數學推導證明了這種對齊的必要性。
Q3:MemGUI-Bench評測基準測的是什麼類型的任務?
A:MemGUI-Bench專門針對記憶密集型和計算密集型的長流程手機操作任務,其中約70%的任務要求AI記住多個步驟前獲取的資訊,約20%需要做數學計算,平均每個任務需要36步才能完成。相比AndroidWorld的8.4步均值,難度大幅提升,是目前評測AI手機助手長任務能力最具挑戰性的基準之一。






