南京大學、商湯科技等多機構聯合出品：手機AI助手的「開源革命」來了

這項由南京大學、商湯科技、南洋理工大學、上海人工智慧實驗室、香港大學、西安交通大學聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.15093，有興趣深入了解的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

手機螢幕上那些繁瑣的操作，有沒有可能交給AI來做？打開某個App、找到某個設置、按照你的要求完成一系列步驟——這類"手機助手"的想法並不新鮮，但真正能用的系統，過去幾乎是各大科技巨頭的專屬領地。這篇論文要講的，就是一群研究者如何打破這道壁壘，用開源的方式為普通研究者和開發者鋪平道路。

研究者們給自己的成果起名叫"OpenMobile"。這個名字里的"Open"不是噱頭，而是一種宣言：他們把訓練AI手機助手所需的數據合成方法、代碼和數據集全部公開，讓任何人都可以用來訓練自己的AI助手。在這之前，行業里最頂尖的AI手機助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一個叫做"AndroidWorld"的標準測試上，成功率已經接近70%。這個數字聽起來不算驚人，但要知道，這些任務涉及真實的手機操作，每一步都需要AI真正"看懂"螢幕、"想清楚"該怎麼做。然而，這些頂尖系統背後的訓練數據全部保密，外界完全不知道它們是怎麼練出來的。與此同時，依賴公開數據集訓練的開源模型，在同樣的測試上只能達到30%左右，差距懸殊。

OpenMobile的目標，就是填平這道鴻溝。

一、手機AI助手究竟在做什麼

在深入了解OpenMobile的具體做法之前，有必要先搞清楚這類AI助手到底是怎麼工作的。

把AI手機助手比作一位新來的實習生或許更好理解。你把一部陌生的手機交給這位實習生，告訴他"幫我在日曆App里創建一個明天上午十點的會議"。這位實習生需要先看清楚螢幕上的內容（相當於AI"讀取"截圖），然後判斷該點哪裡（相當於AI決定執行什麼操作），一步步完成任務。更關鍵的是，如果某一步走錯了，他還得能意識到出錯了，並想辦法糾正。

贊助商廣告

這類AI系統在學術上叫做"視覺語言模型驅動的移動端智能體"，說白了就是：能看懂手機螢幕圖像、又能理解人類指令的AI，在手機上幫你幹活。訓練這樣的AI，需要大量的"劇本"——也就是每個任務對應的操作軌跡：從第一步點了哪裡，到最後任務完成，每一步都有記錄。有了這些劇本，AI才能通過模仿學習，慢慢掌握如何操作手機。

問題在於，高質量的劇本很難獲得。人工一條一條地標註成本極高，而且人工標註往往存在噪聲和錯誤。更麻煩的是，即便有了劇本，如果劇本里只有"一切順利"的情況，AI在現實中遇到自己犯錯的情況時就會手足無措——它從來沒見過出錯之後該怎麼辦。

OpenMobile針對這兩大難題，分別設計了兩個核心解決方案。

二、給AI建一張"App功能地圖"

解決第一個難題——如何自動生成大量高質量任務指令——OpenMobile採用了一種頗具新意的方法。

現有的主流做法，通常是讓AI在App里隨機點來點去，然後根據它走過的這條路徑來編一個任務。這就像一個人在城市裡隨便走了一條街，然後根據這條街的見聞編一個旅遊攻略。問題是，一條街的見聞太局限了，你根本不知道這座城市還有多少角落、多少有趣的地方。

OpenMobile的做法完全不同。研究團隊把這個過程拆成了兩個階段。

第一階段，先讓AI在App里廣泛探索，把遇到的所有不同頁面都記錄下來，就像繪製一張地圖。在這個過程中，AI每走一步，都會把當前頁面的截圖和它能到達的相鄰頁面記下來。由於不同的探索路徑會經過相同的頁面，研究者用一種叫"感知哈希"的技術來識別"這兩張截圖其實是同一個頁面"，避免重複記錄。最終，所有探索路徑被整合成一個統一的結構，研究者稱之為"全局環境記憶"。可以把它理解為一張完整的App功能地圖，標註了每個頁面有哪些功能，以及頁面之間如何跳轉。

第二階段，才是生成任務指令。對於地圖上的每一個頁面，研究者不僅給AI看這個頁面本身的內容，還額外提供兩類資訊：一是"短期記憶"，也就是這個頁面相鄰的幾個頁面（你從這裡能直接到哪裡、從哪裡能來到這裡）；二是"長期記憶"，也就是整個App里和這個頁面功能相關但可能相距很遠的其他頁面的功能描述。這種"長期記憶"是通過語義相似度檢索獲取的，類似於你在圖書館找書時，系統會推薦主題相關的其他書目。

贊助商廣告

有了這三層資訊，一個強大的視覺語言模型就能生成既多樣又有根據的複合型任務指令——不是簡單的"打開設置"，而是"在音頻錄製App里，把錄音格式改成WAV、採樣率設為48kHz、聲道設為立體聲，然後錄一段短音頻保存"這種複雜指令。生成的指令還要經過質量過濾（評分過低的刪掉）和去重（語義太相似的只保留最好的一條），最終得到一批高質量的任務指令集。

這種把"探索"和"生成"分開的設計，帶來了實質性的好處。研究者做了人工評估：讓有經驗的評測者把OpenMobile生成的指令和兩種基線方法做對比，結果發現OpenMobile的指令在"難度和複雜性"方面明顯更勝一籌，而"合理性和可執行性"同樣沒有下降。在實際訓練效果上，用相同數量（1500條）的軌跡數據訓練，OpenMobile的方法讓AI在AndroidWorld測試中達到48.3%的成功率，而另外兩種基線方法分別只有34.1%和45.3%。

三、教AI如何從錯誤中爬起來

有了任務指令，接下來就要讓AI實際執行這些任務，把執行過程錄製成"劇本"，再用來訓練AI。這就引出了第二個核心挑戰：如何收集既高質量又包含"犯錯與糾錯"經驗的劇本。

最常見的做法叫"專家蒸餾"，也就是讓一個已經很厲害的AI（專家模型）去執行任務，把它的操作過程錄下來，讓待訓練的AI（學習者模型）去模仿。這個方法的優點是劇本質量高，缺點是劇本里全是"教科書式"的完美操作，學習者從來看不到犯錯之後該怎麼辦。到了真實使用場景中，學習者一旦犯錯，就會手足無措，不知道如何糾正。

另一種做法叫"自我進化"，讓學習者自己去執行任務，成功的才留下來，然後重新訓練，循環往復。這種方法的好處是學習者見過自己犯錯的情況，缺點是進步非常慢，而且學習者的能力上限就是它自己當前的水平，很容易陷入瓶頸。

OpenMobile提出了一種融合兩者優點的"策略切換輪轉"方法。核心思路是：讓學習者去執行任務，但旁邊有一個"監考老師"（由強大的視覺語言模型擔任）實時盯著學習者的每一步。一旦監考老師發現學習者偏離了正確軌道——比如連續點錯、陷入循環、完全沒有向目標靠近——就立刻讓專家模型接管，幫學習者糾正軌跡，把任務推回正軌。專家介入至少執行三步後，再把控制權還給學習者。

贊助商廣告

這個過程中，監考老師還會把檢測到的"偏差分析"告知專家模型，幫助專家更好地理解當前的失敗模式，從而給出更有針對性的糾正操作。整個糾錯過程在一次任務執行中最多觸發兩次。

研究者特別指出，他們測試了多種切換策略：完全靠專家、完全靠學習者自我進化、隨機切換（兩個模型不一致時隨機決定用誰）、以及上述的"錯誤介入切換"。結果顯示，錯誤介入切換策略在每條軌跡中平均包含1.56個"錯誤與糾錯"片段，遠高於專家蒸餾的0.42個和自我進化的0.10個。隨機切換雖然包含了0.64個，但由於切換時機混亂，劇本質量參差不齊，最終訓練效果（45.1%）並沒有比專家蒸餾（44.8%）好多少，而錯誤介入切換則達到了48.3%。

訓練之後，研究者還專門測試了模型在實際執行中"發現錯誤、分析錯誤、糾正錯誤"三個維度的能力。結果表明，用OpenMobile數據訓練後的模型，在這三個維度上都明顯優於基礎模型，尤其是糾正錯誤的能力提升最為顯著——提升幅度達到了66%。

四、數據集長什麼樣，效果怎麼樣

按照上述兩大方法，研究團隊在AndroidWorld提供的安卓模擬器環境上，針對20個安卓App，生成了約2800條任務指令，對應34000個操作步驟。每條執行軌跡平均包含12.2個步驟，每步附帶平均129個詞的"思維鏈推理"——也就是AI在做每一步操作之前，先用文字解釋自己為什麼這麼做。這部分思維鏈由專家模型重新撰寫，以保證質量。

研究者用這批數據分別微調了兩個基礎模型：Qwen2.5-VL-7B（70億參數）和Qwen3-VL-8B（80億參數）。前者沒有經過專門針對圖形界面的大規模預訓練，用來檢驗數據本身的價值；後者本身已經是更強的基礎模型，用來探索性能上限。

在AndroidWorld測試上，Qwen2.5-VL基礎版本的成功率是25.5%，經過OpenMobile數據微調後躍升到51.7%，提升了超過25個百分點。Qwen3-VL基礎版本原本已經有47.6%，微調後達到64.7%，與Step-GUI-8B（67.7%）、MAI-UI-8B（70.7%）等行業頂尖閉源系統相比已經相當接近。

贊助商廣告

更能說明問題的是泛化能力。OpenMobile的數據是在AndroidWorld的環境裡收集的，但研究者還在另外兩個完全不同的測試平台上評估了模型。AndroidLab包含9個App的138個任務，Qwen3-VL版本達到51.5%，而同類開源數據方法的最好成績（ScaleCUA）只有30%。MobileWorld是一個更難的測試，專門考察需要跨越多個App、長達數十步的複雜任務，Qwen2.5-VL版本從7.7%提升到14.8%，Qwen3-VL版本從9.4%提升到17.7%，相對提升幅度超過50%。這說明OpenMobile的訓練方法讓AI獲得的不只是"背題"，而是真正的通用操作能力。

研究者還測試了用更大模型（720億參數的Qwen2.5-VL-72B）微調的效果，AndroidWorld成功率達到59.3%，進一步驗證了"數據質量好、模型越大效果越強"的規律。此外，他們也嘗試了強化學習方法——包括單步獎勵的強化學習和完整軌跡級別的強化學習——但發現這些方法在動態測試環境下的提升並不穩定，最終表現未能超越標準的監督微調。研究者認為，這可能與當前環境的多樣性限制和強化學習框架的穩定性有關，留待未來研究解決。

五、這是真本事還是"背了答案"

每當一個開源模型在某個測試集上取得好成績，總會有人問：它是真的變強了，還是只是偷偷"背了答案"？這個疑慮在OpenMobile這裡尤其合理，因為訓練數據就是在AndroidWorld同款環境裡生成的。

研究者對此做了非常透明的分析。他們用一個專業的語義相似度模型，計算了每一條合成訓練指令和AndroidWorld測試集裡每一條測試指令之間的相似度，然後和兩個公開數據集（AndroidControl和AMEX）做了對比。結果是：OpenMobile的合成指令確實比公開數據集更接近測試指令，這是符合預期的，畢竟都是在同一個App環境裡生成的。但是，相似度超過0.7的指令只占全部合成指令的3.5%，大多數指令只是在功能層面有些重疊，而不是字面上的重複或改寫。

更有說服力的是下面這個實驗：如果把最相似的那部分訓練數據刪掉，看看模型成績會怎麼變化，再對比隨機刪除同等數量數據的情況。刪掉10%最相似的數據，成績只是微小下降，說明性能並不是脆弱地依賴於少數幾條"近似題目"。但當刪除比例增加到40%以上時，性能開始明顯下滑，並且比隨機刪除下滑得更快。研究者對此給出了合理解釋：刪掉相似指令，同時也刪掉了覆蓋某些核心App功能的訓練樣本，相當於把某項技能的練習材料全刪了，自然會影響表現。

贊助商廣告

這引出了研究者對"為什麼OpenMobile數據有效"的核心解釋：功能覆蓋率。他們用一個語言模型把每個測試任務分解成所需的原子功能（比如"在日曆App里創建活動"分解為"打開日曆"、"創建新事件"、"設定日期"、"設定標題"等），然後統計訓練數據中覆蓋了多少比例的這些原子功能。隨著合成指令數量增加，功能覆蓋率穩步上升，而且OpenMobile始終高於同等數量的耦合基線方法。進一步的分析還發現，任務需要的功能越多（任務越複雜），成功率越低；而訓練數據覆蓋了越多相關功能，成功率越高。這說明OpenMobile的訓練價值不在於"見過類似的題目"，而在於"覆蓋了足夠多的操作技能"。

說到底，OpenMobile的貢獻是多層次的。在技術層面，它提供了一套可以被任何人復現和使用的數據合成框架，把"全局環境記憶"和"策略切換輪轉"這兩個創新設計系統地結合在一起。在實驗層面，它在三個獨立的動態基準測試上全面驗證了方法的有效性，並且對數據污染風險做了難得一見的透明分析，這在整個領域都屬於少見的嚴謹態度。在社區價值層面，它公開了數據和代碼，讓開源社區有了一個可以繼續疊代的堅實起點。

當然，OpenMobile也有它坦承的局限。目前的訓練數據只覆蓋20個App，環境多樣性有限。強化學習方向的嘗試尚未取得一致性突破，原因可能和模擬器環境的廣度不夠有關。此外，即便是64.7%這個成績，和最頂尖的73.7%相比仍有差距，說明數據質量和基礎模型能力兩者缺一不可，僅憑開放數據合成還不足以完全追平頂尖閉源系統。

手機里那位真正懂你、幫你幹活的AI助手，距離普通人的日常生活正在變得越來越近。而讓這一切變得更加公平、更加透明的努力，或許正是整個領域長遠進步的底氣所在。

Q&A

Q1：OpenMobile和其他手機AI助手相比，優勢在哪裡？

A：OpenMobile最大的優勢在於它是完全開源的——數據、代碼和合成方法全部公開。以前表現好的手機AI助手，比如Step-GUI和MAI-UI，訓練數據全部保密，外界無法復現或改進。OpenMobile讓任何研究者都能用同樣的方法訓練自己的模型，同時在AndroidWorld測試上，它訓練出的模型成功率從約30%躍升到64.7%，已經非常接近頂尖閉源系統，而且在其他兩個測試平台上也展示出了不錯的泛化能力。

贊助商廣告

Q2：OpenMobile的訓練數據會不會是靠"背答案"得高分的？

A：研究者對此做了專門的驗證。他們計算了訓練數據和測試題目之間的語義相似度，發現只有3.5%的訓練指令與測試指令相似度超過0.7，不存在大規模照搬測試題的情況。而且當把最相似的一小部分訓練數據刪掉時，模型成績只是小幅下降，說明性能靠的是廣泛的功能覆蓋而非少數幾條近似題目。

Q3：普通用戶什麼時候能用上OpenMobile訓練出來的手機助手？

A：OpenMobile目前是一個研究框架，訓練出的模型需要在安卓模擬器或真實設備上部署，還不是一個開箱即用的消費級產品。不過由於代碼和數據全部公開，開發者社區可以在此基礎上繼續開發，未來集成進真實手機助手應用的可能性是存在的。目前距離普通用戶直接使用還需要更多工程化工作。