這項由清華大學、北京大學和香港大學聯合開展的研究,以技術報告形式於2026年6月22日發布於預印本平台arXiv,編號為arXiv:2606.23449。感興趣的讀者可通過該編號查閱完整論文。
你有沒有遇到過這樣的時刻:想在網上比價買一雙運動鞋,需要在淘寶、京東、拼多多之間來回切換,價格抄在手機備忘錄里,還要手動複製優惠券,最後還得記住哪家包郵、哪家不包郵。折騰半天,人累了,也不一定買到最划算的。這種"被手機折騰"的感覺,恰恰是當下所有智慧型手機用戶共同面對的困境——我們明明有一台功能強大的設備,卻仍然要像搬磚工人一樣,在一個個應用程式之間搬運資訊。
這項研究給出的回答是:為什麼不能讓手機的作業系統本身,直接幫你完成這一切?
研究團隊提出了一個名為AOHP(Android Open Harness
Project,安卓開放代理平台)的系統,它不是一個普通的手機應用,而是對安卓作業系統本身進行了深度改造。用一個比喻來描述:傳統智慧型手機就像一棟大樓,每個應用程式是一個獨立的房間,房間和房間之間有隔牆,你必須親自走進每個房間取東西;而AOHP相當於在這棟大樓里派駐了一位專職管家,他不僅能進出所有房間,還記得你的習慣和偏好,能在你開口之前就把你需要的東西擺到你面前。
這位"管家"的核心身份,是一個AI智能體(Agent)。在AOHP的設計哲學中,AI智能體不再是某個應用程式里的小助手,而是被視為作業系統的"一等公民"——它和系統本身處於同等地位,可以調度一切資源、跨越所有應用邊界。
一、手機為什麼越來越難用?問題出在哪裡
要理解AOHP解決的是什麼問題,得先搞清楚現在的手機作業系統是怎麼設計的,以及這種設計有什麼根本性的缺陷。
現代智慧型手機作業系統,包括安卓和iOS,骨子裡都是"以應用為中心"的架構。這意味著作業系統的設計邏輯是:每個應用程式是一個獨立的功能單元,由開發者決定它長什麼樣、能做什麼、怎麼做。用戶打開一個應用,和應用交互,完成某項任務,然後切換到下一個應用。作業系統在這個過程中扮演的是"房東"的角色——它提供地基和水電,但每個"租戶"(應用程式)的內部裝修、家具擺放,都是租戶自己的事。
這種設計在早期非常合理:應用程式之間的隔離保證了安全性,每個應用對自己的界面和數據擁有完全控制權,開發者可以自由發揮。但隨著人們每天需要跨越越來越多的應用來完成任務,這種設計的弊端開始凸顯。
以"應用為中心"的作業系統有幾個天然缺陷。其一,界面是固定的。你看到的每個按鈕、每個菜單,都是開發者事先決定好的,你只能被動適應,沒有辦法根據自己的需求重新組織資訊。其二,數據被困在各自的"房間"里。你在一個應用里存的資訊,另一個應用通常拿不到,用戶必須手動搬運。其三,權限管理只能保護到應用的邊界,一旦AI智能體跨越多個應用、多個步驟來處理數據,原來的權限系統就無法追蹤敏感資訊到底流向了哪裡。
AI智能體的出現,讓這些問題變得更加尖銳。智能體和人類用戶的工作方式有根本性的差異:它處理結構化文字比處理像素圖像快得多,它可以同時執行多個任務,它的操作速度遠超人類點擊螢幕的速度,它需要在多個應用之間協調,並且需要記住跨越整個任務周期的上下文。把AI智能體塞進一個為人類手指點擊設計的作業系統里,就像讓一位職業賽車手開著限速30公里的老年代步車——不是能力不足,而是環境根本不匹配。
AOHP的核心思路,就是從作業系統層面重新設計這個"環境",讓AI智能體能夠真正發揮潛力。
二、為什麼選擇安卓作為改造基礎?
研究團隊沒有從零開始造一個新系統,而是選擇在現有的安卓系統基礎上進行"深度裝修"。這個選擇本身就體現了工程上的務實智慧。
安卓系統擁有幾個難以複製的優勢。首先是龐大的應用生態——覆蓋通訊、辦公、購物、內容娛樂、設備控制的數以百萬計的應用程式,這些都是可以被AI管家調度的"服務資源"。其次是成熟的硬體支持,安卓已經在各種設備上跑了十幾年,驅動程式、傳感器、網路、電源管理都有完善的實現。最重要的是,安卓開源項目(AOSP)允許任何人深入修改系統服務、框架層、界面棧和運行時策略,這為研究團隊提供了真正意義上的"動手權限"。
研究團隊將AOHP定義為一個"代理harness"(代理運行框架),而不是一個全新的作業系統。這個詞的選擇很微妙:harness在英語裡本指駕馭馬匹的馬具,用在這裡意味著這個系統的目的是"駕馭"已有的安卓生態,而不是取代它。用戶原來能用的所有應用和功能,在AOHP上仍然可以正常使用;AOHP只是在原有基礎上,為AI智能體增加了三套全新的能力體系。
這三套能力體系,研究團隊將其稱為:個性化服務組合、高效代理接口、以及安全資訊流。它們分別回答了三個核心問題:AI管家如何知道你需要什麼並幫你把各種服務拼裝到一起?AI管家如何以最快、最省力的方式完成任務?AI管家在處理你的敏感資訊時,如何保證你的隱私不被泄露?
三、AI管家如何為你"量身定製"服務入口?
回到最開始的比價場景。在傳統安卓系統上,你需要打開淘寶、打開京東、打開拼多多,分別搜索,把價格記下來,然後自己比較。在AOHP的設想中,作業系統會直接為你生成一個"購物聚合入口"——這不是某個固定的應用,而是AI管家根據你"想買運動鞋"這個意圖,動態拼裝出來的一個專屬界面,它把來自多個平台的搜索結果、價格比較、優惠券資訊、快遞時效全部整合在一起,你只需要和這個界面交互,而不必關心背後動用了哪些應用。
這就是"個性化服務組合"(Personalized Service Composition)的核心思想:用戶面對的不再是一個個孤立的應用,而是一個圍繞自己當前意圖動態生成的"任務入口"。這個入口是活的,是專為你的需求量身裁剪的,而不是哪個開發者事先決定好的固定界面。
這種動態入口有三個組成部分,分別發揮不同作用。"任務模式"(Task Schema)定義了用戶想要完成什麼,比如"在預算內比較運動鞋"或者"補充家裡缺少的日用品"。"服務圖譜"(Service Graph)則把這個任務分解為具體的能力調用,明確需要從哪些應用、哪些API、哪些界面獲取資訊或執行操作。"展示策略"(Presentation Policy)決定哪些中間過程應該讓用戶看到,哪些可以由AI管家在後台悄悄處理完。這三者的分離,使得個性化不會演變成"黑箱操作"——用戶始終可以知道關鍵決策是怎麼做出的。
要實現這種動態組合,AI管家首先需要知道系統里都有哪些能力可以調用。AOHP通過"能力發現"機制,系統性地掃描所有可用的服務接口,不論是應用程式開放的API(應用程式編程接口,可以理解為應用對外提供的標準化服務窗口)、命令行工具,還是普通的圖形界面,都會被登記在案,記錄各自的輸入輸出格式、前提條件、副作用,以及適用的數據策略。老舊應用雖然沒有開放API,也可以通過圖形界面的方式參與進來;新型服務則可以提供更直接的接口供AI高效調用。
在組合服務時,系統會遵守嚴格的策略約束。比如,在多個購物平台上並行搜索商品是無害操作,可以放心並行執行;但真正點擊"付款"這個涉及狀態變更的動作,就需要用戶明確確認。快遞地址可以用於估算運費,但只能通過資訊流沙盒(後文詳述)來使用,不會直接暴露給AI的可見上下文。換句話說,這個動態入口不只是一個便利工具,它同時也是一個策略執行的檢查站。
個性化的另一個關鍵特性是跨服務記憶。AOHP維護一套"系統記憶",用於在應用邊界之間保存用戶的偏好和歷史。比如,你在某次網購中設定的偏好配送時間窗口,可以在你下次在另一個平台購物時自動使用,而不需要你再次輸入。這套記憶分為三個層級:持久檔案記憶儲存穩定的長期偏好;任務本地記憶儲存當前任務的臨時狀態,比如正在比較中的候選商品列表;敏感記憶則通過沙盒索引而不是明文來保存私密資訊,防止泄露。這種分層設計防止了個性化功能變成一個無節制積累隱私數據的漏洞。
四、AI管家如何做到快速、精準地完成任務?
假設你讓AI管家幫你找出手機相冊里所有包含文字"AOHP"的圖片,然後調整其中第一張圖片的亮度。在傳統安卓上,AI需要一步步打開相冊應用、滾動瀏覽、截圖分析、點擊進入編輯模式、找到亮度調節滑塊……每一步都需要"看截圖、判斷下一步、執行點擊"這個循環,效率極低。AOHP的"高效代理接口"(Efficient Agent Interfaces)體系,就是專門為打破這種低效循環而設計的。
最直觀的效率改進來自"並行後台交互"(Parallel Background Interaction)機制。傳統作業系統把應用的生命周期和物理螢幕綁定在一起——前台只能有一個應用,其他應用在後台受到嚴格限制。AOHP通過引入輕量級"虛擬顯示器",把執行與螢幕解耦:AI管家可以在多個虛擬螢幕上同時運行不同任務,而不打擾用戶正在進行的前台操作。你在刷影片的同時,AI可能已經在後台默默完成了五件不同的任務。
另一個效率來源是"代理感知界面增強"(Agent-aware UI Enhancement)。傳統的應用圖形界面充滿了對AI來說多餘的資訊:裝飾性的顏色、圖標、布局樣式,這些對人眼來說是友好的,但對AI來說是干擾。AOHP將圖形界面轉化為結構化的語義表示,去除冗餘,保留並強化語義資訊,讓AI能夠更準確、更快速地理解界面內容,同時保留在必要時回退到"看截圖"模式的能力。
面對一些既不屬於圖形界面交互、也不屬於API調用的任務,AI還需要一個本地的執行空間來進行計算、數據處理或運行工具。AOHP提供了一個"原生沙盒運行時"(Native Sandbox Runtime),這是一個獨立於所有應用程式界面的、由作業系統管理的執行環境。AI可以在這裡執行代碼、處理數據、運行長時間的服務,然後把結構化的結果返回給任務上下文,而不會把所有中間步驟都堆進AI的工作記憶里,從而節約大量計算資源。
跨應用工作流中還有一個容易被忽視的痛點:文件的傳遞。你在郵件應用里保存了一個附件,然後需要在文檔編輯應用里用到它——這個"搬運"過程在傳統系統里對AI來說極不透明,AI不確定文件保存到了哪裡,也不知道如何在不同應用之間傳遞文件。AOHP通過"統一文件快捷通道"(Unified File Shortcut)機制解決了這個問題:所有涉及文件的圖形界面操作都會在系統層面留下結構化記錄,AI可以直接查詢"剛才那步操作保存了什麼文件,路徑在哪裡",而不需要從截圖里猜測。反過來,AI也可以把準備好的文件直接交給正確的系統界面流程,無需手動模擬用戶操作。
此外,作業系統會持續產生各種轉瞬即逝的事件,比如彈出幾秒就消失的Toast提示、一閃而過的推送通知、傳感器的實時數據流。傳統的AI只能靠輪詢(不斷主動詢問"有沒有新消息")來捕獲這些資訊,容易錯過。AOHP引入"事件流抽象"(Event Stream Abstraction),讓AI可以像訂閱報紙一樣"訂閱"某類事件,系統會在事件發生時自動推送給AI,並通過通知緩衝區保留那些轉瞬即逝的消息,確保AI不會錯過關鍵的界面上下文或傳感器讀數。
五、AI管家怎麼保證不偷看你的隱私?
這是所有人在把AI引入個人設備時最核心的疑慮:當AI管家擁有訪問你所有應用的權限時,你的銀行卡號、密碼、家庭住址會不會被它"看見"?萬一AI被惡意內容劫持,或者管家本身出現漏洞,這些資訊會不會泄露出去?
AOHP的"安全資訊流"(Secure Information Flow)體系給出了一套系統級的隱私保護方案。其核心思路可以用一個比喻來理解:銀行的出納員不需要知道你的密碼,只需要知道你有一個"有權限執行取款操作的賬戶憑證"。AOHP對敏感資訊採用同樣的邏輯——AI管家永遠看不到敏感資訊的真實內容,只能看到一個代號(占位符),而真實內容始終鎖在作業系統的"數據保險箱"(Data Vault)里。
具體來說,當應用界面、文件、API響應或用戶輸入中包含敏感內容(比如銀行卡號、手機密碼、家庭住址)時,AOHP會在這些內容到達AI的"視野"之前,將其替換為類似`
當AI需要使用這些敏感資訊執行某個操作時(比如填寫快遞地址、提交支付),它提交的是占位符和意圖,而不是明文數據。一個"可信保險庫執行器"(Trusted Vault Executor)負責接收這個請求,首先檢查策略是否允許,必要時向用戶彈出清晰的確認請求,然後在受信任的隔離環境內完成實際操作。如果操作結果仍然是敏感的,返回給AI的仍然是一個新的占位符,而不是明文。這樣一來,即使AI本身被惡意提示詞攻擊"劫持",攻擊者能拿到的也只是無意義的占位符代號。
僅僅在"入口"處保護還不夠,因為敏感數據可能經過多個步驟的傳遞和變換。AOHP引入了"數據流污點追蹤"(Data Flow Taint Tracking)機制,這是一種在手機安全領域有深厚歷史的技術(有學者於2014年發表了相關的移動端實現TaintDroid)。一旦某個數據被標記為敏感,這個標記會像"污點"一樣跟隨數據,穿越複製、變換、組合、傳遞的每一個步驟。當數據最終要到達某個"出口"(比如被展示給用戶、寫入儲存、通過網路傳輸)時,系統會檢查這個出口是否在策略允許範圍內,以及是否已經獲得了用戶授權。整個傳播路徑還會被記錄下來,形成可審查的日誌,幫助用戶和系統管理員了解"哪條資訊從哪裡流向了哪裡"。
策略執行系統還解決了另一個痛點:現有的權限彈窗往往讓用戶困惑,不知道"允許"意味著什麼後果。AOHP在需要用戶授權時,能夠用具體的語言解釋這次操作的來源(哪條資訊)、目的(為什麼要用)、目的地(要發送給誰)和下游效果(會發生什麼),而不是一句模糊的"是否允許訪問"。
六、實驗結果:管家到底有多強?
研究團隊用一個叫做OpenClaw的AI智能體,在兩套環境下進行了測試:一是普通的原版安卓系統,二是改造後的AOHP系統。測試任務集包含30個現實世界的手機任務,覆蓋六大能力類別:圖形界面操作、非圖形界面操作(文件處理、命令行等)、事件捕獲(等待並響應通知)、多源資訊檢索(從多個應用收集資訊並整合)、記憶管理(記住之前操作的結果並回答相關問題),以及綜合了多種能力的混合任務。每類5道題,共30道,每道題又細分為若干個完成檢查點,以更精細地衡量完成程度。
在任務完成率上,AOHP環境下的AI將平均完成率從54.44%提升到了75.56%,提升了21.12個百分點。更具體地說,在普通安卓上,AI完整解決了13道題,7道題只完成了一部分;而在AOHP上,AI完整解決了20道題,5道題只完成了一部分。提升最明顯的是那些涉及到"捕獲轉瞬即逝通知"、"精細的應用內界面操作"以及"需要記憶跨越多步驟、多應用的資訊"的任務——這些恰恰是AOHP專門優化的場景。
在效率對比上,為了確保公平,研究團隊只統計了兩種環境下都完整完成的11道題,避免任務難度不同帶來的誤導。結果顯示:AOHP所需的工具調用次數減少了44.64%(從233次降到129次),總用時減少了44.21%(從33.94分鐘降到18.93分鐘),消耗的大模型token(可以粗略理解為AI"思考"所用的計算量)減少了51.55%(從710萬降到344萬),向大模型發出的請求次數減少了47.62%(從273次降到143次)。
效率提升的根源在於,AOHP讓AI不需要反覆"爬視圖層級、滾動頁面、重新點擊"來導航複雜界面,統一文件通道、結構化界面和事件流訂閱大幅縮短了每個操作的路徑長度,而且每次返回給AI的資訊更精簡,AI的上下文不會被冗餘資訊撐得越來越大,每一步的計算成本也更低。
在安全性驗證上,研究團隊專門構建了一個標註了敏感欄位的支付應用,設計了五類安全測試場景,覆蓋敏感資訊展示、普通操作放行、敏感操作攔截、不支持訪問的失敗保守處理,以及敏感事件流的脫敏處理。五類測試全部通過——賬戶、銀行卡、手機號和交易欄位在AI可見的界面里只以占位符形式出現;普通控制項和文件可以正常訪問;轉賬欄位、支付確認和敏感文件分享需要用戶明確同意;超出策略範圍的訪問請求在"失敗關閉"模式下被拒絕,而不是妥協地泄露數據;事件流中的敏感欄位被脫敏處理並保留污點元數據。
七、這個方向還有哪些路要走?
研究團隊在論文末尾坦誠地指出了當前原型系統的四個主要局限和未來需要攻克的方向。
首先是兼容性覆蓋的問題。市場上存在大量使用自定義渲染方式的應用(比如遊戲引擎渲染的界面),以及主動對抗自動化工具的應用(某些需要真人操作驗證的平台)。如何讓結構化界面提取在這些情況下仍然可靠,如何在結構化方式失效時優雅地回退到截圖模式,以及如何為應用開發者提供清晰的兼容性指導,都需要進一步研究。
其次是能力發現的自動化。目前AOHP對各個服務能力的描述依賴於手動標註(或開發者提供的元數據),這對大量歷史遺留應用來說是個繁重的工作量。未來需要開發能夠自動推斷應用能力、副作用標籤和策略元數據的技術,減少對人工注釋的依賴。
再次是資源調度的精細化。後台並行執行聽起來很美好,但手機設備的計算資源、散熱能力和內存都有限。真實產品級的實現需要一套合理的調度策略,協調虛擬顯示器、沙盒運行時、事件流訂閱和前台用戶交互之間對資源的競爭。
最後是策略交互的可用性。再精密的隱私保護機制,如果每次都彈出讓用戶摸不著頭腦的授權彈窗,用戶最終會養成"無腦點允許"的習慣,保護效果就大打折扣。如何設計既能傳遞足夠資訊、又不讓用戶感到疲憊的授權界面,如何提供可回顧的操作日誌,如何讓策略的"目的、接收方、保留期限、同意狀態"對普通用戶真正透明可理解,是一個需要人機交互研究深度介入的課題。
說到底,AOHP做的事是在問一個根本性的問題:當AI智能體成為我們使用數字世界的主要方式時,我們今天的作業系統還夠用嗎?這項研究的答案是否定的,並且給出了一個在現有安卓生態上可以真實運行的系統級改造方案,用數據證明了這種改造在任務完成率、執行效率和隱私安全三個維度上的可行性。
當然,這還是一個早期的研究原型,距離消費者能在自己手機上用到,還有相當長的路要走。但它提供了一套值得認真對待的思路框架:手機作業系統的下一次重大演進,方向可能不是更漂亮的界面、更流暢的動畫,而是真正把AI智能體當作系統的核心參與者來設計整套運行機制。
對這個領域感興趣的讀者,可以通過arXiv編號2606.23449查閱完整的技術報告,或者訪問項目開源代碼庫github.com/aohp-os/aohp了解實現細節。
Q&A
Q1:AOHP和普通安卓手機有什麼區別,用起來感覺不一樣嗎?
A:AOHP是對安卓作業系統底層的改造,不是一個普通的應用程式。用戶體驗上最大的變化是:你不再需要在多個應用之間來回切換來完成一項任務,系統會根據你的意圖動態生成一個"聚合入口",把各個應用的功能整合到一起。同時,原來的所有安卓應用仍然可以正常使用,兼容性不受影響。目前這還是一個研究原型,普通消費者暫時還無法直接使用。
Q2:AOHP的資訊流安全機制能防止AI助手偷看銀行卡密碼嗎?
A:AOHP設計了一套"占位符+數據保險庫"機制,AI助手在執行任務時只能看到類似`
Q3:AOHP與當前市面上的手機AI助手(如Siri、Google Assistant)有什麼本質區別?
A:當前主流的手機AI助手本質上還是"應用層"的工具,它們受制於作業系統給各個應用劃定的權限邊界,跨應用操作能力有限,且通常只能處理前台可見的內容。AOHP的根本區別在於:它在作業系統層面重新設計了AI智能體的運行環境,賦予AI後台並行執行、結構化界面訪問、跨應用統一文件通道、事件流訂閱等系統級能力,並配套了細粒度的資訊流安全追蹤機制,讓AI真正成為作業系統的"一等公民",而不是某個應用里的附屬功能。






