這項由OPPO AI中心Multi-X團隊完成的技術研究發布於2026年5月,論文編號為arXiv:2605.05765,感興趣的讀者可通過該編號查閱完整原文。
手機已經變成了我們身體的一部分——它承載著我們的購物習慣、出行記錄、照片回憶,甚至我們每天的喜怒哀樂。然而,絕大多數時候,手機對我們來說依然只是一塊被動響應觸摸的螢幕,而不是一個真正懂我們的夥伴。你有沒有遇到過這樣的場景:拿著一瓶飲料想在網上比價,卻要先打開App,再手動輸入名字,再搜索,再對比價格——明明手機攝影機就對著那瓶飲料,卻什麼忙都幫不上?
OPPO AI中心的研究團隊正是從這類日常痛點出發,構建了一個名為X-OmniClaw的移動端智能代理系統。這套系統的核心理念,可以用一個比喻來理解:如果說過去的手機助手是一個只會接電話的前台,那麼X-OmniClaw就是一個隨時在場、能看會聽、有記憶、能主動出手幫你辦事的全能管家。這位管家不住在遠端的雲端伺服器里,而是就在你的手機上,時時刻刻感知你周圍的世界,記住你的喜好,並在你需要時精準執行任務。
一、為什麼手機需要這樣一位"全能管家"
在正式介紹這套系統的工作方式之前,有必要先聊聊它的來歷和它試圖解決的根本問題。
目前市面上已有一些AI手機助手,比如豆包手機(Doubao Phone)這類產品,驗證了"用AI跨App完成任務"在技術上是可行的。但這類方案大多依賴於在遠程數據中心運行一個"虛擬手機",你發出的每個指令都要繞一大圈才能被執行。這就好比你讓一個遠在另一個城市的人幫你開窗戶——他必須先看到你家的實時畫面,再遙控一台機器人去操作,不僅慢,而且他根本沒辦法感知到你家的實際溫度、光線,更不知道你家裡放著什麼私人物品。
另一類開源框架,比如OpenClaw,在PC端做得不錯,讓開發者可以自己定製AI代理的行為邏輯。但PC端的使用場景和手機端差異極大——手機是移動的、實時的、高度個人化的。你在街上拍到一件衣服時,手機助手沒辦法幫你實時判斷該去哪裡比價;你剛從旅行回來,助手也不知道你相冊里哪些照片是在哪裡拍的、主題是什麼。
X-OmniClaw的目標,就是把這兩類方案的優點合併起來,同時繞開它們的核心缺陷。這套系統直接運行在用戶的安卓手機上,核心感知和執行能力都在本地完成,只有需要複雜推理時才向雲端語言模型請求"燃料"。打個比方,手機是車,X-OmniClaw是車裡的發動機和傳感器系統,而雲端的大語言模型只是加油站——車主要靠自己跑,偶爾去加個油。
這套系統由三個緊密配合的模組構成,分別是Omni Perception(全感知)、Omni Memory(全記憶)和Omni Action(全行動)。這三個模組不是各自獨立運轉的,而是像人的眼耳、大腦記憶和雙手一樣,協同工作,共同支撐起這位"全能管家"的日常運轉。接下來,我們一個一個地把它們拆開來看。
二、全感知:這位管家是怎麼"看"、"聽"、"感知世界"的
假設你是一個新來的保姆,第一天上班時你需要同時關注很多事情:僱主在說什麼(語音)、廚房裡正在發生什麼(攝影機視角)、手邊的備忘錄寫了什麼(螢幕內容)。如果這三件事你只能盯著一件,另外兩件就會遺漏關鍵資訊。X-OmniClaw的Omni Perception模組,解決的正是這個"同時關注多個資訊來源"的問題。
系統建立了一個統一的資訊入口,就像一個公司的前台,所有來自不同渠道的"客人"都從同一扇門進來。這些"客人"可以是用戶直接在App內發出的操作,可以是點擊螢幕懸浮按鈕的觸發,可以是對著麥克風說的一句話,也可以是提前定好的定時任務,甚至還可以來自飛書、Discord等外部平台發過來的消息。不管資訊從哪裡來,系統都把它歸入同一套處理流程。
對於需要定時執行的任務,系統還專門利用了安卓系統自帶的AlarmManager功能,在手機待機甚至低電量狀態下也能被"喚醒",不會因為手機熄屏就錯過觸發時機。這就好比給管家設了一個不會因為打盹而失效的鬧鐘。
在感知層面,系統同時整合了三條資訊通道。第一條是攝影機畫面,代表管家的"眼睛",能看到真實世界裡的物體。第二條是螢幕內容,代表管家對手機界面的"閱讀能力",知道當前App里顯示的是什麼。第三條是麥克風輸入,代表管家的"耳朵",能實時把你說的話轉成文字。
這裡有一個特別實際的技術細節:手機在播放音樂或影片時,麥克風會同時收到外部聲音和設備自己發出的聲音,這兩者混在一起會讓語音識別出錯,就像你在嘈雜的KTV里打電話一樣。系統專門加入了一套叫做"自適應聲學回聲消除"(AEC)的技術,在採集聲音時主動把設備自己播放的聲音過濾掉,確保收到的是乾淨的用戶指令。
這三路信號在採集後並不是簡單地排成隊等待處理,而是通過一個"去耦合流式管道"來協調。攝影機和螢幕畫面會被異步推送進一個內存環形緩衝區,像一個會自動更新的短期記憶,保存最近一段時間的視覺歷史。與此同時,一個"時間對齊模組"負責把語音和視覺信號通過時間戳精準地對齊——確保你說"這個多少錢"的那一刻,系統知道你當時的攝影機正對著什麼。
當這些多模態資訊進入系統後,並不會直接觸發後續的操作。系統會先用一個視覺語言模型(VLM,可以理解為一個既能看圖又能讀文字的AI大腦)來解讀當前場景,並結合用戶的問題,生成一個更完整的"意圖理解"。如果問題的答案可以直接從當前畫面中得出,系統就直接回答。如果問題需要進一步的操作,系統就會把解析後的意圖轉化成一個結構化的任務描述,交給後續的執行模組去處理。
舉個具體的例子來理解這個流程:當用戶把攝影機對著一瓶依雲噴霧水,問"這個在淘寶上多少錢",系統不會直接去淘寶搜索"這個"——因為它不知道"這個"是什麼。相反,系統會先從畫面中識別出這是一瓶依雲噴霧水,然後把用戶的問題重新表述為"用戶想知道依雲噴霧水在淘寶上的價格",再去執行搜索操作。這個"先理解再行動"的機制,讓系統的反應更貼近人類助理的工作方式,而不是一個字面執行命令的機器人。
三、全記憶:管家是如何"記住你"的
一個好管家和一個普通雇員之間,最大的區別往往不在於能力,而在於記憶。好管家知道你喜歡喝什麼茶,知道你上周提過要找的那張舊照片在哪個文件夾,知道你正在進行的任務昨天做到哪一步了。X-OmniClaw的Omni Memory模組,試圖讓手機助手擁有這種層次豐富的記憶能力。
這套記憶系統分成兩個層次,類似於人類的"工作記憶"和"長期記憶"。
工作記憶負責處理當前正在進行的任務。當用戶在多個App之間切換、執行一系列相關操作時,系統會持續保存一個多模態的運行時上下文。這個上下文不只是文字聊天記錄,而是包含了截圖(作為視覺證據)、壓縮過的語義摘要(作為對當前狀態的精煉理解)、以及任務進度記錄。這就好比管家在手邊放了一個隨時更新的備忘板,記錄著"我們現在做到第幾步了,上一步的結果是什麼,下一步應該怎麼做"。有了這個機制,即使用戶中途接了個電話或者切換到另一個App,任務也不會"斷片"——系統能夠無縫地從上次停下來的地方繼續。
長期記憶則負責沉澱和復用跨任務的個人知識。系統會從用戶手機上的本地數據中提煉出有價值的資訊,包括照片、歷史操作軌跡、任務相關的元數據等,並將這些資訊轉化為持久保存的"記憶檔案"和"用戶畫像"。這些沉澱下來的資訊可以被注入到後續的推理和交互過程中,讓系統能夠給出更個性化的回應,而不需要每次都從零開始重建用戶的偏好和背景。
以手機相冊為例來理解這個機制:系統不會每次需要找照片時都去掃描整個相冊,而是事先把相冊里的照片轉化為緊湊的語義記錄,每條記錄描述了照片中的物體、場景、事件和用戶相關的線索。這樣當用戶說"找一下我上次去海邊的照片"時,系統可以直接檢索這些語義記錄,精準定位,而不是讓用戶自己慢慢翻。
在實現層面,這套記憶能力通過"技能與工具"的分工協作來落地。"技能"定義了工作流程——哪些技能負責記憶的建立(比如同步、更新、重建),哪些技能負責記憶的使用(比如問答、檢索、基於記憶的操作)。"工具"則是執行具體步驟的執行者。兩者各司其職,分工清晰,這樣當系統需要疊代改進時,不會牽一髮而動全身。
在圖片處理時,系統優先使用多模態模型進行語義摘要;如果模型調用失敗,系統會降級到從圖片的元數據(比如拍攝時間、地點標籤)提取簡化摘要,確保整個流程能夠持續運轉而不是因為某個環節出錯就全部卡死。
在隱私保護方面,系統在把任何內容寫入長期記憶之前,都會先經過一個統一的過濾和脫敏步驟,降低敏感資訊被儲存的風險。用戶可以明確控制相冊記憶功能是否開啟,以及是否允許系統把提煉出的用戶畫像注入到後續的推理上下文中。研究團隊還提出了一個未來方向:把圖像語義摘要的計算遷移到設備端模型上完成,讓原始像素數據儘可能不離開手機,從源頭上降低雲端上傳的隱私風險。
四、全行動:管家是如何精準完成任務的
有了感知和記憶,接下來最關鍵的問題是:管家怎麼真正動手把事情辦好?這就是Omni Action模組負責解決的問題。
安卓手機上的App種類繁多,每個App的界面設計、交互邏輯、元素結構都大相徑庭。有些App提供了規範的界面描述文件(XML),讓系統可以精確知道每個按鈕在哪裡;但另一些App——尤其是廣告密集或者界面複雜的那種——XML資訊往往不準確甚至缺失,單靠它根本沒辦法精準點擊。
為了應對這種多樣性,系統採用了"混合界面理解"策略。具體來說,系統同時使用三種資訊來源來定位操作目標:XML結構資訊、設備端視覺定位模型、以及OCR文字識別。當XML資訊可靠時,優先使用它;當結構資訊薄弱、不完整或者位置模糊時,視覺定位和文字識別來彌補空缺。這個機制在廣告密集或視覺混亂的界面上特別有用——XML告訴系統"大概在哪個區域",視覺資訊進一步鎖定"精確的點擊位置",兩者結合讓操作精度大幅提升。
每次操作都被組織成一個"觀察-推理-執行"的循環。在觀察階段,系統從多模態界面資訊中構建統一的觀察快照;在推理階段,系統判斷當前頁面狀態、上一步操作是否成功、應該調用哪個技能、是否需要檢索記憶;在執行階段,系統通過一系列多樣化的操作方式把決策落地,包括安卓系統級的原子操作(點擊、滑動、輸入等),以及更高層次的操作(文件系統操作、調用預定義工具等)。
除了單次執行之外,系統還有一個更高級的能力:軌跡克隆執行。這個機制的核心是把用戶曾經做過的操作"錄下來",變成可以反覆調用的"技能卡片"。
行為克隆的過程是這樣的:當用戶在某個App里導航到一個特定頁面(比如美團里的限時秒殺頁面),系統會在界面層記錄這個操作過程,通過UI狀態追蹤、結構解析和多模態視覺理解,提取出這次操作的語義意圖——不是逐字逐步地記錄"先點了哪裡,再滑了哪裡",而是理解"這次操作的目的是進入秒殺活動頁面"。系統隨後通過一個叫做"dumpsys activity introspection"的技術手段,提取當前Activity(可以理解為App里的某個具體頁面)的完整啟動參數,包括操作類型、數據地址、附加參數等,把這些資訊封裝成一個可以直接重放的"地址",連同頁面摘要一起保存為結構化的技能卡片。
軌跡重放的過程則是這樣的:當用戶之後說"幫我去美團秒殺頁面",系統通過語義匹配找到對應的技能卡片,然後直接用保存好的啟動參數跳轉到目標頁面,完全繞開了中間那一堆點擊步驟。這就好比你告訴管家"去上次那家餐廳",他直接帶你走最近的路,而不需要你重新描述一遍怎麼去。
為了應對App界面頻繁更新導致保存的跳轉路徑失效的問題,系統採用了多級降級策略:先嘗試用完整的跳轉參數直接啟動;如果失敗,就嘗試更簡化的啟動方式;最後實在不行,就通過任務棧恢復的方式把App最近訪問的頁面調回前台。這種逐步降級的方法,讓系統即使在沒有公開深度鏈接的App上,也能實現較為精準的頁面恢復。
目前,研究團隊已經為電商、本地服務、短影片平台和搜索四大類常用場景預先建立了一批可直接重放的快速入口路徑,實現一鍵直達目標任務。即便用戶的請求沒有完全匹配到某個已克隆的技能,系統也可以通過同樣的深度鏈接技術,把請求分解成"目標App、操作類型、參數"三元組,映射到App原生的入口點,實現快速訪問。
五、三種真實場景中的完整表現
為了更直觀地說明這套系統在實際使用中的表現,研究團隊展示了三個具體的演示場景。
第一個場景是"現實世界副駕駛助手"。用戶把攝影機對準一個真實物品,說"幫我查一下這個在淘寶上多少錢"。系統先通過視覺感知識別出物品是依雲噴霧水,然後把意圖分解為"在淘寶搜索依雲噴霧水",再通過深度鏈接直接跳轉到淘寶的搜索結果頁。之後系統進入一個"滑動-截圖-提取"的循環:多次滑動結果列表,每次截圖後用視覺語言模型讀取結構化欄位(價格、銷量等),並把這些資訊整理成結構化的會話記錄。最終向用戶呈現一份簡潔的價格匯總。如果用戶隨後說"打開第二個商品",系統不需要重新定位,可以直接延續上一個會話繼續操作。
同一場景下還有一個變體:當任務不是來自攝影機,而是來自螢幕內容時,系統會以"ScreenAvatar"(螢幕化身)的方式運作。系統在螢幕上部署一個輕量級的懸浮伴侶,用戶通過麥克風觸發,說"幫我依次解答這些題目",系統就會結合實時螢幕內容和語音意圖,規劃並驅動一系列跨界面的長鏈操作,全程持續解讀中間界面狀態並更新執行策略,基本不需要用戶手動干預。
第二個場景是"主動個性化服務"。旅行回來後,用戶懶得整理照片,更不想手動剪一個主題影片。X-OmniClaw可以在手機空閒時段自動掃描相冊,把照片轉化為語義記憶(比如識別出哪些照片裡有鸚鵡、哪些是海邊場景)。當用戶後來說"幫我把所有鸚鵡主題的照片做成一個精彩集錦",系統直接檢索語義記憶,找出相關照片,通過深度鏈接直接跳轉到剪映(CapCut)的一鍵成片界面,用批量多點觸控操作自動選中這些照片,觸發影片生成——整個流程壓縮到幾個自動化步驟內完成,大幅減少手動操作。
第三個場景是"行為克隆與軌跡重放"。在很多App里,有用的功能頁面往往藏在好幾層菜單之下。X-OmniClaw允許用戶在第一次導航到某個深層頁面時觸發"行為克隆",系統自動捕獲這個頁面的完整啟動參數,保存為技能卡片。以後用戶只需說一句"去美團秒殺頁面",系統通過自然語言匹配找到對應技能,直接跳轉,完全省去了每次重複翻找的過程。
六、研究展望:這套系統的未來方向
研究團隊在論文中明確提出了三個未來演進方向,每一個都對應著當前系統的一個待提升的維度。
第一個方向是引入"自我進化機制"。當前系統的執行軌跡是相對固定的,但未來研究團隊希望系統能夠持續疊代優化自己的執行軌跡,把複雜的推理鏈條提煉成更緊湊的表達,從而減少每次任務消耗的計算量和響應時間。簡單來說,就是讓管家越干越熟練,越干越省力。
第二個方向是"動態記憶演化"。當前的長期記憶會隨時間累積越來越多,但人的偏好和需求是會變化的,舊的、不再相關的記憶反而可能干擾系統判斷。未來系統將引入語義整合和選擇性遺忘機制,確保用戶畫像始終保持新鮮和高質量,而不是一個裝滿過期資訊的舊檔案櫃。
第三個方向是"設備與雲端的協同優化"。目前系統在輕量級日常任務上儘量在設備端本地完成,在需要複雜開放域推理時才調用雲端大語言模型。未來研究團隊希望進一步細化這條邊界,通過安全的意圖感知網關實現更精細的任務分流,在保護隱私的同時最大化利用雲端算力,讓系統既輕快又聰明。
研究團隊還承諾將把所有代碼、資產和相關材料開源發布,並隨系統演進持續更新,支持開放研究和用戶自定義開發。
說到底,X-OmniClaw想解決的是一個很樸素的問題:手機明明是我們最貼身的設備,卻對我們的處境和需求幾乎一無所知。這套系統通過讓手機同時擁有"看"(攝影機感知)、"聽"(語音識別)、"記"(多層次記憶)、"想"(場景意圖理解)和"動"(精準執行操作)的能力,試圖讓手機助手真正成為一個"懂你"的數字夥伴,而不只是一個等待指令的被動工具。
這項研究還沒有對外提供普通用戶可以直接下載體驗的完整產品,目前更多是一個架構和系統設計層面的研究成果。但它描繪的方向——把AI代理的感知、記憶和行動能力深度整合進手機本身——代表著移動端智能助手的一個重要演進路徑。如果你對其中的技術細節感興趣,可以通過arXiv編號2605.05765查閱完整論文。
Q&A
Q1:X-OmniClaw和普通手機語音助手有什麼區別?
A:普通語音助手主要負責回答問題或執行單一指令,而X-OmniClaw能同時整合攝影機畫面、螢幕內容和語音指令,理解用戶所處的真實場景,並自主規劃和執行跨多個App的複雜任務,還能記住用戶的歷史偏好和操作軌跡,是一個具備感知、記憶和行動能力的完整代理系統。
Q2:X-OmniClaw的行為克隆功能是怎麼工作的?
A:當用戶在某個App里導航到某個深層頁面時,可以觸發行為克隆,系統會自動捕獲該頁面的完整啟動參數(包括跳轉地址和附加資訊),保存為可復用的技能卡片。之後用戶只需說出自然語言指令,系統就能識別對應技能並直接跳轉到目標頁面,省去每次重複翻找菜單的步驟。
Q3:X-OmniClaw如何保護用戶的隱私數據?
A:系統在將任何內容寫入長期記憶之前都會進行過濾和脫敏處理,用戶可以自主控制相冊記憶功能的開關以及是否允許系統將用戶畫像注入推理上下文。研究團隊還計劃將圖像語義摘要的計算遷移到設備本地完成,讓原始圖片數據儘量不上傳雲端,從源頭降低隱私泄露風險。






