這項由上海交通大學與卡內基梅隆大學聯合開展的研究,於2026年2月發布在預印本平台arXiv,論文編號為arXiv:2604.09574v1,研究方向歸屬於人工智慧領域。感興趣的讀者可通過該編號查找完整論文。
手機螢幕上,一隻看不見的"手"正在悄悄滑動、點擊、翻頁。它不是真正的手指,而是一個由人工智慧驅動的程序——我們稱之為GUI智能體(Graphical User Interface Agent)。這類智能體能夠"看懂"手機螢幕上的內容,然後模擬人類操作來完成各種任務:幫你在購物平台下單、在社交媒體刷新鮮事、在旅行APP預訂機票……聽起來極為方便,但背後卻引發了一場激烈的"貓鼠遊戲"。
微信、淘寶、抖音這類超級平台,每天的收入很大程度上依賴於真實用戶的注意力——你看廣告,平台賺錢;你被推薦內容吸引,平台積累數據。而AI智能體的目標恰恰相反:它追求效率,直接跳過廣告,忽略推薦內容,以最短路徑完成任務。這就像一家餐廳辛辛苦苦擺好了菜單,結果來了一個顧客不看菜單直接衝進廚房取餐。平台當然不願意這樣。
於是,平台開始部署防禦手段:檢測到異常行為,就封號、限流、彈出驗證碼,甚至直接拒絕服務。2025年底,字節跳動旗下的豆包手機助手就遭遇了這樣的衝突——當它嘗試幫用戶操控微信發消息時,微信的風控系統立刻將其識別為可疑腳本,觸發了封號機制,大量真實用戶受到波及,連正常登錄都受到影響。這場事故成為了研究團隊關注這一議題的直接導火索。
然而,學術界此前對這個問題的關注方向有些偏差。大多數研究要麼專注於如何讓智能體完成任務更準確,要麼研究如何讓智能體抵禦平台的惡意干擾。研究團隊認為,這兩個方向都忽略了一個更根本的問題:在智能體被"攻擊"之前,平台首先需要把它識別出來。換句話說,"識別"才是"對抗"的前提。而智能體若想在這個生態中生存,就必須學會如何讓自己看起來像一個真人。
這就是研究團隊提出的核心概念——"螢幕上的圖靈測試"(Turing Test on Screen)。
一、一場關於"手指動作"的身份核查
阿蘭·圖靈在1950年提出了著名的圖靈測試:如果一台機器能通過文字對話讓人分不清它和真人,那它就可以被認為具備了類人智能。研究團隊將這個經典思想搬到了手機螢幕上:如果一個AI智能體的操作動作,能讓檢測系統分不清它和真人,那它就通過了"螢幕上的圖靈測試"。
檢測的核心依據是觸控行為的生物特徵。每個人用手指操作手機的方式都有獨特的痕跡:滑動時手指會自然偏移、按壓有一定的持續時間、操作之間存在人類思考和反應所需的間隔時間……這些細節合在一起,就像是一個人的行為"指紋"。而AI智能體操控手機時產生的信號,往往整齊得不像話——軌跡筆直如尺,點擊瞬間完成,每次操作後緊跟著漫長的"思考等待",這些特徵在真人操作中幾乎不會出現。
研究團隊將這場博弈建模為一個數學上的"最小-最大博弈":檢測器(代表平台)盡力提高識別AI的準確率,而智能體(代表用戶一方)則盡力降低被識別的概率,同時還要保證任務完成質量。這兩方的目標正好相反,形成了一種持續演進的對抗關係,就像捉迷藏遊戲中,躲藏者越來越擅長隱蔽,尋找者也越來越擅長發現。
為了研究這個問題,研究團隊做了一件很紮實的事:他們收集了大量真實的手機操作數據。
二、數據的故事:人類手指和機器之手的天壤之別
研究團隊構建了一個涵蓋21款主流APP的數據集,這些應用被分為五大類:社交媒體(微博、知乎、小紅書、頭條)、購物(京東、淘寶、餓了麼等)、影片(愛奇藝、B站、QQ音樂)、出行(攜程、高德、去哪兒等)以及辦公學習(騰訊文檔、騰訊會議、有道詞典等)。
數據來源分為兩大陣營。一方是真實用戶:研究者招募了年輕男性、年輕女性、中年人和老年人四類群體,因為不同年齡段的人操作手機時確實有生理上的差異——老年人的手指可能更慢、顫抖更多,年輕人的操作則更快、更流暢。另一方是當前最先進的AI智能體:UI-TARS、MobileAgent-E(GPT-4o版本)、MobileAgent-E(Claude-3.5-Sonnet版本)、AgentCPM以及AutoGLM,都是2024-2025年間學術界和工業界的代表性產品。
所有實驗都在同一台小米Max 2手機上進行,運行MIUI 11.0.2.0系統,以保證數據可比性。研究團隊從每次操作中提取了兩類原始信號:一類是觸控事件,記錄手指的坐標位置、移動軌跡、時間戳等;另一類是傳感器事件,包括加速度計、陀螺儀、磁力計、重力感應等8種硬體傳感器的讀數。
從這些原始信號中,研究者進一步提煉出24個統計特徵,分屬幾個大類。運動學特徵涵蓋速度(包括整體平均速度、20%分位速度、50%分位速度、80%分位速度,以及軌跡末尾三個點的中位速度)和加速度(同樣按分位數細分);幾何特徵包括軌跡的路徑長度、起終點直線位移、路徑效率比(終點距離除以總路徑長度,完美直線時等於1)、最大偏離量、均值合力長度、方向角等;時間特徵則包括單次操作持續時間和操作之間的間隔時間;此外還包括觸控起點和終點的坐標位置。
研究者用資訊增益這個概念來衡量每個特徵對區分人類和AI有多大幫助。結果顯示,幾何類特徵最有區分力,尤其是"最大偏離量"(衡量軌跡彎曲程度的指標,資訊增益約0.67)和"路徑效率比"(資訊增益約0.66)。換句話說,軌跡是否筆直,是判斷"你是人還是機器"最強有力的依據。
三、AI的三大暴露點:為什麼機器的操作一眼就被看穿
研究團隊做了初步的定性分析,發現AI智能體在三個方面與人類存在顯著差異,就像間諜試圖混入人群時,卻忘記了人類走路時會微微晃動身體。
第一個暴露點是軌跡的直線性。人類手指在滑動螢幕時,由於肌肉控制、手腕角度、皮膚彈性等生理因素,軌跡總是帶有細微的弧度和抖動——就像用手畫的直線,再努力也不可能完全筆直。而AI智能體的滑動操作,往往是從起點到終點的一條幾何意義上的完美直線,毫無"人味"。論文中附有對比圖,人類的滑動軌跡呈現出自然的彎曲,而AI的軌跡就像是用直尺畫出來的。
第二個暴露點是操作間隔時間的分布。人類完成一個操作後,到下一個操作之間有多長時間?通常是隨機的、不規律的,整體呈現出峰值在零附近的長尾分布——有時幾乎立刻點下一個,有時停頓幾秒思考一下。而AI智能體完成每個動作後,需要調用大型多模態模型來"看圖"、"思考"再"決策",這個推理過程需要相當長的時間。UI-TARS的平均等待時間集中在5到10秒,MobileAgent-E則需要50到80秒,這些規律性的長時間停頓是極其明顯的破綻。
第三個暴露點是點擊的持續時間。人類的手指在觸摸螢幕時,由於皮膚的彈性,接觸時間通常在0.05秒到0.10秒之間,呈現出自然的高斯分布(也就是鐘形曲線分布)。而AI智能體模擬點擊時,是通過程序直接注入觸控事件,接觸時間幾乎為零,在統計圖上表現為一個尖銳的零值峰——就像機器人以光速完成了一次"點擊"。
這三個暴露點合在一起,讓原始的AI智能體幾乎無法通過任何檢測。研究團隊測試了機器學習分類器(SVM支持向量機和XGBoost梯度提升樹)在識別AI操作時的準確率,結果高達99.5%和98%以上,幾乎是完美的識別率。這意味著,當前的智能體面對稍微專業一點的檢測手段,就像穿著太空衣試圖混進日常人群一樣,一眼就露了餡。
四、為它們設計"偽裝衣":四種擬人化改造方案
研究團隊將這個問題稱為"智能體擬人化"(Agent Humanization),並設計了四種改造策略,試圖讓AI的操作更像人類,就像特工學習偽裝自己的行為舉止來通過敵方檢查一樣。
這四種策略構成了一套由外到內的改造體系,統一採用"外部封裝器"的方式:在AI智能體做出每個動作之後,由一個額外的模組對這個動作進行加工,再實際執行。這樣的好處是對原始智能體完全無侵入,任何模型都可以直接套用。
第一種策略針對滑動軌跡的直線問題,稱為B樣條噪聲注入。B樣條是數學中一種常用的曲線生成方法,通過在直線路徑周圍隨機散布控制點,然後用B樣條函數連接這些點,就能生成彎曲自然的曲線。打個比方,原本AI想從螢幕左邊滑到右邊,走的是一條筆直的高速公路;加了這個方法之後,它會走一條略有起伏的鄉間小道。這種方法計算快速,可以實時處理,缺點是生成的曲線隨機性是純數學意義上的,不一定和真實人類的手指運動規律完全一致。
第二種策略是數據驅動的歷史軌跡匹配,稱為旋轉與匹配。這個方法更聰明:直接從真實人類數據中找一條相似的滑動軌跡,然後通過數學變換(旋轉、縮放)把它對準當前需要完成的動作方向和距離,原封不動地"借用"這段真實的人類軌跡來執行任務。如此一來,速度波動、微抖動、末端減速等人類手指獨有的細節都被完整保留了。代價是需要維護一個真實軌跡資料庫,並且在執行時需要花一點時間檢索匹配。
第三種策略針對操作間隔時間問題,稱為假動作注入。在AI等待模型推理的漫長時間裡,程序會自動插入一些無意義的微操作,比如在上一次點擊的位置附近畫一個很小的圓圈(半徑約50像素),模擬人類在思考時無意識地摩挲螢幕的習慣。通過泊松過程(一種描述隨機時間間隔事件的數學模型)以平均每秒0.9次的頻率插入這類微操作,可以有效打破AI等待時的"沉默",使時間間隔分布向人類的模式靠攏。
第四種策略針對點擊持續時間問題,稱為延長按壓。做法非常直接:從真實人類的點擊持續時間數據中擬合出一個高斯分布,每次AI執行點擊時,就從這個分布中隨機採樣一個時長,讓點擊"停留"那麼長時間再結束,模擬手指實際接觸螢幕的物理過程。
在理論層面,研究團隊為後三種方法(B樣條、歷史匹配、假動作)提供了數學證明,核心結論是:隨機化處理能嚴格降低人類行為分布與AI行為分布之間的詹森-香農散度(一個衡量兩個概率分布差異程度的指標),而歷史匹配方法在數據量趨於無窮大時,AI的行為分布會完全收斂到真實人類的分布,從而讓任何檢測器都退化為隨機猜測。
五、實驗的賬單:到底改造了多少,又付出了什麼代價
研究團隊在五大類APP上對所有策略組合進行了系統測試,分為兩種模式:線上模式(智能體實時執行任務,同時評估任務成功率)和離線模式(對已錄製的操作數據事後改造,單獨評估檢測逃避效果)。
從檢測逃避效果來看,歷史軌跡匹配方法始終優於B樣條方法。以社交媒體類為例,離線歷史匹配將"綜合檢測分數"(越低越難被發現)從原始的0.9969降低到0.7190,XGBoost檢測器的準確率從100%降至94.5%;而B樣條方法只能將檢測分數降到0.8507,XGBoost準確率仍有98.17%。這一差距印證了"用真實人類數據偽裝"比"用數學模擬人類數據偽裝"效果更好的直覺。
假動作策略在對付時間間隔檢測方面非常有效——在所有測試的APP類別中,時間間隔規則檢測器的準確率都被壓低到約52%,接近隨機猜測的50%。但這個方案在實際任務執行中付出了沉重代價。在出行規劃類任務中,加入假動作後任務成功率從75%驟降到15%。原因在於,盲目插入的微操作可能觸發界面上的某些元素,導致意外跳轉頁面,而智能體對這些意外狀態毫無感知,結果原定的操作計劃全部打亂。這是一個深刻的教訓:在一個維度上的偽裝,可能會在另一個維度上製造新的破綻。
延長按壓策略效果相當好,以購物類APP為例,僅靠這一個改造,就將點擊持續時間相關的檢測準確率從98.4%降低到了61.33%,操作方式簡單卻立竿見影。
從單個特徵的改造難度來看,研究團隊發現了兩類"難易兩極"的特徵。最容易改造的是路徑彎曲度相關的特徵,比如最大偏離量(maxDev)和路徑效率比,通過歷史匹配後,這兩個特徵的檢測準確率從約99%降至55%至64%,接近隨機猜測,改造成功。最難改造的是兩類特徵。一是落點精度:人類點擊時會有幾個像素的自然偏差,而AI點擊時總是精準命中UI元素的中心坐標。如果人為給AI的落點加噪聲,隨時可能點偏,導致任務失敗,這形成了偽裝效果和任務成功率之間難以調和的矛盾。二是操作間隔:如前所述,假動作雖然能偽裝時間分布,但代價是可能破壞任務邏輯,從理論上解決但實踐中副作用嚴重。
在特徵數量與檢測準確率的關係上,研究團隊還做了一個有意思的實驗:隨機選取不同數量的特徵輸入分類器,觀察檢測準確率的變化。結果顯示,檢測準確率隨特徵數量的增加呈對數曲線上升,在5到10個特徵時就已接近飽和——換句話說,檢測器並不需要用到全部24個特徵,只需要少數幾個關鍵指標就能達到很高的準確率。而經過歷史匹配改造的智能體,即使面對24個特徵的完整集合,檢測準確率也始終維持在比原始AI低10%到15%的水平,說明改造確實在整體上削弱了檢測器的能力,但尚未達到讓檢測器完全失效的程度。
六、這場遊戲的未來:從手指動作到內心意圖
研究團隊沒有止步於眼前的發現,他們對這場"貓鼠遊戲"的未來走向做了深入展望,這也是整篇論文中最值得關注的前瞻部分。
從智能體改造的角度,目前的"外部封裝"方案面臨一個根本性的矛盾:改造效果越好,往往需要越多的處理時間,而處理時間本身就是一個暴露點。研究團隊認為,未來的解決方向應當是"端到端擬人化"——不是在模型做完決策之後再去修飾動作,而是在模型訓練階段就將人類的運動模式內化為模型本身的輸出習慣,就像一個學了多年書法的人,寫出來的字天然就帶著流暢的筆勢,而不是寫完後再用橡皮慢慢修整。
另一個重要方向是個性化擬人化。目前的改造策略是讓AI看起來像一個"平均意義上的人類",但未來的檢測技術可能會進化到驗證"這個操作是否像某個特定用戶的歷史習慣"。到那時,AI就必須學會模仿特定用戶的專屬行為模式,包括這個人習慣用右手還是左手、慣用的滑動力度、思考時的停頓節奏等。
還有一個方向是跨模態擬人化。現有研究主要集中在觸控動作,但真實人類與手機的交互遠不止滑動和點擊:打字時會有錯誤和糾正,閱讀長文時滾動速度會因內容密度而變化,有時會長時間盯著某處"走神"然後突然繼續……這些多模態的行為細節都是未來檢測和改造需要關注的戰場。
從檢測方向來看,研究團隊判斷,隨著擬人化技術的提升,基於"手指動作"(執行層)的檢測會逐漸失效,檢測的前沿將轉向"意圖模式"(意圖層)。AI的行為根本上是高效、目標導向的;而人類的行為則充滿了"無效"的成分——好奇心驅動的漫無目的瀏覽、注意力分散導致的回頭重看、猶豫和改變決定……這些"低效"恰恰是人類的標誌。未來的檢測器,可能會分析更長時間尺度上的行為序列,尋找這種屬於人類的"不完美效率"。用研究團隊的話來說,"圖靈測試在螢幕上的終極形態,將從區分誰的手在動,演變為區分誰的大腦在思考"。
研究團隊還專門討論了這項研究的倫理維度。有人可能擔心,提供這套"偽裝方法"會不會幫助惡意行為者(比如刷量農場、虛假流量製造者)繞過平台的防禦?研究團隊的回應是:惡意行為者本來就有私有的逃避技術,只是不公開,這反而讓防禦方處於資訊劣勢;而公開發表這項研究、提供標準化的檢測基準,能讓平台防禦方更系統地了解自己面臨的威脅,從而構建更精準的防禦。更重要的是,研究的根本出發點是保護用戶權益——正如豆包助手事件所展示的,平台的"一刀切"防禦會誤傷大量使用AI助手提升效率的普通用戶,而更精細的行為識別技術,有助於區分"真正的惡意自動化"和"用戶授權的合理輔助"。
說到底,這項研究揭示的是一個更宏觀的趨勢:當AI助手越來越深入地滲透到我們日常的數字生活中,它與數字平台之間的關係必然從當前的劍拔弩張走向某種形式的博弈均衡。今天,AI操控手機的動作還粗糙得像個機器人;但隨著擬人化技術的成熟,也許有一天,沒有人能看穿螢幕背後操控的究竟是手指還是算法。
歸根結底,這不僅是一個技術問題,更是一個關於"誰來定義正常使用"的社會問題。平台想要捍衛自己的商業利益,用戶想要獲得更強大的AI助手,而這中間的張力,將是未來幾年數字生態中最值得關注的議題之一。有興趣深入了解這項研究的讀者,可通過arXiv論文編號2604.09574查找完整論文。
Q&A
Q1:GUI智能體為什麼會被平台檢測到?
A:GUI智能體在操控手機時會暴露三個明顯破綻:滑動軌跡過於筆直(人類手指天然帶有弧度和抖動)、操作間隔時間過長且規律(因為AI需要時間"看圖思考",而人類操作間隔短且隨機)、點擊持續時間幾乎為零(程序注入的觸控事件是瞬間完成的,而真人手指接觸螢幕有物理上的停留時長)。這三個特徵加在一起,讓機器學習檢測器能以接近99%的準確率識別出AI操作。
Q2:擬人化改造後的智能體任務成功率會下降多少?
A:這取決於具體的改造策略。僅改造滑動軌跡(歷史匹配)或僅延長按壓時間,對任務成功率影響較小,部分任務甚至因操作更穩定而略有提升。但加入假動作注入(用於偽裝操作時間間隔)時,任務成功率可能大幅下滑——最極端的案例是出行規劃類任務,成功率從75%驟降至15%,因為盲目插入的微操作可能觸發意外頁面跳轉,導致整個任務邏輯被打亂。
Q3:螢幕上的圖靈測試和原版圖靈測試有什麼區別?
A:原版圖靈測試(1950年提出)評估機器能否通過文字對話讓人誤以為自己是人類,考察的是語言智能。螢幕上的圖靈測試則將評估對象轉移到手機觸控操作上,考察的是行為真實性——即AI智能體的滑動、點擊等物理操作模式,能否騙過專門分析觸控數據的檢測系統。前者考驗"說話像不像人",後者考驗"動作像不像人"。






