小愛同學，你真的聽懂我說話了嗎？小鵬汽車團隊打造了一個專門測試AI「耳朵」的考場

這項由小鵬汽車（XPeng Motors）研究團隊完成的研究以預印本形式發表於2026年4月，論文編號為arXiv:2605.18758，有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。

贊助商廣告

當你拿起手機，告訴語音助手"幫我把剛才那首歌加入我的歌單"，或者在影片播放到精彩畫面時喊一聲"暫停"，你其實是在做一件對人類來說極其自然、對AI來說卻異常困難的事——同時看著螢幕、聽著聲音、感知時間流逝，然後做出反應。

目前絕大多數能幫你操作手機的AI助手，其實是"睜眼瞎"——不對，準確說是"閉耳聾"。它們只會看截圖，就像一個人試圖通過看一張靜止的照片來理解一段正在發生的對話。螢幕上出現的文字它能讀，但你說的話它聽不見，影片裡此刻放到哪裡它不知道，背景音樂停了還是響著它更是毫無察覺。

小鵬汽車的研究團隊發現了這個巨大的缺口，於是打造了一個叫做OmniGUI的全新測試平台——這是全球首個專門測試AI在手機上"同時看、同時聽、同時感知時間變化"能力的標準化考場。這個考場不只是給AI看一張截圖然後問"你下一步要點哪裡"，而是同時遞給AI一段影片、一段同步錄音和一張截圖，考驗它能不能像真人一樣綜合所有感官資訊做出正確操作。

一、為什麼現在的AI助手還停留在"看圖說話"階段

要理解OmniGUI解決的是什麼問題，可以先想像一個場景：你正在用手機看一部紀錄片，旁白說"當背景音樂漸漸停止的時候，導演想表達的是..."。此時你的大腦同時處理著畫面內容、旁白語音和音樂的起伏變化，三者合一才能讓你理解這個時刻的含義。

現在的AI手機助手做的事情完全不同。研究團隊梳理了學術界已有的所有AI手機操作測試平台，發現幾乎所有平台都只給AI看截圖。有少數平台加入了一點影片或音頻，但這些內容都是在任務開始之前給AI看的，就像老師在考試之前給你看一段教學影片，讓你"先學習一下"，然後再讓你用截圖做題。沒有任何一個平台在AI每一步操作的時候，都同步提供當前時刻的影片畫面和同步音頻。

贊助商廣告

這個區別非常關鍵。真實生活中手機交互充滿了"此刻獨有的信號"：一條通知音響起了、影片播放到了某個特定畫面、旁白剛剛說了一句重要的話。這些信號轉瞬即逝，不在截圖裡，不在事先準備好的參考影片裡，只存在於"此時此刻"。測試平台如果不提供這些信號，就好比讓廚師閉著眼睛炒菜——也許能完成動作，但永遠做不出真正好吃的菜。

二、OmniGUI考場是怎麼設計的——一個有聲有色的多步驟大考

OmniGUI的核心設計思路是：在AI每走一步棋的時候，都給它看三樣東西。第一樣是當前螢幕的截圖，這是AI的"眼睛"；第二樣是從上一步操作完成到現在這段時間的螢幕錄像，這是AI的"動態視覺感知"；第三樣是這段時間裡設備內部的真實音頻，包括系統提示音、媒體播放聲音或者用戶說的話，這是AI的"耳朵"。除了這三樣實時資訊，AI還能看到自己之前做過的所有操作記錄，這是它的"記憶"。

整個數據集由10位有超過五年安卓使用經驗的專業用戶手動錄製完成，共涵蓋29款常用手機應用，收錄了709個完整的任務演示，細分下來共有2579個單步操作。這些任務橫跨中英雙語，其中中文應用15款、英文應用14款，保證了測試的語言多樣性。平均每個任務包含約3.64個操作步驟，從簡單的單步點擊到需要等待特定時刻的多步複雜流程都有覆蓋。

錄製過程非常嚴謹：錄製者在真實安卓手機上執行任務，系統在後台同步以每秒30幀的速度錄製螢幕影片、錄製設備內部音頻、記錄精確的觸摸坐標。每一步操作的截圖取自該步驟觸發之前的那一刻，影片和音頻片段則精確截取自上一步操作結束到當前操作開始之間的這段時間。

AI在每步操作中需要從一個包含13種基本動作的工具箱裡挑選正確的行為，並給出精確的執行參數。這13種動作涵蓋了手機操作的幾乎所有形態：等待觀察、點擊、雙擊、長按、向上滑、向下滑、向左滑、向右滑、輸入文字、返回、回主頁、宣告任務完成、宣告任務無法完成。所有坐標被統一縮放到0到1000的範圍內，與設備實際解析度無關，方便不同手機型號之間的橫向對比。

贊助商廣告

三、任務被分成五大能力維度，就像一張全面的體檢單

研究團隊在設計任務時沒有隨機堆砌，而是從人機交互學的角度出發，梳理出人在使用手機時大腦需要完成的五種核心認知操作，並以此為框架系統地設計了所有709個任務。

第一類能力叫"空間定位"，占全部任務的20.5%，共446個操作步驟。這類任務考驗的是AI能不能根據視覺或語音描述，準確找到螢幕上某個特定位置並點擊。比如"點擊左上角的設置圖標"，這在截圖中就能完成，但如果位置描述來自語音，就需要AI能聽懂聲音里的空間描述。

第二類叫"語義理解"，占19.3%，共530步。這類任務需要AI真正理解文字、畫面或聲音里的含義，而不是簡單匹配關鍵詞。比如用戶說"把剛才那位說話者推薦的那首歌加入收藏"，AI需要理解"剛才那位說話者推薦的"是什麼意思，然後在界面里找到對應內容。

第三類叫"跨模態辨別"，占19.9%，共514步。這類任務要求AI把來自影片、音頻和文字的互補資訊整合在一起做判斷。比如界面上有三個看起來相似的歌單，而用戶說"選那個正在播放背景音樂的那個"，AI必須把聲音里聽到的旋律和螢幕里看到的內容對應起來才能做出正確選擇。

第四類叫"時序推理"，占比最高達22%，共617步。這類任務涉及動態變化——界面在動、內容在變，AI需要追蹤這個變化過程，在正確的時刻做出反應。比如"當影片播放進度條到達一半的時候點擊暫停"，這種任務光靠截圖根本沒法完成。

第五類叫"即時響應"，占18.3%，共472步。這類任務要求AI對轉瞬即逝的聲音或畫面信號立即做出反應。比如"當你聽到鈴聲響起時點擊接聽"——這一聲鈴響可能只持續幾秒，AI必須當場捕捉並立即行動，沒有回放，沒有第二次機會。

四、任務還按"有沒有音影片才能完成"分成三個難度等級

除了按認知維度分類，研究團隊還從另一個角度對所有任務進行了客觀標註：這個任務到底需不需要用耳朵和動態視覺才能完成？

贊助商廣告

最高難度的一類叫"音影片關鍵級"，占全部任務的29.8%，共803步。這類任務至少有一個步驟，單靠截圖根本無法判斷該做什麼——必須聽到某段聲音，或者看到影片的某個特定狀態才能知道正確答案。拿文章開頭那個例子來說，"當背景打擊樂漸漸消失時把電影加入歌單"，你不聽音頻根本不知道"背景打擊樂消失"這件事什麼時候發生。

中間一類叫"音影片輔助級"，占32.4%，共860步。這類任務從截圖里能猜到該做什麼，但如果再加上音影片資訊，判斷會更準確、更有把握。好比你在一個嘈雜的餐廳里聽人說話，就算沒看清對方的嘴型也能大概猜出意思，但同時看嘴型的話理解會更精確。

最低難度的叫"音影片存在級"，占37.8%，共916步。這類任務完全靠截圖就能完成，音影片在任務里的角色只是"背景環境噪音"，對判斷正確操作沒有任何幫助。錄音機里放著音樂，螢幕上在播影片，但你要做的事情就是點擊界面上清清楚楚顯示著的那個按鈕。

標註這三個等級的方式非常嚴謹。標註人員首先只看截圖，判斷能不能做出正確決策；然後加入影片和音頻，再判斷一次。兩次判斷對比之下，就能客觀確定音影片資訊對這個步驟的必要程度。研究團隊隨機抽取了100個任務請第二位標註人員獨立完成同樣的標註，兩人的一致程度高達0.84（這個數字接近1表示幾乎完全一致），說明這套分類標準客觀且可復現。

五、考試怎麼評分——四個角度全面衡量AI的表現

為了公平地比較不同AI模型的能力，研究團隊設計了一套評分體系，就像一個人參加駕照考試，既要看你每個動作做沒做對，也要看最終有沒有順利開出停車場。

最基礎的分數叫"類型匹配率"：AI選的動作類型對不對？比如這步應該"點擊"，AI有沒有選"點擊"而不是"滑動"？這個分數不管AI點的哪裡，只看動作種類對不對。

更嚴格的分數叫"精確匹配率"：動作類型對了，坐標也對了，才算一步真正完成。對於點擊類操作，AI預測的坐標必須落在正確UI元素的實際邊界框內；對於文字輸入，生成的文字必須和目標文字完全相同。

贊助商廣告

任務級別的"成功率"更為苛刻：只有一個任務里的每一步都達到精確匹配，這個任務才算成功，否則就是0分，沒有部分分。最後還有一個更溫柔的"目標進度率"：計算在一個多步任務里，有百分之多少的步驟精確匹配了。就算整個任務最終失敗，這個指標也能反映AI完成了多少部分。

為了讓每一步的評分不受前面錯誤的連鎖影響，研究團隊採用了"教師強制"的評估方法——每步評估時，AI看到的歷史操作記錄都是人類專家的正確操作，而不是AI自己之前可能犯的錯誤。這樣就能精確衡量AI在每一個孤立時刻的多模態感知能力，排除錯誤積累帶來的干擾。

六、八個頂尖AI模型走進考場，結果差距懸殊

研究團隊邀請了當前最強的八個AI模型參加考試，其中包括谷歌的Gemini 3.0 Pro、Gemini 3.0 Flash、Gemini 2.5 Pro、Gemini 2.5 Flash四個商業閉源模型，以及阿里巴巴的Qwen3-Omni、MiniCPM-o 4.5、VITA-1.5和百川Baichuan-Omni-1.5四個開源模型。

需要說明的是，OpenAI的GPT-4o沒有參與這次測試，原因是它的API在技術層面不支持同時接收圖像和原始音頻作為輸入，與OmniGUI要求的實時多模態批量評估方式存在根本性的不兼容。

所有模型在測試中使用完全相同的提示詞模板，沒有任何針對特定模型的優化調整，確保比較的公平性。為了減少隨機性對結果的影響，所有模型都被設置為"確定性輸出"模式，也就是讓模型每次都給出它最有把握的那個答案，而不是隨機採樣。

考試結果揭示了一道清晰的分水嶺。在商業模型中，Gemini 3.0 Pro表現最佳，精確匹配率達到66.4%，整體任務成功率為33.1%。這意味著：在單步操作上，它大約能答對三分之二；但要完整完成一個多步任務，成功概率只有三分之一。Gemini 3.0 Flash緊隨其後，精確匹配率61.3%，成功率30.3%，在某些維度上甚至略微超越了Pro版本。

Gemini 2.5 Pro和2.5 Flash的表現則明顯落後於3.0系列，精確匹配率分別只有44.1%和37.8%。這個出人意料的結果說明，更新一代的模型在多模態實時交互這個特定場景下，不一定比舊版本表現更好。

贊助商廣告

開源模型與商業模型之間的差距相當懸殊。Qwen3-Omni是開源組裡的最強選手，精確匹配率33.4%，任務成功率5.2%——只有5%的任務能從頭到尾完美完成。VITA-1.5、MiniCPM-o 4.5和Baichuan-Omni-1.5的任務成功率均低於1.1%，幾乎沒有能完整成功完成多步任務的案例。

從五個認知維度來看，所有模型都在"空間定位"上表現最好——Gemini 3.0 Pro在這一維度的精確匹配率高達76.2%，因為這類任務更接近傳統的截圖看圖操作。而在"跨模態辨別"（59.9%）和"時序推理"（61.8%）上，同一個模型的分數明顯下滑，說明把動態時間信號和聲音信號整合進操作決策，目前對所有AI來說都是真實存在的難題。

七、拆掉耳朵或眼睛——消融實驗揭示關鍵瓶頸

為了驗證OmniGUI的設計是否真的有意義，研究團隊做了一系列"零件拆卸"實驗：把給AI的輸入資訊一項項拿掉，看看對成績有什麼影響。這就像考試中途把考生的計算器、草稿紙、參考圖表一樣一樣沒收，觀察成績怎麼變。

實驗覆蓋了三種拆卸方式：只拿掉音頻、只拿掉影片、同時拿掉音頻和影片。結果非常清晰地印證了任務分類體系的合理性。

在"音影片關鍵級"任務上，拿掉所有音影片輸入對Gemini 3.0 Pro造成了9個百分點的精確匹配率下降。這種下降是真實的能力損失——因為決策所需的關鍵資訊本來就在音頻或影片裡，沒有這些資訊，AI當然做不對。

與此形成鮮明對比的是，在"音影片存在級"任務上（那些單靠截圖就能完成的任務），拿掉音影片對Gemini 3.0 Pro幾乎沒有任何影響，成績變化只有區區-0.3%。這證明了任務分類的科學性——研究團隊確實準確區分了哪些任務真的需要音影片，哪些不需要。

然而，拆卸實驗還發現了一個出乎意料的現象，研究團隊將其命名為"跨模態干擾"。在那些截圖就能完成的任務里，給Gemini 2.5 Flash和Qwen3-Omni提供完整的音影片輸入，反而導致它們的成績下降了。Gemini 2.5 Flash在"音影片存在級"任務上，有完整音影片時精確匹配率是40.8%，拿掉所有音影片後反而升到了49.9%。

贊助商廣告

這個發現很有意思：當螢幕資訊已經足以做決策時，額外引入無關的環境聲音和影片，非但沒有幫助AI，反而讓它"分心"了，產生了類似人類在嘈雜環境中注意力分散的效果。這個問題在當前模型架構中是一個真實存在的缺陷，也給未來的研究指明了需要改進的方向。

八、用語音說任務指令——雙重音軌讓AI更容易出錯

日常生活中用戶經常是用說話而不是打字來告訴AI要做什麼。研究團隊專門測試了一種更真實的場景：把任務指令從文字換成TTS合成語音（也就是用文字轉語音技術生成的朗讀音頻），然後觀察AI的成績變化。

結果呈現出明顯的不對稱性。在"音影片存在級"任務上，把文字指令換成語音指令幾乎沒有影響——Gemini 3.0 Pro的精確匹配率變化僅有0.1%。單純把一句指令從文字換成語音，對AI來說幾乎是透明的。

但在"音影片關鍵級"任務上，同樣的替換卻造成了5.3%的成績下滑。這兩者之間的差異正好揭示了問題所在：在關鍵級任務里，AI的耳朵要同時處理兩路音頻——一路是任務指令的朗讀聲，另一路是來自手機環境的真實音頻（比如正在播放的媒體聲音、系統提示音）。當這兩路聲音同時湧入，AI就出現了"雙音軌處理困難"——它在嘗試理解指令的同時，跟蹤重要的環境音信號的能力明顯下降。這個發現對未來設計真正可用的語音控制手機助手來說，是非常重要的警示。

九、兩個真實失誤案例，讓AI的困境一目了然

研究團隊從最強的Gemini 3.0 Pro的失敗案例里挑出了兩個最具代表性的錯誤，用來直觀說明當前AI的瓶頸在哪裡。

第一個失誤案例發生在Vimeo影片應用里。任務是：當影片裡的旁白講完一句話並停頓的時候，立刻點擊"分享"按鈕。步驟1時環境一片寂靜，AI正確輸出了"等待"動作；步驟2時旁白開始說話，AI再次正確輸出"等待"。然而到了步驟3，旁白真的停頓了，這正是應該點擊的時刻，但AI依然輸出了"等待"，沒有識別出這個聲學信號代表著"此刻應該行動"。動作類型錯了，坐標自然也錯了，兩項得分全部掛零。這個案例完美展示了"瞬時聽覺響應"的失敗：AI能聽到聲音，但無法把聲音狀態的變化映射到對應的操作決策上。

贊助商廣告

第二個失誤發生在Red Bull TV應用里。任務是：聽到旁白開始說話時，先調出影片工具欄，再打開字幕設置。步驟1時畫面只有汽車聲音，AI正確等待；步驟2時旁白出現，AI正確點擊螢幕調出工具欄；到步驟3，AI正確判斷應該點擊字幕相關的按鈕，動作類型完全正確，然而預測坐標是(200, 2400)，而正確答案是(1050, 2100)——偏差超出了字幕圖標的實際範圍。這個案例展示的是"空間定位失敗"：AI理解了該做什麼，但在複雜視覺界面里精確定位目標的能力出現了偏差。動作類型得分，精確位置不得分。

這兩種失誤一個涉及時間感知，一個涉及空間定位，覆蓋了多模態GUI任務中兩類截然不同的核心挑戰，也為後續研究提供了清晰的改進方向。

說到底，OmniGUI做的事情其實特別直接：它把人類使用手機時理所當然會用的"眼睛+耳朵+時間感"，變成了一道真實的考題，然後發現現在最強的AI在這道題上還只能得六七成分。最頂尖的商業模型單步操作準確率有66.4%，但完整任務成功率只有33%；開源模型差距更大，任務成功率普遍低於6%。

這項研究的價值不在於告訴我們"AI不行"，而在於它給出了一把精確的尺子——用這把尺子，研究者們能知道AI的"耳朵"在什麼情況下會失靈，知道無關的背景噪音會讓AI分心，知道同時處理兩路音頻會讓AI的判斷能力下降。有了這些具體的數字，未來的工程師就知道該在哪裡下功夫。

歸根結底，真正能幫你操作手機的AI助手，不該只是一個"看圖說話"的程序，而應該像一個真正理解你所處環境的搭檔——能聽到你說的話，能感知到此刻螢幕上發生的變化，能在正確的時間做出正確的反應。OmniGUI標誌著這條路上一個務實的起點。有興趣深入了解的讀者，可以通過arXiv編號2605.18758查閱完整論文。

Q&A

Q1：OmniGUI和現有手機AI測試平台最本質的區別是什麼？

A：核心區別在於"同步實時多模態輸入"。現有平台在AI每步操作時只提供截圖，少數平台會在任務開始前給AI看一段參考影片。而OmniGUI在AI每一步操作時都同時提供當前截圖、這一步時間段內的螢幕錄像和同步音頻，模擬真實手機使用中聲音和動態畫面隨時出現的情況。

贊助商廣告

Q2：為什麼給AI更多音影片資訊反而會讓它表現變差？

A：OmniGUI的消融實驗發現了"跨模態干擾"現象。當一個任務靠截圖就能完成時，額外提供無關的環境音和影片會讓當前模型"分心"，準確率反而下降。這說明現有模型在過濾無關資訊方面存在缺陷，多餘的感官輸入會干擾決策而不是幫助決策。

Q3：OmniGUI涵蓋了哪些手機應用類型？

A：OmniGUI覆蓋29款常用應用，包含中英雙語各約一半，涉及影片平台（Bilibili、YouTube、TED、Vimeo）、音樂應用（QQ Music、Spotify）、電商（淘寶、亞馬遜）、社交媒體（微信、X/Twitter、Instagram）、叫車出行（滴滴）和語言學習（多鄰國）等多種日常應用場景。