這項由清華大學與騰訊混元聯合推進的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.29705,感興趣的讀者可通過該編號查詢完整原文。
當你打開電腦,想讓一個AI助手幫你完成"在某個網站上搜索商品、加入購物車、然後結賬"這樣的任務時,你其實是在和一類被稱為"GUI智能體"的系統打交道。GUI是"圖形用戶界面"的縮寫,簡單說就是你每天看到的那些有按鈕、菜單、輸入框的電腦或手機螢幕。GUI智能體就像一個能看懂螢幕、會動滑鼠、會敲鍵盤的數字助手,替你完成各種操作任務。
然而,訓練這樣一個助手有個巨大的麻煩:它需要大量"有人手把手教過"的數據。就像訓練一個新員工,你不僅要給他看公司的操作手冊,還要給他看每一步應該點哪裡、輸入什麼、怎麼判斷成功——這些細節都需要真人去標註,耗時耗力且代價高昂。正因如此,現有的GUI智能體往往只在特定類型的軟體上表現不錯,換個新平台或者新場景就會手足無措,還常常搞不清楚螢幕上某個細小按鈕究竟在哪裡。
清華大學的研究團隊換了一個思路:既然網際網路上每天都有海量的網頁截圖,手機上也有大量的應用界面,這些東西本身就暗藏著豐富的"點擊信號"——哪個地方可以點,哪個地方可以輸入文字,哪個地方有下拉菜單——何不直接利用這些天然存在的信號,在不需要任何人工標註的前提下,讓AI從中學習?他們把這套方法叫做"GUICrafter",意為"界面工藝師",並通過一系列精心設計的訓練流程,讓這個系統在只用了頂尖競爭對手約千分之一數據量的情況下,實現了相當甚至更優的性能表現。
一、為什麼訓練GUI助手這麼難?
要理解這項研究解決了什麼問題,得先明白訓練一個GUI智能體為什麼那麼費勁。
以往的方法依賴兩種東西:一是人工標註的任務數據,比如"找到頁面上的搜索框,輸入'運動鞋',然後點擊搜索按鈕"這樣一步步的操作記錄;二是大量多樣化的螢幕截圖,讓AI見過足夠多的界面風格。第一種數據需要真人坐下來一條一條地標記,第二種數據雖然容易獲取,但截圖本身並不會告訴AI"應該點哪裡"。
這導致了兩個棘手的問題。第一個是"視覺定位能力弱":AI往往看不准螢幕上某個小按鈕的確切位置,把滑鼠點到空白處或者旁邊的區域,任務就此失敗。第二個是"泛化能力差":用購物網站數據訓練出來的助手,遇到銀行網站或者醫療類應用就抓瞎,因為它從沒見過那種界面風格。
歸根結底,這兩個問題都指向同一個根源——高質量、多樣化的訓練數據太難收集了。業界做得最好的系統,比如被稱為UI-TARS的模型,靠的是高達1840萬條人工標註的操作軌跡數據。這種規模的數據採集,對絕大多數研究團隊來說幾乎是不可複製的。
GUICrafter的核心洞察正是在這裡:與其花大量人力去標註"這個任務應該點哪裡",不如直接問網頁和應用本身——"你這裡有哪些地方是可以交互的?"
二、讓網頁自己"說話":無標註數據的採集之道
研究團隊做了一件聽起來很簡單、實際上頗為精妙的事情:他們讓程序自動去"爬"大量真實網頁,同時藉助瀏覽器工具,自動識別出每個網頁上哪些元素是可以點擊的、哪些是可以輸入文字的、哪些是可以打開下拉菜單選擇選項的。
具體來說,他們從各大熱門網站的門戶頁面出發,順著頁面上的每一個鏈接遞歸地往下爬,就像一棵樹從樹幹延伸到每一根樹枝,最終形成了一個覆蓋眾多真實網頁場景的巨型數據集。這種爬取方式很聰明,因為真實的GUI操作任務本來就是這樣——從首頁進入,一步步點進子頁面,和這個樹狀結構天然吻合。為了保證數據質量,他們還設置了一些自動過濾規則,比如優先收錄英文網站、剔除有彈窗遮擋的頁面等。
對於手機應用界面,研究團隊則藉助了兩個已有的開源數據集:AndroidControl和AITZ。這兩個數據集裡有大量手機應用的截圖,更重要的是,它們的無障礙樹(一種描述界面元素的結構化數據)里記錄了每個界面元素的類型——哪些可以點擊、哪些可以勾選、哪些可以編輯輸入。研究團隊完全不使用這些數據集裡的人工標註操作任務,只用這些自動記錄下來的交互元素資訊。
通過這個過程,研究團隊為網頁平台積累了足足50萬條弱監督樣本,為移動設備平台積累了13.6萬條樣本。這些數據完全不需要任何人工介入,成本接近於零。
三、"元任務":用一句通用指令代替千萬種具體任務
有了這些自動提取的交互信號之後,研究團隊面臨一個新問題:普通的訓練數據會告訴AI"搜索運動鞋"、"查詢天氣"這樣的具體任務,但自動提取的數據只知道"這裡有一個可以點擊的按鈕"——沒有語義,不知道這個按鈕是幹什麼用的。
為了解決這個斷層,研究團隊發明了"元任務"這個概念。所謂元任務,就是用一句極度概括性的指令來代表某一類操作的所有可能場景。以點擊動作為例,元任務的描述是:"點擊頁面上任何可以點擊的區域,比如按鈕,但不要點空白處。" 對於輸入文字,元任務是:"在頁面的輸入框中輸入任意文字。" 對於下拉菜單,元任務是:"從頁面的下拉菜單中選擇任意有效選項。"
這種設計的精妙之處在於:它把無數種具體的任務描述都抽象成了少數幾個通用指令。當AI學會了"找到任何可以點擊的地方並點擊它",它實際上同時學會了點擊搜索按鈕、點擊購買按鈕、點擊導航菜單的能力,只是還不知道在特定語境下該點哪一個。這種能力——分辨哪些區域是可交互的、哪些不是——正是視覺定位能力的核心所在。
研究團隊後來也做了對比實驗,把元任務和用GPT-4o自動生成的具體語義任務做了比較。結果發現,在第一階段訓練中,元任務的效果確實略遜於有語義的任務,但經過第二階段的少量高質量數據微調之後,兩者的最終性能幾乎沒有區別。這說明元任務已經足夠讓AI學習到界面理解的核心能力,而細粒度的語義理解可以用極少量的高質量數據來補充校正。
四、獎懲機制:讓AI在"對錯反饋"中自我進化
有了數據和元任務之後,研究團隊採用了一種叫做"強化學習"的訓練方式。通俗地說,強化學習就是讓AI不斷嘗試,做對了給獎勵,做錯了不給獎勵,AI在反覆的嘗試與反饋中逐漸學會正確的行為——和訓練小狗做動作的原理沒什麼本質區別。
在GUICrafter的設定中,獎勵由幾個部分組成。首先是格式獎勵:AI的輸出必須按照規定的JSON格式來寫,包含操作類型、預測位置和可選的輸入文字,格式完全正確才能得到格式獎勵,哪怕有一點偏差也得零分。這個機制確保AI從一開始就養成規範輸出的習慣。
其次是操作類型獎勵:AI預測的操作類型(點擊、輸入文字、選擇菜單)必須和真實情況匹配,否則得零分。這一條保證AI不會亂猜操作方式。
最有意思的是位置獎勵的設計。最簡單的方案是:只要AI預測的坐標落在任何一個可交互區域內,就給滿分。但研究團隊發現這樣太寬鬆了——因為一個網頁上可能有幾十個按鈕,隨便點一個都算對,AI就學不到精確定位的能力。
於是他們採用了一種叫做"高斯獎勵"的方案。可以這樣理解:每個可交互元素的中心是"靶心",離靶心越近得分越高,越遠得分越低,而且獎勵的衰減方式和元素的大小成正比——一個大按鈕的獎勵衰減得慢,一個小圖標的獎勵衰減得快。這種設計迫使AI不只是"隨便點個按鈕",而是儘量往可交互元素的中心點擊,極大地提升了精確定位能力。實驗證明,這種高斯獎勵確實比簡單的二元獎勵效果好,尤其在高難度任務上的優勢更明顯。
對於需要輸入文字的任務,還有一個文字相似度獎勵:AI輸出的文字必須和參考答案有足夠高的詞語重疊度,才能得到這部分獎勵。
五、兩階段課程:從"寬泛練習"到"精準校正"
GUICrafter的整個訓練過程被設計成兩個遞進階段,就像學一門樂器——第一階段是大量基礎練習,打好手感和樂感;第二階段是針對具體曲目的精細排練。
第一階段叫做"弱監督GUI預訓練"。在這個階段,AI面對海量的真實網頁和手機應用截圖,接收元任務指令,嘗試找到並點擊對應的可交互元素,然後根據高斯獎勵信號更新自己的參數。整個過程不需要任何人工標註,完全依靠自動提取的交互信號。主實驗中使用了網頁端的2萬條樣本和移動端的9600條樣本,但研究團隊也測試了使用50萬條數據的完整版本,證明數據量越大效果越好,且目前還沒有到達性能天花板。
第二階段叫做"高質量強化微調"。在這個階段,研究團隊引入了少量經過嚴格篩選和清洗的人工標註數據。對於網頁和桌面平台,他們從Mind2Web數據集中精心篩選了4966條乾淨樣本,並從GUI-R1-3K數據集中補充了1744條網頁樣本和85條桌面樣本,最終獲得6795條高質量數據。對於移動平台,他們從AMEX數據集中選取了3200條樣本,該數據集以任務描述清晰、操作軌跡標註準確著稱。
這批高質量數據的作用是"校正":第一階段讓AI學會了分辨哪些地方可以交互、如何精確定位;第二階段通過有語義的真實任務,讓AI學會了"在什麼情境下該選哪個可交互元素"。兩個階段缺一不可,就像廚師先練好刀工(第一階段),再學菜譜(第二階段)。
六、數據質量與噪聲:現實世界數據沒那麼乾淨
任何從真實環境自動採集的數據都不可能完美無缺,研究團隊對此也做了認真的分析。他們隨機抽取了1000條第一階段的數據進行人工檢查,發現其中84.9%的樣本是完全正確的,沒有遺漏、重疊或混亂的交互元素。剩下約15%的樣本存在各種問題,比如某些元素沒被正確識別、邊界框有偏差等。
更重要的是,他們專門做了一個實驗來測試訓練流程對噪聲的魯棒性:故意把噪聲比例從0%調高到15%再到30%,看看模型性能如何變化。結果發現,在第一階段結束時,噪聲越多性能確實越差,30%噪聲的模型比0%噪聲的模型差了約3-5個百分點。但是,經過第二階段的高質量數據微調後,三種噪聲水平的最終性能差距大幅收窄,幾乎可以忽略不計。這說明即使第一階段的訓練數據不夠乾淨,第二階段的精準校正能有效彌補這個缺陷,整個兩階段框架有相當強的抗噪能力。
七、成績單:在六大測試場景中的表現
研究團隊在六個不同的基準測試上全面評估了GUICrafter,覆蓋了網頁、桌面應用和移動應用三大平台。
在Mind2Web基準測試上,這個測試模擬真實的網頁操作任務,分為"見過的網站但新任務"、"沒見過的網站"和"沒見過的領域"三個難度子集,全面考驗模型的泛化能力。GUICrafter-3B(即3億參數規模的版本)在三個子集上的平均元素定位準確率達到60.2%,超過了UI-TARS-2B的59.5%。要知道UI-TARS用了1840萬條標註數據,而GUICrafter只用了約2萬條弱監督數據加6795條高質量數據,總量不到UI-TARS的千分之一。更值得關注的是,GUICrafter在"沒見過的網站"和"沒見過的領域"這兩個子集上的優勢比在"見過的網站"上更明顯,說明弱監督預訓練確實給模型帶來了更強的舉一反三能力。
僅完成第一階段訓練(不用任何人工標註數據)的GUICrafter,就已經比基礎模型Qwen2.5-VL-3B提升了超過12個百分點,這個成績相當於給一個從未經過專業培訓的新人做了大量實習練習後的自然進步。
在ScreenSpot-Pro基準測試上,這個測試專門考察桌面和移動應用中精細界面元素的定位能力,題目難度更高,很多目標元素又小又不明顯。GUICrafter-3B達到了33.5%的平均準確率,比排在第二位的GUI-R1-3B高出約4-5個百分點,也超過了參數量更大的UI-TARS-2B的27.7%。僅第一階段訓練就帶來了超過10個百分點的提升。
在AndroidControl基準測試上,這個測試分為"低難度"和"高難度"兩個版本,後者要求更複雜的多步推理。GUICrafter在兩個版本上都超過了其他同等規模的模型。特別值得一提的是,僅完成第一階段的GUICrafter在AndroidControl-Low上達到了62.35%的步驟成功率,和使用了人工標註數據的GUI-R1-3B不相上下——這意味著光靠免費的弱監督數據,就能達到有標註競爭對手的水平。
在AITW零樣本測試上,研究團隊採用了完全不針對該數據集微調的零樣本設置,考察模型的跨數據集泛化能力。GUICrafter達到了50.89%的整體步驟成功率,接近於依賴GPT-4V這類更強大閉源模型的方案,也超過了同等規模的GUI-R1-3B的43.60%。
在OmniACT基準測試上,這個測試覆蓋網頁和桌面兩類場景,GUICrafter在網頁域的定位準確率為77.21%,在桌面域為82.88%,均超過了GUI-R1-3B。僅第一階段就帶來了網頁端18.96%、桌面端30.84%的提升,桌面端的驚人跳躍體現了弱監督預訓練對從未見過的界面風格的強大適應能力。
在AndroidWorld在線測試上,這個測試在真實Android環境中運行完整的多步任務,是最貼近實際使用場景的測試之一。GUICrafter-3B的任務完成率達到25.43%,而GUI-R1-3B只有14.22%,提升幅度超過11個百分點。
八、細節實驗:每個設計選擇背後的依據
研究團隊做了若干細緻的對比實驗,驗證了幾個關鍵設計選擇的必要性。
關於元任務是否足夠好,他們對比了四種任務設定:只有點擊元任務(非常簡化)、完整的三類元任務(論文實際方案)、GPT-4o自動生成的語義任務,以及真實的人工標註任務。測試使用了Mind2Web中最難的一個子集——來自未見領域且操作步驟超過10步的任務,共148個測試樣例,平均每個任務需要13.57步操作。結果表明,完成兩階段訓練後,元任務、GPT-4o生成任務和人工標註任務的性能幾乎沒有差異(步驟成功率分別為51.3%、51.5%和52.1%),只有"僅點擊"的極度簡化版本性能明顯較差,因為模型會退化成總是預測點擊操作。這個結果從側面證明了元任務的設計是足夠充分的。
關於數據量的影響,他們分別測試了使用10、100、1000、10000、50000條第一階段數據的效果,每個設置獨立重複三次取平均。結果呈現出非常清晰的趨勢:從10條數據開始就有明顯的性能提升,隨著數據量增加性能持續改善,在50000條時仍未出現飽和。用整個500K數據集時,大約在35萬條數據處性能趨於穩定,說明弱監督數據的有效上限大約在這個量級。哪怕只用10條弱監督樣本,也能在Mind2Web上提升1.7%、在ScreenSpot-Pro上提升2.6%,體現出這種數據的極高效率。
研究團隊還展示了一個直觀的失敗與成功案例:在第一階段訓練後,模型面對一個演唱會票務網站時,它知道要點擊某個按鈕,但錯誤地點到了"按日期篩選"按鈕,而不是"更改城市"按鈕——兩者都是可交互元素,但語義上前者是錯的。經過第二階段的有語義任務微調後,同樣的截圖,模型能正確識別出需要先點擊"更改城市"來把地點改為紐約。這個案例生動說明了兩個階段的分工:第一階段教會"哪裡能點",第二階段教會"在這個任務里該點哪個"。
說到底,GUICrafter這項研究幹的事情有點像一個聰明的自學者:別人需要請一百個老師手把手教一百種任務,他卻先自己把市面上所有的操作手冊翻一遍,摸清楚每種按鈕、每種輸入框長什麼樣、在哪裡,然後只請幾個老師幫他過一遍真實場景就能上手。結果,這個自學者在絕大多數考試科目上和那些花了大量家教費的同學打成平手,甚至有時還略勝一籌。
這項研究最實在的意義在於:它打破了"必須有海量標註數據才能訓練好GUI智能體"的假設。網際網路上的網頁截圖是取之不盡的資源,手機應用的無障礙樹數據也唾手可得,這些東西裡面藏著的交互信號完全可以成為訓練的燃料,而不需要真人去逐條標記。當然,研究團隊也坦誠地指出,第二階段還是需要一小批高質量的人工標註數據來做最終校正,完全消除人工介入還有待探索。他們在展望中提到,未來計劃藉助大模型來自動合成有語義的任務描述,從而建立一個不斷自我疊代的數據飛輪,讓GUI智能體持續進化而無需人工干預。
這個方向如果能走通,對於每個希望用AI助手幫自己處理日常電腦操作的普通人來說,都意味著更低成本、更強能力、更廣泛應用場景的智能操作助手變得越來越近。對這項研究感興趣的讀者,可以通過arXiv編號2606.29705找到完整論文,代碼、數據集和模型權重也已同步開源。
Q&A
Q1:GUICrafter是如何在不需要人工標註的情況下訓練GUI智能體的?
A:GUICrafter通過自動爬取真實網頁,利用瀏覽器工具識別出頁面上哪些元素可以點擊、輸入或選擇,再將這些交互信號轉化為訓練數據。AI在"找到任何可點擊的地方並點擊"這類通用指令下反覆練習,通過獎懲反饋自我進化,整個過程無需任何人工標記。
Q2:GUICrafter的高斯獎勵和普通二元獎勵有什麼區別?
A:普通二元獎勵只要點到任意可交互區域就給滿分,導致AI隨便點個按鈕就能得獎,精度無從提升。高斯獎勵則以可交互元素的中心為靶心,離中心越近得分越高,越偏越低,迫使AI學會精確定位,實驗證明這在高難度任務上效果明顯更好。
Q3:GUICrafter和UI-TARS相比數據量差距有多大,性能差距如何?
A:UI-TARS使用了約1840萬條人工標註軌跡數據,GUICrafter僅使用約2萬條弱監督數據加不到7000條高質量標註數據,總量不及UI-TARS的千分之一。但在多個基準測試上,GUICrafter-3B的性能與UI-TARS-2B相當甚至在跨域泛化場景下略優,體現出極高的數據利用效率。






