這項由香港理工大學、喬治亞大學、INFLY Tech以及騰訊AI Lab聯合完成的研究,發表於2026年6月,論文編號為arXiv:2606.18101v2,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究的核心議題是:如何讓AI在電腦或手機螢幕上精準地找到你想點擊的那個按鈕。
假設你雇了一位助手,讓他幫你操作電腦,你對他說"幫我點擊那個'保存'按鈕"。這位助手需要在滿屏密密麻麻的界面中,找到那個像指甲蓋一樣小的按鈕,並精確地把滑鼠移到正確位置。這就是AI領域所說的"GUI定位"(GUI Grounding)——GUI是"圖形用戶界面"的縮寫,也就是我們日常使用的電腦桌面、網頁、手機App這些可視化界面。研究團隊面臨的核心挑戰是:現有的AI訓練方法並不能讓AI真正"學好"這項技能,尤其是在高解析度的複雜界面中,目標元素往往又小又密集,AI極容易找錯位置。
研究團隊提出的解決方案被稱為"質量感知自蒸餾"(Quality-Aware Self-Distillation),這個名字聽起來很高深,但背後的道理其實樸素得很:當老師的指導本身靠不住時,學生應該學會打折扣地聽,而不是盲目照單全收。這項研究在六個主流GUI定位評測基準上全面超越了此前的競爭方法,交出了令人信服的成績單。
一、為什麼AI找按鈕這麼難
回到那位助手的比喻。如果你讓助手在一張完整的辦公桌照片上找"紅色回形針",他首先要看懂整張圖,然後在密密麻麻的物品中精確指出那個小東西的位置,最後還要用像素級別的精度告訴你它在照片的哪個坐標點。AI做GUI定位的難度與此類似,而且往往比這更難,因為現代軟體界面的截圖解析度極高,按鈕可能只占整個螢幕的極小一部分。
目前主流的訓練方法大致分三類。第一類叫做"監督微調"(SFT),相當於給AI一批標註好的"題目和答案"——螢幕截圖加上正確坐標——讓AI反覆練習。這種方法穩定可靠,但有個明顯的缺陷:答案只是一個硬邦邦的坐標數字,完全不告訴AI"為什麼是這裡"、"附近其他位置的可能性有多大"。就像只告訴學生"答案是3",卻不講解任何解題思路。
第二類方法叫做"強化學習",代表技術是GRPO,相當於讓AI自己做題,做對了給獎勵,做錯了不給。但這種方式需要AI產生大量的嘗試,成本很高,而且獎勵信號非常稀疏——AI做了很多事,只得到一個籠統的"對"或"錯"的反饋,對於精確定位這種需要像素級精度的任務來說,這種粗粒度的反饋效果有限。
第三類,也是本文的出發點,叫做"在線自蒸餾"(On-Policy Self-Distillation,OPSD)。這個方法的思路是:與其只看最終答案對不對,不如在AI生成答案的每一步都從一個"更厲害的老師"那裡獲取指導。這個老師不是別人,就是AI自己的一個加強版,它擁有一些額外的資訊(比如知道目標按鈕大概在螢幕的哪個區域),因此能給出更有參考價值的指引。這種逐字逐步的密集指導,理論上比只看最終坐標對不對要豐富得多。
然而,研究團隊發現,直接把這套方法用在GUI定位上,效果並不理想。原因就隱藏在一個微妙的細節里。
二、老師的指導,什麼時候會變成誤導
要理解這個問題,需要先明白AI是怎樣"說出"坐標的。AI預測螢幕坐標時,並不是一口氣給出"(452, 318)"這樣一個完整數字,而是像寫字一樣,一個字符一個字符地生成:先生成"4",再生成"5",再生成"2",以此類推。
現在,加強版老師的職責是:在AI生成每一個字符的時候,告訴AI"接下來這個位置,哪個數字最好"。老師拿到的條件是AI目前已經生成的那些字符(稱為"前綴"),然後基於這個前綴給出建議。
問題就出在這裡。假設AI在生成x坐標時,第一個數字就猜錯了,寫成了"7"(正確應該是"4"),那麼後續的字符都要基於這個錯誤的開頭繼續生成。老師此時被要求基於"7..."這個錯誤的前綴給出建議,它能做的最好的事情,也只是告訴AI"在以7開頭的坐標里,下一個數字是什麼"——換句話說,老師只能幫AI把錯誤的坐標寫得更"流暢",而不是把AI拉回正確的方向。
這就好比一個地圖嚮導,他的職責是告訴司機"在當前位置,下一步應該怎麼走"。但如果司機已經開錯路,走進了一條完全錯誤的街道,嚮導此時給出的"下一步"指引,實際上是在幫司機更深地迷入歧途,而不是幫他回到正確路線。這種情況下,嚮導的"指導"不但沒有幫助,反而可能有害。
研究團隊把這種現象歸納為:當學生生成的前綴已經偏離正確坐標時,老師在該前綴下給出的坐標字符建議,就成了"不可靠的老師信號",盲目照著學會只會讓AI越學越偏。
三、聰明地對待老師的建議:兩個互補的機制
為了解決這個問題,研究團隊設計了兩個相互配合的機制,合在一起就構成了"質量感知自蒸餾"方法。
第一個機制叫做"軟正確性感知門控"(Soft Correctness-Aware Gating)。這個機製做的事情,簡單來說就是"檢查老師當前給的建議,在邏輯上還有沒有救"。具體操作是這樣的:在AI生成坐標的每一步,系統會查看老師當前最傾向推薦的那個數字,然後追問一個問題——基於學生目前已經生成的前綴,如果接受老師的建議,剩下的數字還有沒有可能組合出一個落在正確目標區域內的坐標?如果有可能,這條建議就被認為是"可靠的";如果無論怎麼補全後續數字,最終坐標都沒辦法落在正確區域內,這條建議就被認為是"不可靠的"。
關鍵在於,研究團隊沒有選擇把"不可靠的建議"直接扔掉,而是選擇"打折"——將其對最終訓練損失的貢獻降低到原來的一半,而不是歸零。原因很直觀:即使老師的建議已經偏離了正確目標,這條建議本身仍然可能包含一些有用的局部資訊,比如對某個視覺區域特徵的感知。完全拋棄這些資訊未免過於武斷;但原封不動地採納,又可能讓AI學壞。打折是一種溫和的折中:保留潛在價值,同時減弱潛在的負面影響。
在數學公式上,這被表達為一個"軟門":如果老師建議通過檢驗,門值為1(完全保留);如果沒通過檢驗,門值為α,在主實驗中α取0.5。這個α就像是一個"信任係數",控制著對不可靠建議的保留程度。
第二個機制叫做"教師概率縮放"(Teacher-Probability Scaling)。這個機制解決的是另一個維度的問題:即便老師的建議通過了空間檢驗(被認為是"可靠的"),不同建議的質量也可能相差很大。一個老師對某個數字的推薦概率是90%,和另一個推薦概率只有55%,這兩種情況下老師的"把握程度"是截然不同的。
研究團隊的直覺是:老師越有把握的建議,學生應該越認真對待;老師自己都不太確定的建議,學生聽聽就好,別太當真。因此,他們用老師對其最優推薦數字的概率值,作為一個額外的"權重因子",直接乘在訓練損失上。老師把握越大(概率越高),對應的訓練權重越大,學生學得越認真;老師自己都摸不准,概率低,權重就小,學生輕描淡寫地參考一下即可。
為了防止這兩個機制疊加之後,坐標字符的整體訓練信號變得太弱,研究團隊還引入了一個固定的"放大係數"λ,在主實驗中設為3,相當於給可靠的坐標建議統一加大音量,確保這些關鍵資訊不會被其他非坐標字符的學習信號淹沒。
最終,三者共同構成了每個訓練步驟的權重:不是坐標字符,就正常學;是坐標字符且通過了可靠性檢驗,就用λ乘以老師概率來決定學習力度;是坐標字符但沒通過檢驗,就用α乘以λ再乘以老師概率,也就是打折之後再按把握程度調節。這套機制使得AI的訓練過程既有原則(可靠性檢驗),又有彈性(概率調節),而不是非此即彼的粗暴處理。
四、老師的特殊待遇:讓老師看到更多
除了上述兩個核心機制,這套方法還延續了一個在GUI定位領域被證明有效的設計思路:給老師提供"作弊卡",但不給學生看。
具體做法是:在訓練時,老師看到的螢幕截圖是經過處理的特殊版本——目標按鈕所在的區域被保留並高亮顯示(用綠色方框標記),而螢幕其他區域則被一層逐漸加深的高斯模糊遮罩壓暗。同時,老師收到的文字提示里還附帶了一句"提示:答案就在綠色方框內"。這樣,老師幾乎不可能給出錯誤的空間建議,它的信號質量天然就比沒有這些額外資訊時高。
與此同時,學生在訓練和推理時,始終只能看到普通的原始截圖,沒有任何提示和高亮。這個設計的邏輯是:老師的作用是在訓練時提供高質量的指導信號,而學生最終要獨立上崗,必須學會在沒有輔助資訊的情況下獨立完成定位。讓老師享有特權,是為了讓老師的指導更有價值;不給學生特權,是為了確保學生真正學會獨立能力,而不是依賴外部提示。
這種老師/學生資訊不對稱的設計,與本文的核心思想高度吻合:老師應當在條件最好的情況下給出建議,而學生應當有選擇地、帶著判斷力地從中汲取營養。
五、實驗結果:數字說話
研究團隊在六個公認的GUI定位基準測試上對這套方法進行了全面評估,分別是ScreenSpot-Pro、ScreenSpot-v2、UI-Vision元素定位、OSWorld-G、OSWorld-G-R以及MMBench-GUI L2元素定位,涵蓋了桌面、網頁、移動等多種界面類型,既有普通解析度也有專業級高解析度場景。
基礎模型Qwen3.5-9B在六個基準上的平均準確率是65.19分。這是一個相當有競爭力的起點,但研究團隊想知道各種訓練方法能把它提升多少。
用強化學習(GRPO)訓練後,平均準確率提升至65.86,進步不算顯著。用傳統監督微調(SFT)訓練後,平均準確率提升至68.09,進步更明顯。最初版本的在線自蒸餾(Naive-OPSD,老師只是被告知答案的文字坐標,沒有視覺高亮)將平均準確率提升至68.91。此前最強的競爭基線GUI-SD(老師看到高亮圖像,並用特定權重和基於熵的縮放來調節坐標字符的學習強度)將平均準確率提升至70.07。
本文提出的質量感知自蒸餾方法,將平均準確率提升至72.23,比GUI-SD高出2.16分,比SFT高出4.14分,比GRPO高出6.37分。在所有六個基準上,這套方法均位列第一。
特別值得關注的是,與GUI-SD相比,兩者的本質區別在於:GUI-SD通過位置權重和熵值來加強坐標字符的學習信號,但並不檢查這些信號是否真正可靠,錯誤的信號可能被不加區分地放大;而本文方法通過可靠性檢驗和概率調節,主動區分"值得多學的信號"和"應當打折的信號",從而讓訓練過程更有針對性、更少受到噪聲干擾。
六、拆解實驗:兩個機制缺一不可
研究團隊做了一系列細緻的消融實驗(即逐一去掉某個組件,觀察效果如何變化),得出了一個頗有意思的發現:軟正確性感知門控和教師概率縮放這兩個機制,單獨使用時都不能穩定提升性能,但組合在一起,效果就會顯著提升。
從"僅有視覺特權資訊的基線"(平均70.43分)出發,單獨加入軟正確性感知門控後,平均分反而降到了69.97;單獨加入教師概率縮放後,平均分降到了70.19。兩者都沒有超過基線。然而,把兩者結合起來,平均分跳升至72.23,一舉超過基線1.80分。
這個現象揭示了兩個機制各自的"盲區"。單獨使用門控時,會把一部分本來還有參考價值的老師信號壓低,卻沒有機制來保證剩餘信號的質量高低之分,導致整體指導效果被削弱。單獨使用概率縮放時,能夠區分老師"有把握"和"沒把握"的情況,卻沒有過濾掉那些空間上根本不可能正確的建議,導致某些高置信度但方向錯誤的信號被錯誤放大。兩者結合後,門控負責把空間上"無可救藥"的信號打折,概率縮放負責在剩餘信號中進一步區分質量高低,兩道過濾器相輔相成,缺一不可。
在門控強度的對比實驗中,研究團隊還比較了"完全去掉門控"、"軟門控(α=0.5)"和"硬門控(α=0,即直接丟棄不可靠信號)"三種策略。硬門控的平均準確率是71.46,軟門控是72.23,硬門控反而不如軟門控。原因在於:當AI生成了錯誤的坐標前綴,後續所有坐標字符都會被門控判定為不可靠,從而被完全丟棄。但這些"失敗狀態"下的老師信號,其實還包含著"當你已經走錯路時,如何儘量減少損失"的資訊。完全丟掉這些信號,就相當於切斷了AI從錯誤中學習糾正策略的機會。軟門控通過保留一半的信號強度,既降低了錯誤信號的誤導風險,又保留了一定的糾錯學習空間。
在放大係數λ的實驗中,λ=1時平均準確率71.20,λ=2時71.32,λ=3時72.23,λ=4時反降至71.80。這說明λ過小會讓坐標字符的學習信號被非坐標字符的信號淹沒,λ過大則會讓模型過度聚焦於坐標精度而犧牲整體的定位泛化能力。λ=3是一個在充分重視坐標字符學習與保持整體平衡之間的最優折中。
七、這一思路的更廣泛意義
研究團隊在討論中指出,GUI定位任務之所以適合探索這套可靠性感知的訓練方式,正是因為它天然具備"空間可驗證性"——任何一個坐標預測,都可以直接用真實的目標邊界框來檢驗是否合理。這種可驗證性讓研究者可以使用一個直接的、基於任務本身結構的標準來評判老師信號的可靠性,而不是依賴熵值、困惑度等間接代理指標。
過去的很多方法,例如基於熵的縮放、基於困惑度的降權,本質上都在用"老師是否自信"來代替"老師是否正確",這兩者之間並不總是一致的——老師可能自信地給出一個錯誤方向,也可能猶豫不決地給出一個正確方向。本文的門控機制直接問的是"這個建議在目標約束下是否可行",是一個更直接、更有保障的判據。
研究團隊坦承,這套方法目前還有一定的局限性。門控機制依賴於訓練時的真實邊界框標註,所以最直接適用於有空間標註的場景。對於沒有明確坐標答案的任務,如何設計類似的可靠性檢驗,還需要進一步探索。此外,目前的實驗都在Qwen3.5-9B這個規模的模型上進行,這套方法在不同模型規模和其他類型的視覺定位任務上的遷移效果,也有待後續研究驗證。
歸根結底,這項研究想說的核心道理,其實是一件非常日常的事:當你向別人學習時,對方給出的建議並不是都值得同等對待——有些建議在當下的情境下根本行不通,有些建議雖然方向對,但對方自己也沒多大把握。聰明的學習者,應該學會識別哪些建議值得認真對待、哪些建議應該保持距離,而不是不加思辨地照單全收。這套質量感知自蒸餾方法,正是把這個樸素的道理,以嚴謹的數學方式嵌入到了AI的訓練過程中,讓AI也能在學習時懂得"信任對的老師"。
有興趣進一步了解這項研究細節的讀者,可以通過arXiv編號2606.18101查詢完整論文原文。
Q&A
Q1:GUI定位任務和普通的圖像識別有什麼區別?
A:普通圖像識別通常是判斷"圖中有什麼",而GUI定位要求AI精確回答"目標元素在螢幕的哪個像素坐標位置"。這意味著不僅要識別內容,還要給出像素級精度的位置輸出,誤差哪怕只有幾個像素就可能點擊到錯誤的按鈕,對精確度要求極高。
Q2:質量感知自蒸餾方法為什麼比傳統監督微調效果好?
A:傳統監督微調只告訴AI"正確答案是這個坐標",不解釋為什麼,也不提供坐標附近其他位置的概率資訊。質量感知自蒸餾則讓AI在生成坐標的每一步都能參考一個"更有資訊"的老師分布,同時通過可靠性檢驗和概率調節,確保參考的信號質量,相當於既有更豐富的指導,又對指導質量做了篩選。
Q3:軟正確性感知門控和硬門控有什麼具體區別?
A:硬門控是"不可靠的老師建議直接丟棄,權重歸零";軟門控是"不可靠的建議保留一半權重,不完全拋棄"。實驗顯示軟門控效果更好,因為即使坐標前綴已經偏離目標,後續的老師建議仍然可能包含如何在錯誤狀態下調整的有用資訊,完全丟棄這部分信號會讓AI失去從錯誤中學習糾正策略的機會。






