當AI學會「信任對的老師」：香港理工大學等機構聯合提出的GUI定位新方法

這項由香港理工大學、喬治亞大學、INFLY Tech以及騰訊AI Lab聯合完成的研究，發表於2026年6月，論文編號為arXiv:2606.18101v2，有興趣深入了解的讀者可以通過該編號查詢完整論文。研究的核心議題是：如何讓AI在電腦或手機螢幕上精準地找到你想點擊的那個按鈕。

贊助商廣告

假設你雇了一位助手，讓他幫你操作電腦，你對他說"幫我點擊那個'保存'按鈕"。這位助手需要在滿屏密密麻麻的界面中，找到那個像指甲蓋一樣小的按鈕，並精確地把滑鼠移到正確位置。這就是AI領域所說的"GUI定位"（GUI Grounding）——GUI是"圖形用戶界面"的縮寫，也就是我們日常使用的電腦桌面、網頁、手機App這些可視化界面。研究團隊面臨的核心挑戰是：現有的AI訓練方法並不能讓AI真正"學好"這項技能，尤其是在高解析度的複雜界面中，目標元素往往又小又密集，AI極容易找錯位置。

研究團隊提出的解決方案被稱為"質量感知自蒸餾"（Quality-Aware Self-Distillation），這個名字聽起來很高深，但背後的道理其實樸素得很：當老師的指導本身靠不住時，學生應該學會打折扣地聽，而不是盲目照單全收。這項研究在六個主流GUI定位評測基準上全面超越了此前的競爭方法，交出了令人信服的成績單。

一、為什麼AI找按鈕這麼難

回到那位助手的比喻。如果你讓助手在一張完整的辦公桌照片上找"紅色回形針"，他首先要看懂整張圖，然後在密密麻麻的物品中精確指出那個小東西的位置，最後還要用像素級別的精度告訴你它在照片的哪個坐標點。AI做GUI定位的難度與此類似，而且往往比這更難，因為現代軟體界面的截圖解析度極高，按鈕可能只占整個螢幕的極小一部分。

目前主流的訓練方法大致分三類。第一類叫做"監督微調"（SFT），相當於給AI一批標註好的"題目和答案"——螢幕截圖加上正確坐標——讓AI反覆練習。這種方法穩定可靠，但有個明顯的缺陷：答案只是一個硬邦邦的坐標數字，完全不告訴AI"為什麼是這裡"、"附近其他位置的可能性有多大"。就像只告訴學生"答案是3"，卻不講解任何解題思路。

贊助商廣告

第二類方法叫做"強化學習"，代表技術是GRPO，相當於讓AI自己做題，做對了給獎勵，做錯了不給。但這種方式需要AI產生大量的嘗試，成本很高，而且獎勵信號非常稀疏——AI做了很多事，只得到一個籠統的"對"或"錯"的反饋，對於精確定位這種需要像素級精度的任務來說，這種粗粒度的反饋效果有限。

第三類，也是本文的出發點，叫做"在線自蒸餾"（On-Policy Self-Distillation，OPSD）。這個方法的思路是：與其只看最終答案對不對，不如在AI生成答案的每一步都從一個"更厲害的老師"那裡獲取指導。這個老師不是別人，就是AI自己的一個加強版，它擁有一些額外的資訊（比如知道目標按鈕大概在螢幕的哪個區域），因此能給出更有參考價值的指引。這種逐字逐步的密集指導，理論上比只看最終坐標對不對要豐富得多。

然而，研究團隊發現，直接把這套方法用在GUI定位上，效果並不理想。原因就隱藏在一個微妙的細節里。

二、老師的指導，什麼時候會變成誤導

要理解這個問題，需要先明白AI是怎樣"說出"坐標的。AI預測螢幕坐標時，並不是一口氣給出"(452, 318)"這樣一個完整數字，而是像寫字一樣，一個字符一個字符地生成：先生成"4"，再生成"5"，再生成"2"，以此類推。

現在，加強版老師的職責是：在AI生成每一個字符的時候，告訴AI"接下來這個位置，哪個數字最好"。老師拿到的條件是AI目前已經生成的那些字符（稱為"前綴"），然後基於這個前綴給出建議。

問題就出在這裡。假設AI在生成x坐標時，第一個數字就猜錯了，寫成了"7"（正確應該是"4"），那麼後續的字符都要基於這個錯誤的開頭繼續生成。老師此時被要求基於"7..."這個錯誤的前綴給出建議，它能做的最好的事情，也只是告訴AI"在以7開頭的坐標里，下一個數字是什麼"——換句話說，老師只能幫AI把錯誤的坐標寫得更"流暢"，而不是把AI拉回正確的方向。

贊助商廣告

這就好比一個地圖嚮導，他的職責是告訴司機"在當前位置，下一步應該怎麼走"。但如果司機已經開錯路，走進了一條完全錯誤的街道，嚮導此時給出的"下一步"指引，實際上是在幫司機更深地迷入歧途，而不是幫他回到正確路線。這種情況下，嚮導的"指導"不但沒有幫助，反而可能有害。

研究團隊把這種現象歸納為：當學生生成的前綴已經偏離正確坐標時，老師在該前綴下給出的坐標字符建議，就成了"不可靠的老師信號"，盲目照著學會只會讓AI越學越偏。

三、聰明地對待老師的建議：兩個互補的機制

為了解決這個問題，研究團隊設計了兩個相互配合的機制，合在一起就構成了"質量感知自蒸餾"方法。

第一個機制叫做"軟正確性感知門控"（Soft Correctness-Aware Gating）。這個機製做的事情，簡單來說就是"檢查老師當前給的建議，在邏輯上還有沒有救"。具體操作是這樣的：在AI生成坐標的每一步，系統會查看老師當前最傾向推薦的那個數字，然後追問一個問題——基於學生目前已經生成的前綴，如果接受老師的建議，剩下的數字還有沒有可能組合出一個落在正確目標區域內的坐標？如果有可能，這條建議就被認為是"可靠的"；如果無論怎麼補全後續數字，最終坐標都沒辦法落在正確區域內，這條建議就被認為是"不可靠的"。

關鍵在於，研究團隊沒有選擇把"不可靠的建議"直接扔掉，而是選擇"打折"——將其對最終訓練損失的貢獻降低到原來的一半，而不是歸零。原因很直觀：即使老師的建議已經偏離了正確目標，這條建議本身仍然可能包含一些有用的局部資訊，比如對某個視覺區域特徵的感知。完全拋棄這些資訊未免過於武斷；但原封不動地採納，又可能讓AI學壞。打折是一種溫和的折中：保留潛在價值，同時減弱潛在的負面影響。

在數學公式上，這被表達為一個"軟門"：如果老師建議通過檢驗，門值為1（完全保留）；如果沒通過檢驗，門值為α，在主實驗中α取0.5。這個α就像是一個"信任係數"，控制著對不可靠建議的保留程度。

贊助商廣告

第二個機制叫做"教師概率縮放"（Teacher-Probability Scaling）。這個機制解決的是另一個維度的問題：即便老師的建議通過了空間檢驗（被認為是"可靠的"），不同建議的質量也可能相差很大。一個老師對某個數字的推薦概率是90%，和另一個推薦概率只有55%，這兩種情況下老師的"把握程度"是截然不同的。

研究團隊的直覺是：老師越有把握的建議，學生應該越認真對待；老師自己都不太確定的建議，學生聽聽就好，別太當真。因此，他們用老師對其最優推薦數字的概率值，作為一個額外的"權重因子"，直接乘在訓練損失上。老師把握越大（概率越高），對應的訓練權重越大，學生學得越認真；老師自己都摸不准，概率低，權重就小，學生輕描淡寫地參考一下即可。

為了防止這兩個機制疊加之後，坐標字符的整體訓練信號變得太弱，研究團隊還引入了一個固定的"放大係數"λ，在主實驗中設為3，相當於給可靠的坐標建議統一加大音量，確保這些關鍵資訊不會被其他非坐標字符的學習信號淹沒。

最終，三者共同構成了每個訓練步驟的權重：不是坐標字符，就正常學；是坐標字符且通過了可靠性檢驗，就用λ乘以老師概率來決定學習力度；是坐標字符但沒通過檢驗，就用α乘以λ再乘以老師概率，也就是打折之後再按把握程度調節。這套機制使得AI的訓練過程既有原則（可靠性檢驗），又有彈性（概率調節），而不是非此即彼的粗暴處理。

四、老師的特殊待遇：讓老師看到更多

除了上述兩個核心機制，這套方法還延續了一個在GUI定位領域被證明有效的設計思路：給老師提供"作弊卡"，但不給學生看。

具體做法是：在訓練時，老師看到的螢幕截圖是經過處理的特殊版本——目標按鈕所在的區域被保留並高亮顯示（用綠色方框標記），而螢幕其他區域則被一層逐漸加深的高斯模糊遮罩壓暗。同時，老師收到的文字提示里還附帶了一句"提示：答案就在綠色方框內"。這樣，老師幾乎不可能給出錯誤的空間建議，它的信號質量天然就比沒有這些額外資訊時高。

贊助商廣告

與此同時，學生在訓練和推理時，始終只能看到普通的原始截圖，沒有任何提示和高亮。這個設計的邏輯是：老師的作用是在訓練時提供高質量的指導信號，而學生最終要獨立上崗，必須學會在沒有輔助資訊的情況下獨立完成定位。讓老師享有特權，是為了讓老師的指導更有價值；不給學生特權，是為了確保學生真正學會獨立能力，而不是依賴外部提示。

這種老師/學生資訊不對稱的設計，與本文的核心思想高度吻合：老師應當在條件最好的情況下給出建議，而學生應當有選擇地、帶著判斷力地從中汲取營養。

五、實驗結果：數字說話

研究團隊在六個公認的GUI定位基準測試上對這套方法進行了全面評估，分別是ScreenSpot-Pro、ScreenSpot-v2、UI-Vision元素定位、OSWorld-G、OSWorld-G-R以及MMBench-GUI L2元素定位，涵蓋了桌面、網頁、移動等多種界面類型，既有普通解析度也有專業級高解析度場景。

基礎模型Qwen3.5-9B在六個基準上的平均準確率是65.19分。這是一個相當有競爭力的起點，但研究團隊想知道各種訓練方法能把它提升多少。

用強化學習（GRPO）訓練後，平均準確率提升至65.86，進步不算顯著。用傳統監督微調（SFT）訓練後，平均準確率提升至68.09，進步更明顯。最初版本的在線自蒸餾（Naive-OPSD，老師只是被告知答案的文字坐標，沒有視覺高亮）將平均準確率提升至68.91。此前最強的競爭基線GUI-SD（老師看到高亮圖像，並用特定權重和基於熵的縮放來調節坐標字符的學習強度）將平均準確率提升至70.07。

本文提出的質量感知自蒸餾方法，將平均準確率提升至72.23，比GUI-SD高出2.16分，比SFT高出4.14分，比GRPO高出6.37分。在所有六個基準上，這套方法均位列第一。

特別值得關注的是，與GUI-SD相比，兩者的本質區別在於：GUI-SD通過位置權重和熵值來加強坐標字符的學習信號，但並不檢查這些信號是否真正可靠，錯誤的信號可能被不加區分地放大；而本文方法通過可靠性檢驗和概率調節，主動區分"值得多學的信號"和"應當打折的信號"，從而讓訓練過程更有針對性、更少受到噪聲干擾。

贊助商廣告

六、拆解實驗：兩個機制缺一不可

研究團隊做了一系列細緻的消融實驗（即逐一去掉某個組件，觀察效果如何變化），得出了一個頗有意思的發現：軟正確性感知門控和教師概率縮放這兩個機制，單獨使用時都不能穩定提升性能，但組合在一起，效果就會顯著提升。

從"僅有視覺特權資訊的基線"（平均70.43分）出發，單獨加入軟正確性感知門控後，平均分反而降到了69.97；單獨加入教師概率縮放後，平均分降到了70.19。兩者都沒有超過基線。然而，把兩者結合起來，平均分跳升至72.23，一舉超過基線1.80分。

這個現象揭示了兩個機制各自的"盲區"。單獨使用門控時，會把一部分本來還有參考價值的老師信號壓低，卻沒有機制來保證剩餘信號的質量高低之分，導致整體指導效果被削弱。單獨使用概率縮放時，能夠區分老師"有把握"和"沒把握"的情況，卻沒有過濾掉那些空間上根本不可能正確的建議，導致某些高置信度但方向錯誤的信號被錯誤放大。兩者結合後，門控負責把空間上"無可救藥"的信號打折，概率縮放負責在剩餘信號中進一步區分質量高低，兩道過濾器相輔相成，缺一不可。

在門控強度的對比實驗中，研究團隊還比較了"完全去掉門控"、"軟門控（α=0.5）"和"硬門控（α=0，即直接丟棄不可靠信號）"三種策略。硬門控的平均準確率是71.46，軟門控是72.23，硬門控反而不如軟門控。原因在於：當AI生成了錯誤的坐標前綴，後續所有坐標字符都會被門控判定為不可靠，從而被完全丟棄。但這些"失敗狀態"下的老師信號，其實還包含著"當你已經走錯路時，如何儘量減少損失"的資訊。完全丟掉這些信號，就相當於切斷了AI從錯誤中學習糾正策略的機會。軟門控通過保留一半的信號強度，既降低了錯誤信號的誤導風險，又保留了一定的糾錯學習空間。

在放大係數λ的實驗中，λ=1時平均準確率71.20，λ=2時71.32，λ=3時72.23，λ=4時反降至71.80。這說明λ過小會讓坐標字符的學習信號被非坐標字符的信號淹沒，λ過大則會讓模型過度聚焦於坐標精度而犧牲整體的定位泛化能力。λ=3是一個在充分重視坐標字符學習與保持整體平衡之間的最優折中。

贊助商廣告

七、這一思路的更廣泛意義

研究團隊在討論中指出，GUI定位任務之所以適合探索這套可靠性感知的訓練方式，正是因為它天然具備"空間可驗證性"——任何一個坐標預測，都可以直接用真實的目標邊界框來檢驗是否合理。這種可驗證性讓研究者可以使用一個直接的、基於任務本身結構的標準來評判老師信號的可靠性，而不是依賴熵值、困惑度等間接代理指標。

過去的很多方法，例如基於熵的縮放、基於困惑度的降權，本質上都在用"老師是否自信"來代替"老師是否正確"，這兩者之間並不總是一致的——老師可能自信地給出一個錯誤方向，也可能猶豫不決地給出一個正確方向。本文的門控機制直接問的是"這個建議在目標約束下是否可行"，是一個更直接、更有保障的判據。

研究團隊坦承，這套方法目前還有一定的局限性。門控機制依賴於訓練時的真實邊界框標註，所以最直接適用於有空間標註的場景。對於沒有明確坐標答案的任務，如何設計類似的可靠性檢驗，還需要進一步探索。此外，目前的實驗都在Qwen3.5-9B這個規模的模型上進行，這套方法在不同模型規模和其他類型的視覺定位任務上的遷移效果，也有待後續研究驗證。

歸根結底，這項研究想說的核心道理，其實是一件非常日常的事：當你向別人學習時，對方給出的建議並不是都值得同等對待——有些建議在當下的情境下根本行不通，有些建議雖然方向對，但對方自己也沒多大把握。聰明的學習者，應該學會識別哪些建議值得認真對待、哪些建議應該保持距離，而不是不加思辨地照單全收。這套質量感知自蒸餾方法，正是把這個樸素的道理，以嚴謹的數學方式嵌入到了AI的訓練過程中，讓AI也能在學習時懂得"信任對的老師"。

有興趣進一步了解這項研究細節的讀者，可以通過arXiv編號2606.18101查詢完整論文原文。

Q&A

Q1：GUI定位任務和普通的圖像識別有什麼區別？

贊助商廣告

A：普通圖像識別通常是判斷"圖中有什麼"，而GUI定位要求AI精確回答"目標元素在螢幕的哪個像素坐標位置"。這意味著不僅要識別內容，還要給出像素級精度的位置輸出，誤差哪怕只有幾個像素就可能點擊到錯誤的按鈕，對精確度要求極高。

Q2：質量感知自蒸餾方法為什麼比傳統監督微調效果好？

A：傳統監督微調只告訴AI"正確答案是這個坐標"，不解釋為什麼，也不提供坐標附近其他位置的概率資訊。質量感知自蒸餾則讓AI在生成坐標的每一步都能參考一個"更有資訊"的老師分布，同時通過可靠性檢驗和概率調節，確保參考的信號質量，相當於既有更豐富的指導，又對指導質量做了篩選。

Q3：軟正確性感知門控和硬門控有什麼具體區別？

A：硬門控是"不可靠的老師建議直接丟棄，權重歸零"；軟門控是"不可靠的建議保留一半權重，不完全拋棄"。實驗顯示軟門控效果更好，因為即使坐標前綴已經偏離目標，後續的老師建議仍然可能包含如何在錯誤狀態下調整的有用資訊，完全丟棄這部分信號會讓AI失去從錯誤中學習糾正策略的機會。