浙江大學團隊研究：AI操控電腦時，怎樣讓它學會「看不清就放大」？

這項由浙江大學與螞蟻集團聯合開展的研究，發表於2026年4月，論文編號為arXiv:2604.14113，題為"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感興趣的讀者可通過該編號在arXiv平台檢索完整論文。

贊助商廣告

每天，我們都在電腦螢幕上點擊各種各樣的小圖標——那個小得像芝麻粒一樣的"關閉"按鈕、密密麻麻擠在一起的工具欄選項、藏在角落裡的設置齒輪。對人類來說，眼睛沒看清楚的時候，我們會本能地湊近螢幕或者把螢幕放大再看。但對於那些被訓練來自動操作電腦界面的AI來說，這個"沒看清就放大"的本能，卻長期是一個沒有被認真解決的問題。

浙江大學和螞蟻集團的研究團隊注意到了這個盲區。他們開發了一套名為UI-Zoomer的框架，專門解決AI在執行"圖形界面定位"任務（簡單說就是"看圖找按鈕"）時遇到的難題。這套框架的核心思路異常樸素：只有在AI自己也沒把握的時候，才去放大圖像仔細再看；而且放大多少，也要根據AI的不確定程度來動態決定，而非一刀切。這個研究不需要重新訓練AI模型，可以直接套用在已有的模型上，在多個測試基準中帶來了最高13.4%的準確率提升。

一、AI操控電腦，為何"小圖標"是一道難關

要理解這項研究，先得弄清楚一件事：什麼叫做"圖形界面定位"，以及它為什麼難。

現代AI助手越來越多地被要求直接操作電腦，比如幫用戶打開某個設置、點擊某個按鈕、在複雜的軟體界面里找到一個特定的功能選項。這類任務的本質，就是AI拿到一張電腦截圖和一句描述（比如"點擊拼寫檢查按鈕"），然後輸出一個坐標，告訴執行程序該點哪裡。

聽起來不複雜，但現實中的螢幕往往令人抓狂。4K解析度的專業設計軟體界面上，一個圖標可能只占整張截圖面積的千分之一；CAD製圖軟體、科學數據分析工具的工具欄里，幾十個相似的小圖標擠在一起，差一個像素就點錯了。AI模型在處理這類截圖時，面臨的困境類似於你站在十米外看一張密密麻麻的菜單，要說清楚第三行第七個字是什麼——眼神再好，也有極限。

贊助商廣告

現有的解決思路里，有一類叫做"測試時放大"的方法，思路就是把截圖裁一塊出來放大後重新讓AI看，提高有效解析度。這個方向確實有效，但已有的方法有兩個共同的硬傷。

第一個硬傷是"不管三七二十一，統統放大"。有的方法對每一張截圖都做一遍放大再推理，不管AI對這張圖本來有沒有把握。研究團隊做了一個直觀的實驗：在ScreenSpot-v2這個測試集上，加了無差別放大操作之後，準確率從81.84%反而跌到了77.20%，推理時間卻從35分47秒暴漲到6小時43分鐘。原因很直白——那些AI本來就能看清楚的簡單情況，被強制放大之後反而失去了整體布局資訊，越看越糊塗。

第二個硬傷是"放大多少，憑感覺拍腦袋"。無論哪種方法，裁切窗口的大小都是事先固定的比例，比如統一裁截圖面積的30%或50%，完全不管當前這張圖里AI的預測是聚在一起還是散得到處都是。裁太大，解析度沒提升多少；裁太小，又可能把關鍵上下文資訊切掉。

UI-Zoomer的目標，就是同時解決這兩個硬傷。

二、核心思路：用AI自己的"猶豫程度"來決定要不要放大、放大多少

UI-Zoomer的整體邏輯，可以用一個日常場景來理解。假設你是個經驗豐富的醫生在讀X光片，大多數片子一眼就能給出診斷，但遇到某張片子你反覆看了幾次，每次看感覺焦點都不在同一個地方，而且你自己也不太確定——這時候你才會說"把這個區域放大列印一下"。更重要的是，你會根據自己"猶豫"的範圍來決定放大哪一塊：如果幾次觀察都覺得問題在同一個小區域附近，就放大那一小塊；如果每次感覺問題區域都不一樣，分散在好幾處，就把那幾處都囊括進來放大。

UI-Zoomer對AI做的，正是這同一件事。整個流程分三個階段。

第一階段叫做"多次隨機採樣"。研究團隊讓AI對同一張截圖和同一個指令，在稍微放鬆的狀態下（用技術語言說叫"溫度0.9的隨機採樣"）獨立回答8次，每次都給出一個預測的邊界框（即AI認為目標按鈕在哪裡的矩形區域）。這8個答案不是完全相同的，因為加了隨機性之後，AI每次思考時會有輕微的波動。你可以把這8次回答理解成讓8個醫生獨立看同一張X光片，分別寫下自己的判斷。

贊助商廣告

第二階段叫做"可靠性門控"。拿到8個預測之後，需要判斷AI到底有沒有把握。研究團隊用了兩種互補的信號來衡量這件事。一種叫"空間一致性"，就是看這8個預測框互相之間的重疊程度——如果8個框都堆在一起，說明AI每次都指向同一個地方，非常一致，顯然是有把握的；如果8個框散落在截圖的不同角落，說明AI自己也拿不定主意。另一種叫"平均置信度"，就是看AI在生成每個坐標數字時，對自己輸出的每個字符有多確定——這個可以從模型內部的概率分數直接讀取。把這兩個信號加在一起，得到一個綜合的"可靠性分數"。

如果可靠性分數超過了一個預設閾值，說明AI是有把握的，直接用"投票"方法選出最佳答案就好：從8個預測里選出和其他預測框重疊最多的那個，作為最終答案。這個過程完全不需要再額外推理一次，既省時間又不損失精度。

如果可靠性分數沒過閾值，說明AI在這個問題上真的不確定，這才進入第三階段。

第三階段叫做"不確定性驅動的自適應裁切"。這是UI-Zoomer最精妙的部分——裁切窗口的大小，完全由AI預測的"分散程度"來決定。

研究團隊在這裡用了一個統計學上的工具，叫做"全方差分解"。通俗地說，他們把AI預測的總體不確定性分成了兩部分：一部分來自"8次預測的中心點散布有多廣"，另一部分來自"每個預測框本身有多大"。前者反映的是AI對目標位置本身的困惑——不同預測指向不同的位置；後者反映的是AI認為目標元素本身可能有多大——即使每次都指向同一個地方，如果預測框本身很大，也說明目標元素可能相當寬泛。把這兩部分加起來，就得到了總體的不確定性範圍，裁切半徑就等於這個範圍乘以一個縮放係數。

具體操作時還有一些工程細節。為了防止少數幾個極度離譜的預測把整體方差拉得過大，系統會先過濾掉距離中位數最遠的25%的預測，只用最靠近中心的75%來估算裁切範圍。裁切框統一變成正方形，因為長條形的裁切區域容易讓AI誤解空間布局。如果算出來的裁切框超出了圖像邊界，就把整個框平移進來，保持大小不變，而不是把框縮小或截斷——因為保持大小才能保證解析度的提升效果。

贊助商廣告

裁切出來的區域被放大到模型的標準輸入尺寸後，AI再做一次確定性推理（溫度設為0），得到精細化的定位結果。最後，這個在裁切區域內的坐標還要經過一步換算，映射回原始截圖的全局坐標，才是最終的點擊位置。

三、實驗結果：在不同難度的考場上檢驗成績

為了驗證UI-Zoomer的有效性，研究團隊在三個不同的測試基準上進行了評估，每個基準代表不同的難度和應用場景。

ScreenSpot-Pro是最難的一個，專門針對4K解析度的專業桌面軟體，涵蓋開發工具、創意設計軟體、CAD製圖、科學計算、Office辦公和作業系統六類應用，共23款軟體，目標元素普遍非常小且密集。UI-Vision覆蓋83個真實世界的桌面應用，包含基礎元素定位、功能性操作和空間布局三類任務。ScreenSpot-v2則是一個多平台基準，包含移動端、桌面端和網頁端，整體難度相對較低，面向標準解析度界面。

研究團隊在四個基礎模型上分別測試了UI-Zoomer的效果：通用視覺語言模型Qwen2.5-VL-7B，以及專門針對GUI任務優化過的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。後三個模型都通過強化學習進行了專項訓練，本身就具備較強的圖形界面理解能力。

在ScreenSpot-Pro上，四個模型加上UI-Zoomer之後，準確率提升幅度相當顯著。Qwen2.5-VL-7B從27.6%躍升到41.0%，提升了13.4個百分點。GUI-G2-7B從48.7%提升到61.4%，提升了12.7個百分點。UI-Venus-7B從50.0%提升到61.8%，提升了11.8個百分點。最大體量的UI-Venus-72B從59.2%提升到67.8%，提升了8.6個百分點。

在UI-Vision上，UI-Venus-7B的平均準確率從24.4%提升到33.7%，提升幅度達到9.3個百分點，Qwen2.5-VL-7B的提升則高達10.3個百分點。在相對容易的ScreenSpot-v2上，提升幅度較小但依然穩定，UI-Venus-7B提升了0.9個百分點，Qwen2.5-VL-7B提升了4.2個百分點。

這個規律本身就很有意思：越難的測試場景，UI-Zoomer帶來的提升越大。這完全符合預期——高解析度的專業軟體界面上，小圖標的定位問題最突出，放大操作帶來的收益也最明顯。反過來在相對簡單的移動端界面上，AI本來就能看清楚大多數元素，放大操作的必要性就低得多。

贊助商廣告

值得關注的還有一個細節：在圖標類目標上，UI-Zoomer帶來的提升（平均+12.5個百分點）始終高於文字類目標（平均+11.1個百分點）。這也符合直覺——純文字的按鈕包含語義資訊，AI即使在低解析度下也能通過文字內容推斷；而圖標完全依賴視覺細節，解析度不足時就真的看不出是什麼了，放大之後收益自然更大。

與同類方法的橫向比較同樣值得審視。之前的DiMo-GUI方法對每個樣本無差別地進行放大推理，在ScreenSpot-Pro上只達到了49.7%；RegionFocus觸發機制依賴執行錯誤反饋，只達到32.1%。UI-Zoomer的UI-Venus-7B版本達到61.8%，明顯優於這兩者。與暴力多次採樣取最優的pass@8方法（58.2%）相比，UI-Zoomer以相近的推理預算達到了更高的準確率，說明關鍵不只是多採樣，而是怎麼用好採樣結果。

四、每個設計細節背後的道理：拆解消融實驗

研究團隊做了大量的消融實驗，驗證每一個設計選擇的必要性。這些實驗的結論，進一步解釋了為什麼UI-Zoomer要這樣設計而不是那樣設計。

關於可靠性門控的兩個信號，單獨使用空間一致性時準確率是60.81%，單獨使用平均置信度時是61.10%，兩者結合後是61.80%。數字差異不大，但統計意義上兩者的互補性從分布形態上就能看出來：空間一致性的分布很分散，能區分"預測框到底聚不聚"的情況；平均置信度的分布比較集中，能區分"模型對坐標數字有沒有把握"的情況。兩個信號各有側重，組合後比任何一個單獨用都更可靠。

關於方差分解，只用來自"框內尺寸"的內部方差時準確率60.97%，只用來自"預測框中心點散布"的跨樣本方差時是61.42%，兩者合用是61.80%。這個結果驗證了把不確定性分成兩個來源的合理性：目標本身有多大（內部方差）和AI在哪裡有分歧（跨樣本方差）是兩件不同的事，缺少任何一個都會導致裁切區域的估算出現偏差。

關於裁切策略，固定80%比例裁切準確率只有55.22%，固定50%是59.58%，固定30%是61.35%，而自適應方法是61.80%。固定比例方法的尷尬在於：比例太大，放大效果有限；比例太小，上下文資訊丟失。更糟的是，同一個固定比例對不同難度的圖片表現差異極大，而自適應方法能根據當前情況動態調整，從根本上規避了這個兩難困境。

贊助商廣告

關於邊界處理，當裁切窗口延伸到圖像邊界外時，三種處理方式的效果分別是：縮小窗口58.47%，硬截斷60.25%，平移窗口61.80%。平移方法之所以最好，是因為它保持了裁切窗口的實際大小不變，意味著放大後的解析度始終是預期水平；縮小和截斷都會減少看到的內容，可能恰好把目標元素邊緣切掉。

關於保留候選比例，保留全部預測（100%）時準確率60.03%，保留最近的50%時是60.37%，保留最近的75%時是61.80%。這說明少量極端離譜的預測確實會把整體方差估算拉偏，但過度過濾又會損失有效資訊，75%是一個經過驗證的平衡點。

關於是否強制方形裁切，非方形時60.56%，強制方形後61.80%，提升了1.24個百分點。強制方形減少了長條形裁切框對模型空間理解的干擾，這在界面元素寬高比變化很大的情況下尤其重要。

關於採樣溫度，從0.1到0.9準確率持續上升，從54.46%上升到61.80%，在1.0時略有回落。這表明多樣性對於估算裁切區域至關重要——溫度太低時，8個預測幾乎完全相同，等於沒有採樣，方差估算毫無意義；溫度太高則引入純隨機噪聲。0.9是最佳點。

關於候選數量，從2到8個準確率持續上升，在8個時達到61.80%，之後在12和16個時略有下降。超過8個之後，額外的預測開始引入冗餘甚至噪聲，反而稍微拖累了方差估算的質量。

五、它什麼時候管用，什麼時候還是會栽跟頭

研究團隊展示的案例分析，給出了對UI-Zoomer邊界的直觀理解。

在成功案例中，典型情形是：AI的8次初始預測雖然散落在一定範圍內，沒有一個精確命中，但整體分布合理地包圍了目標區域。UI-Zoomer據此圈定了一個合適的裁切範圍，放大之後AI一眼就鎖定了目標。這說明即使初始預測不夠精準，只要"集體犯錯"的方向是正確的，放大這個方向就能成功。

在失敗案例中，有兩類典型情形。一類是界面上存在多個外觀幾乎相同的圖標，而目標是其中一個，AI每次預測可能都指向不同的相似圖標，裁切範圍雖然覆蓋了某個區域，但放大後依然無法區分。另一類是目標極小且視覺特徵非常微弱，即使放大之後，模型也沒有足夠的線索做出正確判斷。這兩類失敗揭示了UI-Zoomer的根本局限：它能改善解析度，但無法憑空增加視覺區分度，當目標本身與周圍環境在視覺上高度相似時，放大也無濟於事。

贊助商廣告

關於門控閾值的調節，實驗結果呈現出一條清晰的規律：閾值太低，幾乎沒有樣本被送去放大，等於退化成基線方法；閾值太高，幾乎所有樣本都被放大，等於無差別放大，準確率反而下降，推理時間也接近翻倍。最優的閾值範圍在中間，讓大約20%到55%的樣本接受放大處理。此外，桌面和網頁界面從放大操作中獲益更多，移動端界面元素相對較大且布局更規整，放大的必要性更低。

說到底，UI-Zoomer做的事情聽起來非常簡單，卻填補了一個長期存在的空白：讓AI知道自己什麼時候在猜，並在猜測的時候採取有針對性的措施，而不是要麼完全不管，要麼對所有情況統統加碼處理。

這對普通人的意義，在不遠的將來會越來越具體。當AI助手被要求幫你操作電腦、填寫表格、在複雜軟體里找到某個隱藏功能時，它們面臨的正是這類"小圖標、密排版"的難題。UI-Zoomer這套框架不需要重新訓練模型，可以作為一個"外掛"直接套在已有的AI模型上，帶來實質性的準確率提升，同時通過門控機制避免了不必要的計算開銷。

當然，當界面上存在大量視覺相似的小圖標時，單純提高解析度並不足夠，AI還需要更深層的語義理解能力——這是這項研究坦然承認的局限，也是未來工作需要繼續推進的方向。有興趣進一步了解技術細節的讀者，可以在arXiv平台上以編號2604.14113檢索原始論文。

Q&A

Q1：UI-Zoomer是否需要重新訓練AI模型才能使用？

A：不需要。UI-Zoomer是一個無需訓練的框架，可以直接套用在已有的AI模型上使用，不改變模型本身的參數。它的工作方式是在推理階段對AI的輸出進行分析，決定是否需要裁切放大，屬於"測試時"的增強手段。

Q2：UI-Zoomer的門控機制是如何判斷AI"沒把握"的？

A：門控機制結合了兩個信號。第一個是"空間一致性"，即讓AI對同一張截圖採樣8次，看8次預測框的重疊程度是否高——重疊少說明AI每次都指向不同位置，表明不確定。第二個是"平均置信度"，直接讀取AI生成坐標時對每個數字的內部概率分數。兩個信號加總後與閾值比較，低於閾值才觸發放大流程。

贊助商廣告

Q3：為什麼無差別地對所有圖片都放大反而會讓準確率下降？

A：因為對於AI本來就能看清楚的簡單界面，強制裁切放大會去掉原本對AI有幫助的整體布局資訊。AI在看完整截圖時能利用上下文來推斷按鈕位置，裁切之後上下文丟失，反而增加了判斷難度。實驗數據顯示，無差別放大讓ScreenSpot-v2上的準確率從81.84%下降到77.20%，推理時間卻增加了近11倍。