宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

浙江大學團隊研究:AI操控電腦時,怎樣讓它學會「看不清就放大」?

2026年04月23日 首頁 » 熱門科技

這項由浙江大學與螞蟻集團聯合開展的研究,發表於2026年4月,論文編號為arXiv:2604.14113,題為"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感興趣的讀者可通過該編號在arXiv平台檢索完整論文。

每天,我們都在電腦螢幕上點擊各種各樣的小圖標——那個小得像芝麻粒一樣的"關閉"按鈕、密密麻麻擠在一起的工具欄選項、藏在角落裡的設置齒輪。對人類來說,眼睛沒看清楚的時候,我們會本能地湊近螢幕或者把螢幕放大再看。但對於那些被訓練來自動操作電腦界面的AI來說,這個"沒看清就放大"的本能,卻長期是一個沒有被認真解決的問題。

浙江大學和螞蟻集團的研究團隊注意到了這個盲區。他們開發了一套名為UI-Zoomer的框架,專門解決AI在執行"圖形界面定位"任務(簡單說就是"看圖找按鈕")時遇到的難題。這套框架的核心思路異常樸素:只有在AI自己也沒把握的時候,才去放大圖像仔細再看;而且放大多少,也要根據AI的不確定程度來動態決定,而非一刀切。這個研究不需要重新訓練AI模型,可以直接套用在已有的模型上,在多個測試基準中帶來了最高13.4%的準確率提升。

一、AI操控電腦,為何"小圖標"是一道難關

要理解這項研究,先得弄清楚一件事:什麼叫做"圖形界面定位",以及它為什麼難。

現代AI助手越來越多地被要求直接操作電腦,比如幫用戶打開某個設置、點擊某個按鈕、在複雜的軟體界面里找到一個特定的功能選項。這類任務的本質,就是AI拿到一張電腦截圖和一句描述(比如"點擊拼寫檢查按鈕"),然後輸出一個坐標,告訴執行程序該點哪裡。

聽起來不複雜,但現實中的螢幕往往令人抓狂。4K解析度的專業設計軟體界面上,一個圖標可能只占整張截圖面積的千分之一;CAD製圖軟體、科學數據分析工具的工具欄里,幾十個相似的小圖標擠在一起,差一個像素就點錯了。AI模型在處理這類截圖時,面臨的困境類似於你站在十米外看一張密密麻麻的菜單,要說清楚第三行第七個字是什麼——眼神再好,也有極限。

現有的解決思路里,有一類叫做"測試時放大"的方法,思路就是把截圖裁一塊出來放大後重新讓AI看,提高有效解析度。這個方向確實有效,但已有的方法有兩個共同的硬傷。

第一個硬傷是"不管三七二十一,統統放大"。有的方法對每一張截圖都做一遍放大再推理,不管AI對這張圖本來有沒有把握。研究團隊做了一個直觀的實驗:在ScreenSpot-v2這個測試集上,加了無差別放大操作之後,準確率從81.84%反而跌到了77.20%,推理時間卻從35分47秒暴漲到6小時43分鐘。原因很直白——那些AI本來就能看清楚的簡單情況,被強制放大之後反而失去了整體布局資訊,越看越糊塗。

第二個硬傷是"放大多少,憑感覺拍腦袋"。無論哪種方法,裁切窗口的大小都是事先固定的比例,比如統一裁截圖面積的30%或50%,完全不管當前這張圖里AI的預測是聚在一起還是散得到處都是。裁太大,解析度沒提升多少;裁太小,又可能把關鍵上下文資訊切掉。

UI-Zoomer的目標,就是同時解決這兩個硬傷。

二、核心思路:用AI自己的"猶豫程度"來決定要不要放大、放大多少

UI-Zoomer的整體邏輯,可以用一個日常場景來理解。假設你是個經驗豐富的醫生在讀X光片,大多數片子一眼就能給出診斷,但遇到某張片子你反覆看了幾次,每次看感覺焦點都不在同一個地方,而且你自己也不太確定——這時候你才會說"把這個區域放大列印一下"。更重要的是,你會根據自己"猶豫"的範圍來決定放大哪一塊:如果幾次觀察都覺得問題在同一個小區域附近,就放大那一小塊;如果每次感覺問題區域都不一樣,分散在好幾處,就把那幾處都囊括進來放大。

UI-Zoomer對AI做的,正是這同一件事。整個流程分三個階段。

第一階段叫做"多次隨機採樣"。研究團隊讓AI對同一張截圖和同一個指令,在稍微放鬆的狀態下(用技術語言說叫"溫度0.9的隨機採樣")獨立回答8次,每次都給出一個預測的邊界框(即AI認為目標按鈕在哪裡的矩形區域)。這8個答案不是完全相同的,因為加了隨機性之後,AI每次思考時會有輕微的波動。你可以把這8次回答理解成讓8個醫生獨立看同一張X光片,分別寫下自己的判斷。

第二階段叫做"可靠性門控"。拿到8個預測之後,需要判斷AI到底有沒有把握。研究團隊用了兩種互補的信號來衡量這件事。一種叫"空間一致性",就是看這8個預測框互相之間的重疊程度——如果8個框都堆在一起,說明AI每次都指向同一個地方,非常一致,顯然是有把握的;如果8個框散落在截圖的不同角落,說明AI自己也拿不定主意。另一種叫"平均置信度",就是看AI在生成每個坐標數字時,對自己輸出的每個字符有多確定——這個可以從模型內部的概率分數直接讀取。把這兩個信號加在一起,得到一個綜合的"可靠性分數"。

如果可靠性分數超過了一個預設閾值,說明AI是有把握的,直接用"投票"方法選出最佳答案就好:從8個預測里選出和其他預測框重疊最多的那個,作為最終答案。這個過程完全不需要再額外推理一次,既省時間又不損失精度。

如果可靠性分數沒過閾值,說明AI在這個問題上真的不確定,這才進入第三階段。

第三階段叫做"不確定性驅動的自適應裁切"。這是UI-Zoomer最精妙的部分——裁切窗口的大小,完全由AI預測的"分散程度"來決定。

研究團隊在這裡用了一個統計學上的工具,叫做"全方差分解"。通俗地說,他們把AI預測的總體不確定性分成了兩部分:一部分來自"8次預測的中心點散布有多廣",另一部分來自"每個預測框本身有多大"。前者反映的是AI對目標位置本身的困惑——不同預測指向不同的位置;後者反映的是AI認為目標元素本身可能有多大——即使每次都指向同一個地方,如果預測框本身很大,也說明目標元素可能相當寬泛。把這兩部分加起來,就得到了總體的不確定性範圍,裁切半徑就等於這個範圍乘以一個縮放係數。

具體操作時還有一些工程細節。為了防止少數幾個極度離譜的預測把整體方差拉得過大,系統會先過濾掉距離中位數最遠的25%的預測,只用最靠近中心的75%來估算裁切範圍。裁切框統一變成正方形,因為長條形的裁切區域容易讓AI誤解空間布局。如果算出來的裁切框超出了圖像邊界,就把整個框平移進來,保持大小不變,而不是把框縮小或截斷——因為保持大小才能保證解析度的提升效果。

裁切出來的區域被放大到模型的標準輸入尺寸後,AI再做一次確定性推理(溫度設為0),得到精細化的定位結果。最後,這個在裁切區域內的坐標還要經過一步換算,映射回原始截圖的全局坐標,才是最終的點擊位置。

三、實驗結果:在不同難度的考場上檢驗成績

為了驗證UI-Zoomer的有效性,研究團隊在三個不同的測試基準上進行了評估,每個基準代表不同的難度和應用場景。

ScreenSpot-Pro是最難的一個,專門針對4K解析度的專業桌面軟體,涵蓋開發工具、創意設計軟體、CAD製圖、科學計算、Office辦公和作業系統六類應用,共23款軟體,目標元素普遍非常小且密集。UI-Vision覆蓋83個真實世界的桌面應用,包含基礎元素定位、功能性操作和空間布局三類任務。ScreenSpot-v2則是一個多平台基準,包含移動端、桌面端和網頁端,整體難度相對較低,面向標準解析度界面。

研究團隊在四個基礎模型上分別測試了UI-Zoomer的效果:通用視覺語言模型Qwen2.5-VL-7B,以及專門針對GUI任務優化過的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。後三個模型都通過強化學習進行了專項訓練,本身就具備較強的圖形界面理解能力。

在ScreenSpot-Pro上,四個模型加上UI-Zoomer之後,準確率提升幅度相當顯著。Qwen2.5-VL-7B從27.6%躍升到41.0%,提升了13.4個百分點。GUI-G2-7B從48.7%提升到61.4%,提升了12.7個百分點。UI-Venus-7B從50.0%提升到61.8%,提升了11.8個百分點。最大體量的UI-Venus-72B從59.2%提升到67.8%,提升了8.6個百分點。

在UI-Vision上,UI-Venus-7B的平均準確率從24.4%提升到33.7%,提升幅度達到9.3個百分點,Qwen2.5-VL-7B的提升則高達10.3個百分點。在相對容易的ScreenSpot-v2上,提升幅度較小但依然穩定,UI-Venus-7B提升了0.9個百分點,Qwen2.5-VL-7B提升了4.2個百分點。

這個規律本身就很有意思:越難的測試場景,UI-Zoomer帶來的提升越大。這完全符合預期——高解析度的專業軟體界面上,小圖標的定位問題最突出,放大操作帶來的收益也最明顯。反過來在相對簡單的移動端界面上,AI本來就能看清楚大多數元素,放大操作的必要性就低得多。

值得關注的還有一個細節:在圖標類目標上,UI-Zoomer帶來的提升(平均+12.5個百分點)始終高於文字類目標(平均+11.1個百分點)。這也符合直覺——純文字的按鈕包含語義資訊,AI即使在低解析度下也能通過文字內容推斷;而圖標完全依賴視覺細節,解析度不足時就真的看不出是什麼了,放大之後收益自然更大。

與同類方法的橫向比較同樣值得審視。之前的DiMo-GUI方法對每個樣本無差別地進行放大推理,在ScreenSpot-Pro上只達到了49.7%;RegionFocus觸發機制依賴執行錯誤反饋,只達到32.1%。UI-Zoomer的UI-Venus-7B版本達到61.8%,明顯優於這兩者。與暴力多次採樣取最優的pass@8方法(58.2%)相比,UI-Zoomer以相近的推理預算達到了更高的準確率,說明關鍵不只是多採樣,而是怎麼用好採樣結果。

四、每個設計細節背後的道理:拆解消融實驗

研究團隊做了大量的消融實驗,驗證每一個設計選擇的必要性。這些實驗的結論,進一步解釋了為什麼UI-Zoomer要這樣設計而不是那樣設計。

關於可靠性門控的兩個信號,單獨使用空間一致性時準確率是60.81%,單獨使用平均置信度時是61.10%,兩者結合後是61.80%。數字差異不大,但統計意義上兩者的互補性從分布形態上就能看出來:空間一致性的分布很分散,能區分"預測框到底聚不聚"的情況;平均置信度的分布比較集中,能區分"模型對坐標數字有沒有把握"的情況。兩個信號各有側重,組合後比任何一個單獨用都更可靠。

關於方差分解,只用來自"框內尺寸"的內部方差時準確率60.97%,只用來自"預測框中心點散布"的跨樣本方差時是61.42%,兩者合用是61.80%。這個結果驗證了把不確定性分成兩個來源的合理性:目標本身有多大(內部方差)和AI在哪裡有分歧(跨樣本方差)是兩件不同的事,缺少任何一個都會導致裁切區域的估算出現偏差。

關於裁切策略,固定80%比例裁切準確率只有55.22%,固定50%是59.58%,固定30%是61.35%,而自適應方法是61.80%。固定比例方法的尷尬在於:比例太大,放大效果有限;比例太小,上下文資訊丟失。更糟的是,同一個固定比例對不同難度的圖片表現差異極大,而自適應方法能根據當前情況動態調整,從根本上規避了這個兩難困境。

關於邊界處理,當裁切窗口延伸到圖像邊界外時,三種處理方式的效果分別是:縮小窗口58.47%,硬截斷60.25%,平移窗口61.80%。平移方法之所以最好,是因為它保持了裁切窗口的實際大小不變,意味著放大後的解析度始終是預期水平;縮小和截斷都會減少看到的內容,可能恰好把目標元素邊緣切掉。

關於保留候選比例,保留全部預測(100%)時準確率60.03%,保留最近的50%時是60.37%,保留最近的75%時是61.80%。這說明少量極端離譜的預測確實會把整體方差估算拉偏,但過度過濾又會損失有效資訊,75%是一個經過驗證的平衡點。

關於是否強制方形裁切,非方形時60.56%,強制方形後61.80%,提升了1.24個百分點。強制方形減少了長條形裁切框對模型空間理解的干擾,這在界面元素寬高比變化很大的情況下尤其重要。

關於採樣溫度,從0.1到0.9準確率持續上升,從54.46%上升到61.80%,在1.0時略有回落。這表明多樣性對於估算裁切區域至關重要——溫度太低時,8個預測幾乎完全相同,等於沒有採樣,方差估算毫無意義;溫度太高則引入純隨機噪聲。0.9是最佳點。

關於候選數量,從2到8個準確率持續上升,在8個時達到61.80%,之後在12和16個時略有下降。超過8個之後,額外的預測開始引入冗餘甚至噪聲,反而稍微拖累了方差估算的質量。

五、它什麼時候管用,什麼時候還是會栽跟頭

研究團隊展示的案例分析,給出了對UI-Zoomer邊界的直觀理解。

在成功案例中,典型情形是:AI的8次初始預測雖然散落在一定範圍內,沒有一個精確命中,但整體分布合理地包圍了目標區域。UI-Zoomer據此圈定了一個合適的裁切範圍,放大之後AI一眼就鎖定了目標。這說明即使初始預測不夠精準,只要"集體犯錯"的方向是正確的,放大這個方向就能成功。

在失敗案例中,有兩類典型情形。一類是界面上存在多個外觀幾乎相同的圖標,而目標是其中一個,AI每次預測可能都指向不同的相似圖標,裁切範圍雖然覆蓋了某個區域,但放大後依然無法區分。另一類是目標極小且視覺特徵非常微弱,即使放大之後,模型也沒有足夠的線索做出正確判斷。這兩類失敗揭示了UI-Zoomer的根本局限:它能改善解析度,但無法憑空增加視覺區分度,當目標本身與周圍環境在視覺上高度相似時,放大也無濟於事。

關於門控閾值的調節,實驗結果呈現出一條清晰的規律:閾值太低,幾乎沒有樣本被送去放大,等於退化成基線方法;閾值太高,幾乎所有樣本都被放大,等於無差別放大,準確率反而下降,推理時間也接近翻倍。最優的閾值範圍在中間,讓大約20%到55%的樣本接受放大處理。此外,桌面和網頁界面從放大操作中獲益更多,移動端界面元素相對較大且布局更規整,放大的必要性更低。

說到底,UI-Zoomer做的事情聽起來非常簡單,卻填補了一個長期存在的空白:讓AI知道自己什麼時候在猜,並在猜測的時候採取有針對性的措施,而不是要麼完全不管,要麼對所有情況統統加碼處理。

這對普通人的意義,在不遠的將來會越來越具體。當AI助手被要求幫你操作電腦、填寫表格、在複雜軟體里找到某個隱藏功能時,它們面臨的正是這類"小圖標、密排版"的難題。UI-Zoomer這套框架不需要重新訓練模型,可以作為一個"外掛"直接套在已有的AI模型上,帶來實質性的準確率提升,同時通過門控機制避免了不必要的計算開銷。

當然,當界面上存在大量視覺相似的小圖標時,單純提高解析度並不足夠,AI還需要更深層的語義理解能力——這是這項研究坦然承認的局限,也是未來工作需要繼續推進的方向。有興趣進一步了解技術細節的讀者,可以在arXiv平台上以編號2604.14113檢索原始論文。

Q&A

Q1:UI-Zoomer是否需要重新訓練AI模型才能使用?

A:不需要。UI-Zoomer是一個無需訓練的框架,可以直接套用在已有的AI模型上使用,不改變模型本身的參數。它的工作方式是在推理階段對AI的輸出進行分析,決定是否需要裁切放大,屬於"測試時"的增強手段。

Q2:UI-Zoomer的門控機制是如何判斷AI"沒把握"的?

A:門控機制結合了兩個信號。第一個是"空間一致性",即讓AI對同一張截圖採樣8次,看8次預測框的重疊程度是否高——重疊少說明AI每次都指向不同位置,表明不確定。第二個是"平均置信度",直接讀取AI生成坐標時對每個數字的內部概率分數。兩個信號加總後與閾值比較,低於閾值才觸發放大流程。

Q3:為什麼無差別地對所有圖片都放大反而會讓準確率下降?

A:因為對於AI本來就能看清楚的簡單界面,強制裁切放大會去掉原本對AI有幫助的整體布局資訊。AI在看完整截圖時能利用上下文來推斷按鈕位置,裁切之後上下文丟失,反而增加了判斷難度。實驗數據顯示,無差別放大讓ScreenSpot-v2上的準確率從81.84%下降到77.20%,推理時間卻增加了近11倍。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新