加州大學洛杉磯分校最新研究：讓AI看圖說話時，也能「指出」它在看哪裡

這項由加州大學洛杉磯分校（University of California, Los Angeles）研究團隊完成的工作，以預印本形式於2026年6月15日發布於arXiv，編號為arXiv:2606.16122v1，研究方向隸屬於電腦人工智慧領域（cs.AI）。感興趣的讀者可以通過上述編號在arXiv平台上檢索到完整論文。

贊助商廣告

一、一個關於"指認證據"的故事

假設你是一名法庭陪審員，面前站著兩位證人。第一位證人說："被告當時就在現場，我看得清清楚楚。"第二位證人說："被告當時站在法庭門口左側第三根柱子旁邊，我從對面的走廊里一眼就看到了他。"請問，你會更相信哪一位？

幾乎所有人都會更傾向於信任第二位證人，因為他不僅告訴了你結論，還告訴了你他的依據在哪裡。這種"給出證據位置"的行為，在法律上叫做"指認"，在科學研究中叫做"可驗證性"，而在本篇論文所探討的人工智慧領域，它被稱為"視覺定位"（Visual Grounding）。

當前，能同時理解圖片和文字的人工智慧模型（學術上稱為視覺語言模型，Vision-Language Model，簡稱VLM）已經相當普及。你可以給這類模型發一張圖片，問它"圖里有幾只貓"或者"桌子左邊是什麼東西"，它會給出一個回答。更先進的模型還會在回答之前先"想一想"，就像人類做題時會打草稿一樣，模型會生成一段中間推理過程，然後再給出最終答案。這種"先思考再回答"的模式被稱為"思維鏈推理"（Chain-of-Thought Reasoning），它確實讓模型的表現變好了不少。

然而，問題就藏在這個"思考過程"里。當模型說"紅色的轎車停在門口旁邊，所以答案是B"時，它只是在用文字描述一個它聲稱看到的場景。但到底有沒有紅色的轎車？它真的在門口旁邊嗎？你沒有辦法從模型的文字推理中驗證這一點。更麻煩的是，研究者們發現，有時模型給出的最終答案是對的，但它的推理過程其實根本沒有參考圖片，純粹是靠語言模式猜出來的。換句話說，模型可能在"撒謊"——或者更準確地說，它的推理過程與圖片內容脫節了，卻恰好蒙對了答案。

贊助商廣告

加州大學洛杉磯分校的研究團隊注意到了這個根本性的缺陷，並提出了一個解決方案：讓模型在推理時，不僅用文字描述它在圖片中看到的東西，還要同時"指出"它在說的是圖片的哪個位置。這就是本文提出的核心概念——"視覺定位思考"（Visually Grounded Thinking）。

二、什麼叫做"邊想邊指"

用一個更具體的場景來理解這個概念。假設你在玩一個遊戲：一位裁判給你看一張照片，上面有很多人，然後問你"離棕色椅子最近的藍色物體是什麼"。你的回答過程可能是這樣的：你先用手指點住照片中的藍色馬克杯，再用另一根手指點住棕色椅子，然後說"這個藍色馬克杯（手指在這裡）離那把棕色椅子（手指在那裡）最近，所以答案是馬克杯"。

你的推理是文字，但你同時用手指錨定了圖片中的具體位置，讓裁判可以核實你說的對不對。研究團隊希望AI模型也能做到類似的事情。

在論文提出的格式里，模型在思考過程中每次提到一個重要的物體時，會在文字旁邊附上一個坐標標記，指明這個物體在圖片中的位置。坐標有兩種形式：一種是"框"（bounding box），用四個數字描述一個矩形區域，把物體框起來；另一種是"點"（point），用兩個數字標註物體內部的一個具體位置。整個思考過程就像是這樣的文字："圖片中有一個藍色的馬克杯（坐標：左131，上138，右440，下502），還有一把棕色的椅子（坐標：左0，上2，右204，下670）。藍色馬克杯是最近的藍色物體，所以答案是A。"

在這個格式里，自然語言承擔了表達思路的任務，坐標則鎖定了每一步推理所依賴的圖片證據。任何人，包括研究者、用戶，乃至其他AI模型，都可以通過坐標去圖片上核實模型說的是否屬實。

三、如何教會一個模型"邊想邊指"

要讓一個模型學會這種行為，首先需要大量的訓練數據，也就是帶有坐標標註的推理樣本。但問題是，這種數據在自然界裡幾乎不存在——沒有人會在日常對話中把每句話都配上圖片坐標。因此，研究團隊設計了一套全自動的數據生成流水線，從零開始製造這類訓練數據。

贊助商廣告

整個流程可以理解成一條精密的工廠生產線，分成七個環節。

生產線的起點是大量現成的視覺問答數據集，涵蓋數量計算和空間關係理解兩大類任務。研究團隊從中選取了來自TallyQA（複雜計數問題）、Pixmo-Count（圖片計數）、VSR（視覺空間推理）、MultihopSpatial（多跳空間推理）和SpatialMQA（空間關係多選題）這五個數據集的訓練部分，測試集則被嚴格鎖起來，不參與任何訓練過程。

拿到原始數據之後，研究團隊先用一個已經非常強大的AI模型——騰訊開發的Qwen3-VL-Plus——去回答這些問題，並要求它在回答時展示思考過程。只有當這個大模型給出了正確答案時，它的思考過程才會被保留下來作為素材。如果第一次沒答對，再換另一個強模型Qwen3.5-Plus重試一次。這一步的目的是獲取"正確的推理軌跡"——也就是說，先確保推理過程的方向是對的，才值得繼續加工。

有了正確的推理文字之後，下一步是從中提取出"關鍵物體"——那些推理過程中被提到、且對得出答案至關重要的具體東西。比如在一道關於空間關係的題里，"黑色筆記本電腦"和"穿黑色T恤的男人"就是關鍵物體。每個關鍵物體都被記錄下一個名字（比如"黑色筆記本電腦"）和一個區分性的場景描述（比如"在桌子上，靠近這邊"），這個描述用來區分圖片中可能出現的多個同類物體。

接下來就是整個流水線中技術含量最高的一環：用坐標精確標註每一個關鍵物體在圖片中的位置。這件事做起來非常困難，因為AI模型直接給出的坐標往往不夠準確。研究團隊的解決方案是使用一個專門做圖像分割的工具——SAM3 加州大學洛杉磯分校最新研究讓AI看圖說話時也能指出它在看哪裡（"分割任何東西3"，Segment Anything Model 3，由Meta AI開發）——來生成精確的物體輪廓蒙版（mask）。SAM3的特長是：給它一個簡單的文字描述，它能在圖片上畫出精確的物體邊界。但SAM3也有局限，它不善於處理複雜的上下文描述（比如"桌子上靠近這邊的那台黑色筆記本"）。

贊助商廣告

為了解決這個問題，研究團隊設計了一個"智能體"（agent）系統，讓一個語言模型來駕馭SAM3。這個智能體會先把複雜的物體描述轉化成SAM3能理解的簡短詞組，調用SAM3得到候選蒙版，然後仔細核查候選結果是否真的對應了目標物體，如果不對就調整詞組重試。這個反覆試驗的過程就像是一個人助手幫你在圖書館找書：他先按分類去找，看看找到的對不對，不對就換個關鍵詞再找，直到確認找到了你要的那本書。

一旦智能體鎖定了目標物體的精確輪廓蒙版，就可以從中同時派生出兩種坐標：對於"框"模式，把輪廓的外接矩形轉化為四個坐標數字；對於"點"模式，從輪廓內部找到距離邊界最遠的那個點（這樣能保證即使對形狀奇特的物體，點也穩穩地落在物體內部，而不會跑到邊界外面）。

有了坐標之後，最後兩步是把坐標嵌回推理文字里，並做質量過濾。嵌入時有一個巧妙的設計：模型只看到物體的文字描述，坐標是後來填進去的，這樣就避免了模型自己編造坐標數字。質量過濾則剔除了那些坐標嵌入後推理文字變形嚴重的樣本，以及格式錯誤或推理過度重複的樣本。

整個流水線最終產出了19,909條推理樣本，每條樣本里平均有5.41個帶坐標的物體標註，覆蓋了72,381個獨立的物體定位目標。這些數據同時以"框"和"點"兩種格式提供，形成兩套平行的訓練集。

四、用"定位獎勵"讓模型越練越准

光有訓練數據還不夠。研究團隊在第二階段採用了強化學習（Reinforcement Learning，簡稱RL）的方法來進一步打磨模型，而這裡有一個專門針對坐標準確性的"定位獎勵"設計，是論文的另一大技術貢獻。

強化學習的基本邏輯可以用訓練寵物來類比：你希望寵物做某件事，每次它做對了就給獎勵，做錯了就不給。隨著不斷練習，寵物會越來越傾向於做對的事。在這篇論文裡，研究團隊希望模型不僅答對問題（這是基本的答案正確性獎勵），還要在推理過程中把物體的坐標標得準確（這是新增的定位質量獎勵）。

贊助商廣告

定位質量獎勵有兩種計算方式，分別對應框和點兩種模式。對於"框"模式，用的是"交並比"（IoU）：把模型生成的框和正確答案的框分別理解成兩塊區域，計算它們重疊部分的面積除以兩者合併區域的面積。如果完全重合，得分是1；如果完全不重疊，得分是0；部分重疊則得到0到1之間的分數。這個分數會隨著框的位置變化而平滑變化，給模型提供連續的反饋信號。對於"點"模式，用的是F1分數：檢查每個模型生成的點是否落在對應物體的正確輪廓區域內，然後用精確率和召回率的調和平均來綜合評分。

有一個設計細節值得特別說明：在計算定位質量之前，需要先解決一個"對號入座"的問題。模型在推理時可能會用不同的措辭稱呼同一個物體，比如訓練數據里叫"黑色筆記本電腦"，模型可能說"桌上的那台筆記本"。為了把模型生成的坐標和正確答案的坐標對應起來，研究團隊專門設計了一個"路由"模組：用一個輕量級的語言模型Qwen3.5-4B來閱讀模型的推理文字，找出哪些被提及的物體對應了哪些正確答案目標。這個過程就像是一個翻譯員，負責把模型的"方言"翻譯成標準答案的"普通話"，然後再進行比較評分。

另一個值得注意的設計決策是：研究團隊故意不懲罰模型標註了"額外的"物體坐標——也就是說，如果模型在推理中定位了一些訓練數據里沒有記錄的物體，這不會被扣分。原因很合理：訓練數據中記錄的關鍵物體並不是圖片中所有有用資訊的完整列表，模型在思考時發現並標註了其他有幫助的參考物，是一種合理的自主行為，不應該被壓制。

最終，每條訓練樣本的總獎勵是答案正確性獎勵、格式正確性獎勵、定位質量獎勵以及截斷懲罰的加權組合，通過GRPO算法（一種強化學習優化方法）來優化整個模型。

五、實驗結果：4B模型打贏27B模型

研究團隊選擇了Gemma3-4B-IT作為基礎模型，這是谷歌DeepMind發布的Gemma3系列中參數量為40億的版本。為了對比不同設計選擇的效果，他們同時訓練了三個變體：不含坐標的純文字推理版本、含框坐標的推理版本，以及含點坐標的推理版本。每個變體都有"含定位獎勵"和"不含定位獎勵"兩個子版本。評測在六個公開基準數據集上進行，涵蓋計數類（TallyBench、CountQA）和空間關係理解類（VSR-zeroshot、EmbSpatial、SpatialMQA、MultihopSpatial）兩大類任務。

贊助商廣告

實驗結果給出了幾個非常清晰的結論。

在計數任務上，含點坐標的視覺定位推理版本表現最佳。以TallyBench為例，原始Gemma3-4B-IT模型的平均準確率為33.33%，而含點坐標且加入定位獎勵的版本達到了39.31%，提升幅度相當顯著。CountQA上的情況類似，原始模型僅有9.87%的準確率，而含點坐標不加定位獎勵的版本達到了12.34%，提升了約25%。

在空間關係理解任務上，結果更加令人印象深刻。以MultihopSpatial這個需要多步推理的空間關係任務為例，原始4B模型的準確率只有22.70%，而加入框坐標和定位獎勵之後，準確率躍升到了37.68%，幾乎提升了一倍。更戲劇性的是，作為參照的Gemma3-27B-IT——也就是同一模型家族中參數量是訓練模型近七倍的大哥——在這個任務上的準確率只有30.94%，反而被4B的視覺定位思考版本遠遠甩在了身後。

在pass@4這個指標（即連續運行四次後只要有一次答對就算成功）上，差距進一步拉大。所有視覺定位推理版本的4B模型，在空間關係任務上的pass@4成績都大幅超過了27B的模型。這說明視覺定位推理讓模型的"天花板"也得到了顯著提升。

相比之下，不含坐標的純文字推理版本卻出現了一個有趣的反常現象：它的表現有時反而不如原始模型，尤其是在空間關係任務上，準確率從原始模型的56.65%跌到了51.84%（VSR-zeroshot），從49.13%暴跌到20.54%（EmbSpatial）。研究團隊對此給出了解釋：純文字推理版本在強化學習訓練過程中出現了"長度崩潰"——模型的回答越來越短，越來越不探索，最終陷入了一種懶惰的思維模式。相比之下，含坐標的版本由於推理中存在坐標標註這一固定結構，加上對坐標格式的獎勵，天然地維持了較長且穩定的思維鏈，避免了這種退化。

六、框還是點，哪個更好用

研究團隊還專門對比了框模式和點模式這兩種坐標格式的差異，發現它們各有所長，適合不同的任務類型。

贊助商廣告

在計數任務上，點模式明顯優於框模式。背後的道理並不複雜：數數的關鍵是"認出每一個個體並把它和其他個體區分開"，而點坐標恰好提供了這種"每個物體一個標記"的能力，不需要精確框出物體邊界。事實上，給形狀不規則、部分遮擋的小物體精確畫框，本身就是一件很難的事情，而標一個點則容易得多。點模式的這種輕量級特性，在計數場景下反而成了優勢。

在空間關係任務上，兩種模式的表現相當接近，沒有一邊壓倒性勝出。框模式的潛在優勢在於：框的大小和位置能夠反映物體的實際範圍，這對於判斷"A是否在B的左邊"、"A和B是否有重疊"這類問題是有幫助的幾何資訊。然而，點模式雖然不提供範圍資訊，但只要能準確錨定物體的大概位置，結合模型對圖片的整體理解，通常也足以推斷空間關係。因此兩種模式在這類任務上難分高下。

關於定位獎勵（也就是對坐標準確性的額外獎勵），研究團隊也發現了一個有趣的不對稱現象：定位獎勵對框模式的提升效果明顯，但對點模式的幫助則不那麼穩定，在不同數據集上有得有失。原因在於兩種獎勵信號的性質不同。框模式的IoU獎勵是連續的——框稍微移動一下，分數就會跟著變化，模型能得到細膩的方向反饋。點模式的F1獎勵則是跳躍式的——只要點還在物體內部，不管在哪裡分數都一樣，但一旦點跑出了物體邊界，分數就急劇下降。這種粗粒度的反饋信號讓模型更難從中學到有效的優化方向，因此定位獎勵對點模式的改進效果不如框模式顯著。

歸根結底，這項研究的核心貢獻不在於某個單一技術突破，而在於它建立了一套完整的框架，讓AI在視覺推理時的"思考過程"可以被追蹤和核實。當AI說"因為我看到了X，所以答案是Y"，現在它必須同時告訴你X在圖片的哪個位置，讓你能去核對。這種可驗證性，既提升了AI推理的可靠性，也提供了更豐富的監督信號來進一步改進模型。

贊助商廣告

說到底，這項工作解決的是一個根本性的信任問題。我們之前讓AI看圖回答問題，卻從來不知道它到底在"看"哪裡，推理過程是真的基於圖片還是靠語言猜測。現在，視覺定位推理給了這個過程一個"存證"機制——每一步推理都要對應圖片中的具體證據，就像法庭上的證人不僅要說出結論，還要指出證據在哪裡。實驗結果表明，這種約束非但沒有讓模型變得笨拙，反而讓40億參數的小模型在某些任務上超越了270億參數的大模型，說明"想清楚"有時候比"想得多"更有價值。

對於普通用戶來說，這項研究意味著未來看圖類AI助手的回答將更加可靠，你不僅能得到一個答案，還能看到AI用來支撐這個答案的圖片證據位置，從而自己判斷AI說得對不對。對於AI研究者來說，這項工作提供了一套可擴展的數據生成和訓練方法，無需人工標註坐標，就能讓模型學會"邊想邊指"。

至於這套方法未來能走多遠——它目前只在計數和空間關係這兩類相對明確的視覺任務上經過驗證，是否能推廣到更複雜的場景（比如需要理解人物表情、抽象概念或跨圖推理的問題），還有很大的探索空間。感興趣的讀者可以通過arXiv編號2606.16122查閱原始論文，追蹤這個方向的後續進展。

Q&A

Q1：視覺定位思考（Visually Grounded Thinking）和普通的視覺推理有什麼區別？

A：普通的視覺推理只輸出文字描述，比如"紅色轎車在門口旁邊"，但沒法核實模型到底在圖片的哪裡看到了這輛車。視覺定位思考要求模型在每次提到重要物體時，同時給出該物體在圖片中的坐標（框或點），讓推理過程可以被追蹤和驗證。這就像證人不只說結論，還要指出證據的具體位置。

Q2：為什麼4億參數的小模型在某些任務上能超過270億參數的大模型？

A：關鍵在於視覺定位推理這種訓練方式讓模型在思考時必須把每個關鍵物體"錨定"在圖片的具體位置，這迫使模型真正參考圖片內容，而不是靠語言模式猜測。這種高質量的推理過程彌補了參數量的差距，說明在視覺任務中，"想清楚"有時比"想得多"更有效。

贊助商廣告

Q3：SAM3在這套數據合成流水線中起什麼作用？

A：SAM3（Segment Anything Model 3）負責生成精確的物體輪廓蒙版。由於直接讓語言模型預測坐標往往不準確，研究團隊改為讓一個AI智能體調用SAM3，把物體描述轉化為精確的像素級輪廓，再從輪廓中派生出框坐標和點坐標，從而保證訓練數據中的坐標標註具有足夠高的準確性。