南開大學與阿里巴巴聯手破解AI「視而不見」難題：讓大模型真正理解你說的是哪個物體

這項由南京開大學VCIP電腦科學實驗室與阿里巴巴通義實驗室聯合開展的研究，以預印本形式於2026年5月發表在arXiv平台，論文編號為arXiv:2605.18018v1。研究提出了名為SWIM（See What I Mean，"明白我的意思"）的全新訓練策略，致力於解決多模態大語言模型在理解用戶文字描述時"找不准目標物體"的根本性問題。

贊助商廣告

你有沒有遇到過這樣的體驗：你對著一個智能助手說"幫我描述一下街道上那個穿紅衣服的人"，結果它給你描述的卻是整條街道，或者描述了旁邊那輛最顯眼的汽車？這種"答非所問"的現象在當下最先進的視覺語言AI系統中普遍存在，而且令人沮喪的是，這並不是AI沒有"看到"那個人，而是它無法把你說的"紅衣服的人"這幾個字，和影片畫面里那個具體的人物準確地對應起來。

研究團隊把這個問題比作一場溝通錯位——AI擁有眼睛，也擁有耳朵，但眼睛和耳朵之間的"翻譯系統"出了問題。SWIM項目的核心目標，就是修復這套翻譯系統，讓AI真正做到"明白你說的是哪個"。

一、為什麼AI總是找不准你說的那個物體

要理解這個問題，可以用一個日常場景來類比。假設你站在一個熱鬧的菜市場裡，讓一個朋友幫你找"那個賣西紅柿的攤位"。如果你的朋友經驗豐富，他會把你說的"西紅柿"這個詞，和視野里某個具體攤位的紅色圓形物體對應起來，精準鎖定目標。但如果這個朋友對市場不熟悉，他可能會漫無目的地掃視整個市場，最終指向了那個最顯眼的大攤位，而不是你說的那個。

現有的多模態大語言模型（可以理解為"同時能看圖、看影片又能理解文字的AI"）就像那個不熟悉市場的朋友。為了弄清楚問題出在哪裡，研究團隊做了一個非常直觀的實驗：他們把AI模型在處理文字時的"注意力分布"可視化出來——也就是說，當AI讀到某個詞的時候，它的目光落在圖像的哪些區域。

實驗結果令人意外，卻又在情理之中。當AI讀到"棕色"、"鬍鬚"這樣描述外觀特徵的詞時，它的注意力非常集中，準確落在了圖像中那個真正棕色的區域、那張真正有鬍鬚的臉上。但當AI讀到"男人"、"人"這樣的名詞時，注意力卻分散得到處都是，整張圖像上都有一點點激活，就像把一滴墨水滴進了一大盆水裡，哪裡都有顏色，卻哪裡都不清晰。

贊助商廣告

這個發現揭示了一個系統性的規律：描述外觀特徵的詞（顏色、紋理、形狀）能夠精準定位，而代表物體本身的名詞卻總是漫無方向。研究團隊分析了其中的原因：在AI用來訓練的海量圖文數據中，"紅色"這個詞往往只出現在圖像里真正紅色的區域附近，因此AI學到了"紅色"和特定視覺區域的緊密聯繫。但"男人"這個詞在各種不同的場景下都會出現——室內、室外、近處、遠處、正臉、背影——這種多樣性導致AI無法把這個詞和某個具體的視覺區域牢牢綁定在一起。

正因如此，當用戶用純文字描述某個物體時，AI往往無法準確理解你說的到底是畫面里的哪一個。而為了解決這個問題，現有的一些方法走了一條"繞路"：讓用戶額外提供視覺標記——比如在圖像上畫一個框、打一個點、或者塗一個遮罩——來明確告訴AI"就是這個"。這種方式雖然有效，卻背離了人類最自然的交流方式：我們說話的時候，不會隨手拿著畫筆在空氣中圈出目標物體，我們依靠語言本身來指定目標。

二、現有解決方案的局限：不得不拿著"指示棒"說話

目前學術界和工業界已經有了一批專門針對"精細化物體理解"的模型，它們確實能更好地理解用戶指定的具體物體，但代價是需要額外的視覺輸入。

以影片領域為例，VideoRefer這類模型需要用戶提供對應幀的精確遮罩（就像在物體輪廓上描了一圈），Ferret需要用戶框出物體的位置，還有一些模型需要用戶點擊物體所在的坐標點。這些方法確實能讓AI"看準"目標，但使用起來極為不便——普通用戶在日常對話中不可能隨時準備好這些視覺標註工具。

更重要的是，這類方法在架構設計上通常需要額外的模組：一個專門處理遮罩的編碼器、一個額外的視覺區域提取網路……這不僅增加了系統的複雜度，也意味著在使用時必須額外準備這些"道具"。

研究團隊認為，真正理想的系統應該像人類一樣：只用語言就能精準指定目標，不需要任何額外工具。實現這個目標的關鍵，不是給模型增加更多模組，而是讓模型內部的"語言-視覺對應關係"變得更加精準。

贊助商廣告

三、構建"教材"：NL-Refer數據集的誕生

任何學習都需要好的教材，訓練AI也不例外。要讓AI學會把名詞和具體物體對應起來，首先需要一批"標準答案"——每張圖、每段影片裡，文字中提到的物體，都要有對應的精確視覺標註。

研究團隊的出發點是VideoRefer數據集，這是一個已有700K個影片樣本的影片理解數據集，其中每個樣本都包含影片幀、文字描述，以及物體的像素級遮罩標註。然而問題在於，原始數據集中的文字描述用的是一個占位符號``來指代目標物體，比如"請描述影片中``的特徵"。這個占位符對人來說一看就懂（結合視覺標記），但對於希望從純文字中學習對應關係的AI來說，這等於告訴它"這裡有個目標物體"，卻沒有給出任何語義資訊——AI無從知曉這個物體叫什麼、有什麼特徵。

為了解決這個問題，研究團隊設計了一個GPT-4o驅動的數據處理流程。具體而言，他們讓GPT-4o閱讀每個樣本中配套的詳細描述文字（比如"一個穿白色T恤、留著鬍鬚的年輕男性正在走路"），然後讓它把文字里的``占位符替換成一個簡潔、準確的自然語言指代表達式，同時在這個表達式里找出最核心的名詞（比如"男人"），用特殊標記``把它包圍起來。

經過這樣處理，原本的"請描述影片中``的特徵"就變成了"請描述影片中那個**留著鬍鬚的年輕男人**在街上行走的特徵"，其中"男人"這個詞被標記出來，並且與原來的像素級遮罩直接掛鉤。這套經過精心處理的數據集被命名為NL-Refer，包含12.5萬個影片樣本，每個樣本都建立了從自然語言名詞到視覺區域的精確映射。

這相當於為AI準備了一套帶有精確答案的練習題：每道題告訴AI"當你讀到這個詞時，你的目光應該落在圖像的這個區域"。

四、SWIM訓練策略：用"考試壓力"糾正注意力習慣

有了高質量的教材，接下來是設計訓練方法。SWIM的核心思路其實並不複雜：在AI訓練過程中，每當AI讀到一個被標記的關鍵名詞時，就檢查它的注意力是否落在了正確的視覺區域；如果沒有，就給它一個"懲罰信號"，推著它把注意力調整到正確位置上去。

贊助商廣告

具體來說，當AI處理一段輸入時，它的內部有多層"注意力機制"，每一層都在決定"當我處理某個詞時，我應該關注影片畫面的哪些部分"。研究團隊從AI的中間多層同時提取這種注意力分布圖，然後把這些來自不同層的注意力圖取平均，得到一張綜合的注意力熱力圖，代表AI整體上在關注畫面的哪些區域。

接下來，這張熱力圖被拿來和預先標註好的物體遮罩（即目標物體的真實輪廓）進行對比：熱力圖中的高亮區域是否和物體遮罩重合？使用的衡量標準是二值交叉熵損失函數——可以理解為一種"考卷評分機制"，它對圖像上每個像素點獨立評分：如果某個像素屬於目標物體，對應位置的注意力越高越好；如果某個像素不屬於目標物體，對應位置的注意力越低越好。這個評分機制會生成一個"罰分"，罰分越高說明注意力和真實區域偏差越大，訓練過程會根據這個罰分不斷調整AI的參數，直到注意力越來越集中在正確區域上。

這裡有一個非常關鍵的設計特點：這套遮罩監督只在訓練階段使用。當訓練完成、模型正式投入使用時，用戶不需要提供任何遮罩或其他視覺標註，只需用普通文字描述目標物體，模型就能自動把注意力對準正確區域。這就好比你通過大量練習學會了"看到描述就能想像對應畫面"的能力，在實際使用時不再需要圖片輔助，單憑描述就能在腦海中精準定位目標。

關於具體從哪些層提取注意力圖，研究團隊也做了系統性的探索。他們發現，從單一層提取效果最差，使用六層效果最好，再增加層數收益遞減。更重要的發現是，這六層最好均勻分布在整個網路的淺層到深層，而不是集中在某個特定深度段——這說明精準的物體理解需要同時利用低層的紋理特徵和高層的語義理解，兩者缺一不可。

在注意力圖的合併方式上，研究團隊對比了加法、最大值池化、乘法、平均值四種方式，最終發現直接取平均效果最好。原因在於，乘法會導致某個層注意力稍低的區域被整體壓低，遺漏了部分有效資訊；而平均值能平滑各層之間的噪聲，同時保留最顯著的激活峰值。

贊助商廣告

在損失函數的選擇上，研究團隊對比了四種方案：mIoU損失、Focal損失、Dice損失和二值交叉熵（BCE）損失。最終BCE損失效果最優，原因在於注意力圖天然是稀疏的（大部分區域注意力接近零），而BCE對每個像素獨立計算，既懲罰了目標區域內的低注意力，也懲罰了非目標區域的高注意力，與注意力圖的稀疏特性非常契合。

五、實驗結果：不只是比別人強一點點

研究團隊在多個影片理解基準上對SWIM進行了系統測試，結果相當令人信服。

在VideoRefer-Bench上，這個專門評測影片精細化物體理解能力的基準分為兩個子任務。第一個子任務（VideoRefer-Bench-Q）讓模型回答關於特定物體的選擇題，涵蓋基礎認知、時序關係、物體間關係、推理和預測五個維度。SWIM取得了78.3%的平均準確率，比之前最好的專門模型VideoRefer-7B高出6.4個百分點，也超過了GPT-4o（71.3%）和規模更大的InternVL2-26B（65.0%）。其中提升最明顯的是基礎認知（比Qwen2.5-VL-7B高5.8%）和時序關係（高5.3%），這兩類任務都需要AI首先精準識別出目標物體才能作答，正好是SWIM改進最核心的能力。

第二個子任務（VideoRefer-Bench-D）要求模型對指定物體進行詳細描述，評分維度包括主體對應準確性（描述的是不是指定的那個物體）、外觀描述準確性（顏色、形狀、紋理是否正確）、時間動作描述準確性（動作、運動是否描述準確）、以及幻覺檢測（有沒有編造不存在的細節）。SWIM在這四個維度上分別得到4.92、3.85、3.43、2.96分（滿分5分），綜合平均3.78分，不僅超過了最好的專門模型DAM-8B（3.68分），也遠超GPT-4o（3.25分）。其中主體對應性和外觀描述的提升最為突出，這直接反映了SWIM在把名詞和視覺區域對應方面的改進。

在通用影片理解基準上，SWIM在MVBench上得到62.1分（超過VideoRefer-7B的59.6），在VideoMME上與VideoRefer-7B持平（55.9），在ActivityNet-QA上得到55.6分。這些結果說明，SWIM在專精於精細化物體理解的同時，並沒有犧牲通用影片理解能力——一個專注於某項技能的訓練方法，沒有讓AI"偏科"。

贊助商廣告

六、AI的目光究竟落在哪裡：用數字量化注意力精準度

為了更直觀地驗證SWIM確實改善了注意力分布，研究團隊設計了兩套專門的評估指標。

第一套是GamePoint@P指標，它衡量的是：在AI注意力最高的前P%像素中，有多少比例落在了目標物體的遮罩範圍內？在P=1%時，SWIM的得分是0.392，而基礎的Qwen2.5-VL只有0.329，提升了6.3個百分點；在P=5%時提升5.5個百分點；在P=10%時提升4.7個百分點。這意味著SWIM的注意力峰值更準確、更集中，最受關注的那些像素確實更多地落在了目標物體上。

第二套是GamePoint@K指標，衡量的是注意力排名靠前的K個像素點中，有多少屬於目標物體。在K從1到100的各個值上，SWIM（0.373~0.375）始終高於Qwen2.5-VL（0.328~0.331），且各個K值下的差距非常穩定。這說明SWIM不只是在最高注意力點上表現更好，而是整體的注意力排序都更加準確可靠。

此外，研究團隊還用AP（平均精度）、AUC（曲線下面積）、NSS（歸一化掃描路徑顯著性）和Precision（精確率）四個更標準的視覺顯著性指標，對兩個模型的注意力圖進行了全面比較。四項指標上SWIM全部優於基礎模型：AUC從0.62提升到0.67，NSS從0.39提升到0.50，Precision從0.28提升到0.39，AP從0.26提升到0.30。這些數字背後的意思是：SWIM生成的注意力圖與真實物體遮罩的重合程度更高，虛假激活（注意力落在非目標區域）更少，區分目標與非目標的能力更強。

七、數據越多越好：SWIM的規模擴展潛力

一個實用的AI方法，除了當下的性能，還需要具備"越餵越好"的潛力——隨著數據規模擴大，性能能否持續提升？

研究團隊對NL-Refer數據集按照不同規模進行了實驗，從3萬個樣本開始，逐步增加到5萬、8萬、10萬、最終12.5萬個完整樣本，觀察性能變化。結果顯示出清晰、單調的上升趨勢：3萬樣本時得分3.23，5萬時3.39，8萬時3.60，10萬時3.69，12.5萬時3.78。全程沒有出現性能停滯或下降的跡象，而且在12.5萬這個當前最大規模處，曲線仍然沒有表現出"飽和"的跡象。這意味著如果能獲得更多高質量的遮罩標註數據，SWIM的性能還有相當大的提升空間。

贊助商廣告

八、面對"換個說法"的挑戰：魯棒性測試

現實世界中的用戶描述同一個物體時可能用不同的詞：有人說"男人"，有人說"男性"，有人說"男士"。一個真正實用的系統應該在面對這類同義詞替換時保持穩定的性能，而不是只認識訓練時見過的特定詞彙。

為了測試這一點，研究團隊把VideoRefer-Bench-D測試集中所有被標記的關鍵名詞替換成同義詞，然後重新評測。結果顯示，SWIM在同義詞幹擾下的得分（3.74）僅比原始得分（3.78）低0.04分，降幅極為微小。相比之下，原始Qwen2.5-VL在沒有干擾時得分為2.97，加上精確關鍵詞後（相當於給它一點額外的語義線索）得分為3.43，仍然低於SWIM在有同義詞幹擾時的3.74。這個對比說明SWIM學到的不是死記硬背特定詞彙，而是對物體語義的深層理解，這種理解可以泛化到語言表達的自然變化中。

九、實際效果：看得見的區別

除了數字，研究團隊也展示了一些具體的對比案例，讓SWIM的改進變得非常直觀。

在一個描述類任務中，用戶讓模型描述"影片桌子上那個長方形的木質砧板"。基礎的Qwen2.5-VL描述的是旁邊的餅乾，因為餅乾是畫面中最顯眼的動態物體；而SWIM準確描述了那塊砧板，內容與標準答案高度吻合。在兩道選擇題案例中，SWIM同樣選出了正確答案，而基礎模型都選錯了。這些例子都指向同一個問題：當AI不能準確將文字描述與視覺區域對應時，它會本能地被畫面中最顯眼的物體"吸引"，而忽視用戶真正在問的那個目標。

說到底，SWIM做的事情並不是給AI添加了某種神奇的新能力，而是修復了一個長期被忽視的基礎問題：當AI讀到一個物體名詞時，它應該真的"看向"那個物體，而不是漫無目的地掃視整個畫面。這個問題之所以之前沒有被系統性解決，很大程度上是因為傳統的評測方式（問答準確率、描述流暢度）並不能直接暴露注意力分布的缺陷，需要像這篇論文這樣把注意力圖可視化出來才能發現。

贊助商廣告

對於普通用戶來說，這項研究的意義在於：未來你在使用AI助手時，只需要用自然語言說"幫我關注影片裡那個戴紅帽子的孩子"，AI就能真正把目光和注意力聚焦在那個孩子身上，而不是描述整個場景或者最顯眼的背景元素。SWIM的訓練方案只需要在訓練時提供遮罩，推理使用時完全依靠文字，這意味著它可以直接集成到現有的模型訓練流程中，不需要改動模型架構或增加推理時的額外輸入。

這項研究的完整論文可以通過arXiv編號2605.18018查閱，代碼和NL-Refer數據集也已開源，有興趣深入了解技術細節的讀者可以通過GitHub上的HumanMLLM/SWIM倉庫獲取。

Q&A

Q1：SWIM訓練方法和普通多模態大模型南開大學與阿里巴巴聯手破解AI視而不見難題讓大模型真正理解你說的是哪個物體訓練有什麼區別？

A：普通多模態大模型訓練只要求模型輸出正確的文字答案，並不管模型內部的注意力是否落在了正確的視覺區域。SWIM在此基礎上增加了一個額外的監督信號：當模型讀到物體名詞時，它的跨模態注意力圖必須和預先標註的物體遮罩儘量重合，否則會產生懲罰。這個額外約束迫使模型把名詞和對應視覺區域更緊密地綁定在一起，從而在推理時僅憑文字就能精準定位目標物體，不再需要用戶額外提供遮罩或標註框。

Q2：NL-Refer數據集和原始VideoRefer數據集有什麼不同？

A：原始VideoRefer數據集中，文字描述用占位符``代替目標物體，這個符號對人來說要配合視覺標記才能理解，AI無法從中學習到名詞和視覺區域的對應關係。NL-Refer通過GPT-4o處理，把每個``替換成了具體的自然語言描述（比如"那個留鬍鬚的年輕男人"），同時標記出最核心的名詞，並保留了與之對應的像素級遮罩。這樣AI就能從文字本身直接學習"讀到這個詞就該看那個區域"的對應關係。

Q3：SWIM在影片以外的圖像理解任務上也有效嗎？

A：當前論文的實驗主要集中在影片理解任務上，訓練數據也以影片為主。不過SWIM的核心機制（對跨模態注意力施加遮罩監督）在理論上同樣適用於靜態圖像理解場景，因為圖像和影片在模型的注意力計算方式上本質相同。研究團隊並未專門測試純圖像場景，但由於基礎框架Qwen2.5-VL本身支持圖文輸入，SWIM的訓練策略理論上可以遷移到圖像領域，這也是未來研究可以探索的方向。

贊助商廣告