浙大與南京航空航天大學聯合出手：讓AI真正讀懂你的意圖，精準找出圖中每一個目標

這項由浙江大學與南京航空航天大學聯合推進的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.26102，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

你有沒有試過跟一個只會死記硬背的人溝通？你說"把桌上那個靠近水杯的、有點舊的本子遞給我"，他卻茫然地問"你說的是'本子'嗎？我只認識叫做'本子'的東西"。這種雞同鴨講的感覺，就是當前主流圖像分割AI系統的真實寫照。

所謂圖像分割，通俗來說就是讓電腦在一張圖片裡把某個目標"摳出來"，精確地描繪出它的邊界。這項能力對於自動駕駛汽車識別行人、醫療系統分析病灶、機器人手臂抓取物體來說都至關重要。近幾年，Meta公司推出的SAM系列模型（Segment Anything Model，意為"分割任何東西"）在這個領域樹立了相當高的標杆，尤其是最新的SAM3，它能接收一個簡短的名詞短語作為提示，然後在圖片裡找出所有符合描述的目標實例並逐一分割。

然而，SAM3有一個根本性的局限：它只聽得懂簡單的名詞，比如"咖啡杯"或者"交通錐"。而現實中，人們想找的東西往往需要用一整句話才能說清楚，比如"桌上那兩個最大的"、"除了正前方那個以外的所有人"、"最靠近水槽的馬克杯"。這類包含了屬性描述、空間關係、數量限定甚至排除邏輯的複雜指令，對SAM3來說完全是天書。

正是為了填補這個空白，浙大與南航的研究團隊推出了**InstructSAM**——一個能夠理解任意自然語言指令並精準分割每一個目標實例的統一框架。同時，他們還構建了一個大規模的專屬數據集與評測基準**Inst?Seg**，為整個領域的進步提供了重要的基礎設施。

---

一、現有方案為何都是"半吊子"

要理解InstructSAM的價值，先得搞清楚現有方案都卡在哪裡。

面對"請幫我找出圖里穿灰色球衣的、正面對著球的那兩名球員"這樣的指令，業界主要有兩種應對策略，但兩種策略都各有硬傷。

贊助商廣告

第一種策略是"智能助理接力跑"：先讓一個大型視覺語言模型（可以理解為一個能看圖說話的AI大腦）把複雜指令拆解成SAM3能聽懂的簡單詞彙，再把SAM3的輸出結果交回給AI大腦做篩選和驗證，如此反覆多輪。這個過程就像玩"傳話遊戲"——資訊在多次轉述中不斷失真，複雜的空間關係、排除邏輯往往在翻譯成簡單名詞時就已經悄悄丟失了。更要命的是，這種多輪交互的方式非常緩慢，測試表明同等條件下它需要將近30秒才能完成一次預測。

第二種策略是"讓AI直接說出分割結果"：給大語言模型裝上一個特殊的"分割令牌"（可以理解為一個特殊的魔法詞），模型在生成回答時，每當說出這個魔法詞，系統就對應生成一個分割掩碼。LISA、Sa2VA等模型都採用了這種思路。這個思路的問題在於：這個魔法詞本質上是個"共用品"，沒有跟任何具體的目標實例綁定。當你需要分割多個目標時，模型就像在用同一把鑰匙開不同的鎖，生成的多個結果往往高度重複甚至互相矛盾。LISA++嘗試通過讓模型依次說出多個魔法詞來解決這個問題，但逐個生成的方式使得目標越多、等待越久，且重複預測的問題依然沒有根本性解決。

簡而言之，第一種方法太慢、太繞、容易丟失細節；第二種方法不擅長區分多個獨立個體、容易產生重複輸出。InstructSAM的目標就是同時克服這兩個弱點。

---

二、InstructSAM的核心思路：給AI配一排專屬"候選槽"

InstructSAM的設計哲學可以用一個形象的比喻來理解。假設你在一家公司舉辦面試，你有10把專屬的椅子（這就是論文裡說的"可學習查詢庫"），每把椅子對應一個候選職位。當應聘者進來後，系統會結合崗位說明書（指令文本）和候選人簡歷（圖像資訊），讓每把椅子專門"鎖定"一個最合適的候選人。這樣，10把椅子就可能各自對應一個獨立的目標實例，而不會互相混淆。

贊助商廣告

具體來說，InstructSAM包含三個協同工作的核心部件。

第一個部件是多模態大語言模型，它扮演"理解中樞"的角色，負責同時讀懂圖像內容和用戶指令，進行複雜的語義推理。模型的基礎是阿里巴巴推出的Qwen3-VL-2B，這是一個僅有20億參數規模的緊湊型視覺語言模型。

第二個部件是"並行實例查詢庫"，這是InstructSAM最核心的創新之一。研究團隊在語言模型內部預先設置了K個（默認為10個）可以被學習和調整的"查詢向量"，相當於10個空白的候選槽位。當模型遇到一個特殊觸發詞``時，這10個槽位就會被一起注入到處理流程里，與圖像資訊和指令資訊充分互動。最終，每個槽位都會被"注入"一個具體目標實例的語義資訊，變成一個獨立的、指向特定目標的"實例指針"。這個設計的精妙之處在於：10個槽位是同時並行處理的，一次前向傳播就全部搞定，完全不需要像自回歸方法那樣一個一個地生成。

第三個部件是SAM3的掩碼解碼器，它接收前兩個部件輸出的"實例指針"，並以此為線索在圖像中精確定位並勾勒出每個目標實例的像素級輪廓。

---

三、混合注意力機制：讓槽位之間"通氣"

僅有並行槽位還不夠，因為還存在一個隱患：10個槽位可能會"撞車"，即多個槽位不約而同地指向同一個目標，導致重複預測。

為了解決這個問題，研究團隊設計了一種被稱為"混合注意力機制"的通信規則。理解這個機制，需要先了解大語言模型里的"注意力"是什麼。簡單來說，注意力機制決定了模型處理某個詞的時候，能"看到"序列中哪些其他詞的資訊。傳統的語言模型採用"單向注意力"——每個詞只能看到它前面的詞，不能看到後面的詞，就像讀一本從左到右的書，讀到第10頁時只知道前9頁發生了什麼。

混合注意力機制對文本詞語和掩碼查詢槽位採用了不同的規則。文本詞語繼續遵循傳統的單向注意力，保證語言生成的正確性不受干擾。而那10個查詢槽位則被賦予了"全局視野"——每個槽位不僅能看到所有的圖像資訊和指令文本，還能看到其他所有槽位的資訊。這樣，各個槽位在"認領"各自目標時就能相互協商："這個目標我來負責，你們不要重複認領"，從而有效壓制重複預測，保證整個預測集合的內部一致性。

贊助商廣告

---

四、從"槽位"到"掩碼"的完整流水線

當10個查詢槽位經過語言模型的充分處理後，每個槽位都攜帶了豐富的實例資訊。接下來需要把這些資訊翻譯成SAM3掩碼解碼器能夠理解的語言。

研究團隊在兩者之間架設了一個輕量級的翻譯橋樑。對於每個查詢槽位，一個小型的全連接神經網路（MLP，即多層感知機）負責把槽位向量轉換成SAM3解碼器期望接收的格式，得到"接地氣的掩碼查詢嵌入"。與此同時，系統還會讓語言模型生成一個簡短的目標描述短語（比如把一個複雜指令總結成"穿灰衣的左側球員"），這個短語經過另一個MLP轉換後，作為輔助的文字條件信號一併送入解碼器。

隨後，一個融合編碼器會讓圖像特徵充分吸收目標短語的語義資訊，生成"指令感知型圖像特徵"。檢測器則讓每個掩碼查詢向量與這些特徵反覆交互，精煉出針對各自目標實例的專屬表示。最終，一個評分頭會為每個槽位評分（判斷它是否真的對應一個有效目標），一個分割頭則生成對應的二值化像素掩碼。整個過程在一次前向傳播中完成，高效且一氣呵成。

---

五、三種損失函數：從三個角度督促模型學好

訓練InstructSAM需要同時優化三個目標，就像用三把不同的尺子來衡量學生的綜合質素。

第一把尺子衡量語言能力，即"掩碼自回歸損失"。它要求模型能夠正確生成描述目標的文字輸出，但在計算損失時會把特殊的查詢槽位詞語排除在外，因為這些槽位不應該被當作普通語言來學習。

第二把尺子衡量分割精度，即"實例分割損失"。這裡用到了DETR風格的二分圖匹配——先在預測槽位和真實目標之間尋找最優的一對一配對，然後對配對上的槽位計算像素級的二值交叉熵損失和Dice損失。二值交叉熵損失逐像素地判斷預測對不對，Dice損失則從整體重疊度的角度衡量掩碼質量，兩者相互補充。

第三把尺子衡量存在感判斷，即"存在感損失"。它要求每個槽位的評分頭正確預測自己是否對應一個真實目標——被二分圖匹配到真實目標的槽位應該打高分，其餘的應該打低分。這把尺子教會系統知道自己"什麼時候該啞火"，避免在沒有目標時胡亂輸出。

贊助商廣告

---

六、Inst?Seg：為這個新問題量身打造的試煉場

研究團隊意識到，光有好方法還不夠，還需要一個合適的測試舞台。現有的圖像分割基準（如RefCOCO系列）大多只支持短語式提示，且通常只涉及單個目標，對複雜指令下的多實例預測幾乎沒有覆蓋。因此，他們從頭構建了Inst?Seg。

Inst?Seg的訓練數據來自兩大來源：一是從SA-1B和COCO2017中採樣的傳統第三人稱視角圖像，覆蓋各類室外場景和日常物品；二是從Ego4D、EPIC-KITCHENS和HD-EPIC中精選的第一人稱視角影片幀，覆蓋廚房操作、日常活動等近距離交互場景。這種組合確保了數據的多樣性。

數據標註經歷了嚴格的四階段流水線。第一階段，使用谷歌的Gemini 3 Flash模型為每張圖像生成指向具體目標的定位性問答對，同時設計了數量/量詞欄位來顯式記錄多實例目標的數量。第二階段進行目標合併和邊界框生成——將指向同一目標的多個問題合併為共享一個目標ID，並由Gemini預測歸一化的二維邊界框。第三階段用SAM2對這些邊界框進行像素級精確標註，得到每個目標實例的完整掩碼。第四階段進行過濾，剔除低質量或前後不一致的樣本。最終，這個流程為100K張圖像生成了50萬個高質量的問答-掩碼配對。

評測基準部分包含986張圖像和3328條獨特指令，全部經過人工核驗。基準覆蓋單目標、多目標和零目標（即指令描述的對象在圖中不存在，模型應輸出空結果）三種情形，同時包含需要推理和不需要推理的場景，並且評測粒度細化到了物體級別和部件級別。評測主要採用mAP（平均精度均值）作為實例級核心指標，同時報告gIoU作為語義級別的補充指標。

與其他主流基準相比，Inst?Seg在評測維度上的全面性是獨一檔的：RefCOCO系列只支持單目標、短語提示；ReasonSeg雖然加入了推理場景，但只有單目標、無實例級評測；gRefCOCO支持多目標但依然只接受短語提示。Inst?Seg是首個同時覆蓋"任意形式指令+多目標+無目標+推理"四個維度、並提供實例級評測的基準。

贊助商廣告

---

七、實驗結果：數字背後的真實差距

在Inst?Seg基準上，InstructSAM-2B取得了31.5的整體mAP，在所有端到端方法中遙遙領先。為了讓這個數字更有感觸，可以對比一下競爭對手的表現：LISA-7B只有1.9 mAP，LISA++-7B為2.2 mAP，PixelLM-7B為4.6 mAP，SA2VA-4B為8.2 mAP，SA2VA-8B為9.4 mAP，X-SAM-3.8B為11.0 mAP。注意，這些對手的參數量大多是InstructSAM的兩到四倍，但性能差距卻非常懸殊。

參數量相近的SAM3-Agent（使用Qwen2.5-VL-3B作為推理大腦）取得了23.2 mAP，仍落後於InstructSAM約8.3個百分點。即便使用更大的Qwen2.5-VL-7B驅動SAM3-Agent，得到的35.7 mAP雖然超過了InstructSAM，但代價是參數量是後者的三倍多，而且需要將近30秒的推理時間，而InstructSAM只需1.1秒。這意味著在同等算力預算下，InstructSAM的性價比優勢更加顯著。

對於不同目標數量的子場景，InstructSAM在單目標上達到52.6 mAP，多目標上達到22.2 mAP，這兩個數字的差距反映出多實例分割本身確實比單實例難得多。在零目標場景（即應該輸出空結果的情況）上，InstructSAM取得了74.3 gIoU——尤為值得注意的是，訓練集中完全沒有使用任何零目標樣本，這個成績純粹是模型泛化能力的體現。

在需要推理的語義級分割基準ReasonSeg上，InstructSAM-2B也展現出強勁競爭力，在測試集整體cIoU上比SA2VA-4B高出5.2個點，在長指令子集上的優勢更擴大到6.9個點，說明模型對複雜冗長描述的魯棒性尤為突出。

在短語級多目標分割基準gRefCOCO上，InstructSAM-2B的mAP達到57.3，cIoU達到68.3，在val集上比之前最強的GSVA-7B高出6.6個cIoU點，且參數量僅為對方的約四分之一。零樣本泛化測試基準GSEval上，InstructSAM以64.1 gIoU超越此前最優的EVF-SAM 1.5個點。在專門為機器人室內感知設計的RoboRefIt基準上，InstructSAM-2B的testB（分布外測試）成績達到74.4，不僅完勝所有其他大模型方法，還比專為該任務設計的任務特定方法RefTR-r50高出12.9個點。

贊助商廣告

---

八、消融實驗：拆開每個零件看看它值多少

研究團隊通過系統的消融實驗，量化了每個設計決策的具體貢獻。

移除並行查詢庫，強迫模型改用自回歸方式生成掩碼詞語時，Inst?Seg的mAP從31.5驟降至20.1，降幅超過三分之一，充分說明顯式槽位結構對實例級分割的必要性。將混合注意力機制替換為普通的因果注意力時，ReasonSeg上的cIoU從65.0跌至52.4，說明雙向資訊交換對推理型分割任務的作用尤為關鍵。

對於查詢數量K的選取，實驗顯示K=10時推理時間僅1.1秒；增加到50時性能幾乎持平但時間延長至1.4秒；增加到200時時間進一步上升到2.1秒而性能反而略有下滑。這說明對於絕大多數實際場景，10個槽位已經足夠覆蓋需求，過多的冗餘槽位並不帶來增益。

關於短語條件信號和LLM調製查詢各自的貢獻，實驗結果揭示了一個有趣的不對稱性。用占位符替換語言模型生成的目標短語時，性能只下降了約2.4個mAP點，影響相對溫和；但直接移除LLM調製後的查詢嵌入時，性能暴跌14.8個mAP點。這個對比清晰地表明：**語言模型條件化的查詢嵌入是承載指令語義的主要載體，而生成的短語主要起到輔助穩定和兼容SAM3接口的次要作用**。

Inst?Seg數據集的價值也經過了消融驗證。完全移除Inst?Seg訓練數據後，多目標場景mAP從22.2降至17.6；移除數據過濾步驟後，整體mAP從31.5暴跌至11.9，說明原始未過濾的MLLM+SAM3聯合生成數據中噪聲相當嚴重，過濾步驟是保證訓練數據質量的關鍵環節。兩階段訓練中的第一階段（對齊預訓練）同樣不可或缺，缺失它會導致gRefCOCO val上mAP下降16個點，Inst?Seg mAP下降23.4個點，ReasonSeg val cIoU驚人地下降49.1個點。

---

說到底，InstructSAM做的事情，就是給視覺AI裝上了一雙真正能聽懂人話的耳朵。過去，你跟AI說"把那個角落裡最舊的那個杯子摳出來"，它只能一臉茫然；現在，InstructSAM通過一個精妙的"候選槽位+混合注意力+SAM3解碼"三級架構，把這句話完整地理解了，並且一次性找出所有符合描述的目標，哪個沒有、哪個多了、哪個重複了，都能清清楚楚地辨認出來。

贊助商廣告

當然，這項研究也坦誠地指出了自身的局限。目前InstructSAM只處理靜態圖像，還沒有延伸到影片領域——影片裡的多目標時序追蹤和幀間一致性問題，會讓數據標註和模型訓練的複雜度再上一個台階。另外，如何把分割能力和大規模對話推理能力更好地融合，而不互相干擾，也是擺在這個方向面前的開放問題。

不過，對於從事機器人抓取、智能家居、輔助醫療影像分析的工程師來說，InstructSAM提供了一個具有相當實用價值的方向：僅憑20億參數的輕量模型，在1秒多的時間內，用一句自然語言指令就能精確分割出圖中的每一個目標。如果這一能力繼續成熟，未來跟家裡的掃地機器人說"幫我把沙發下面那三隻拖鞋找出來"，它真的有可能聽懂並精準執行——而不是困惑地在地板上畫一個大圓圈。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.26102查閱完整論文原文。

---

Q&A

Q1：InstructSAM和SAM3有什麼區別？

A：SAM3隻能接受簡短名詞短語（如"椅子"）作為提示，無法理解複雜指令。InstructSAM在SAM3的掩碼解碼器基礎上，額外引入了一個多模態語言模型和並行實例查詢庫，能夠理解包含屬性、空間關係、數量限定等複雜語義的自然語言指令，並在一次前向傳播中同時輸出多個獨立實例的分割掩碼，不需要多輪交互。

Q2：Inst?Seg數據集和RefCOCO有什麼不同？

A：RefCOCO系列使用短語提示，通常只標註單個目標，不包含無目標場景，也不區分實例級別。Inst?Seg使用自由形式的自然語言指令，同時覆蓋單目標、多目標和零目標三種情形，包含需要推理的場景，並提供精確到每個實例的掩碼標註，同時使用mAP和gIoU兩種指標進行更全面的評測，是目前維度最完整的指令級實例分割基準。

Q3：InstructSAM的推理速度為什麼比SAM3-Agent快這麼多？

A：SAM3-Agent採用多輪交互流程，需要語言模型先拆解指令、再反覆調用SAM3生成候選掩碼、最後逐步過濾驗證，整個流程平均耗時約30秒。InstructSAM將推理、查詢條件化和掩碼生成整合為單次前向傳播，所有實例的掩碼在同一次計算中並行輸出，平均耗時僅1.1秒，效率提升約27倍。

贊助商廣告