這項由復旦大學電腦科學與人工智慧學院大數據研究院主導的研究,以預印本形式於2026年4月15日發布在arXiv平台,編號為arXiv:2604.14147。感興趣的讀者可通過該編號檢索完整論文。
你有沒有試過問一個朋友"最新款的手機長什麼樣",然後發現他完全沒聽說過那款手機,因為他已經好幾年沒怎麼關注科技新聞了?現實生活中,這類情況司空見慣,我們會提醒他"去查一下最新資訊"。然而,當同樣的問題發生在AI身上,情況就變得複雜了。復旦大學的研究團隊發現了這個棘手的問題,並且找到了一種頗具創意的解決方案,讓AI能夠認出它從未"見過"的新事物,甚至還能把這些新事物從圖片裡精準地"圈"出來。
一、AI的記憶有保質期——問題是怎麼來的
每一個AI模型在正式投入使用之前,都需要經歷一段漫長的學習過程。工程師們把海量的圖片、文字、新聞、百科知識全部"餵"給它,它學著認人、認物、理解語言。這個學習過程結束後,AI的知識庫就被"封存"了,就像一本印刷完成的百科全書——印刷之後發生的事,書里永遠找不到。
這種封存的時間點,學術上叫做"知識截止日期"。比如論文中提到,LLaMA 3這款著名的AI大模型,知識截止於2023年底;GPT-4截止於2023年4月;DeepSeek-V3
則截止於2024年6月。這意味著,如果你拿著一張2025年發布的蘋果iPhone 17 Pro Max的照片問這些AI"圖里哪個是iPhone 17 Pro Max",它們會一臉茫然——因為那款手機在它們的"記憶"里根本不存在。
研究團隊把這類AI無從認起的新事物分成了兩種情況。第一種叫做"全新實體",指的是在AI訓練結束之後才誕生的東西,比如2025年新推出的產品、新上映的電影角色、新發布的手機型號。AI完全沒有接觸過這些,就像讓一個在深山閉關修煉了五年的人認出最新款的電子產品,根本不可能。第二種叫做"湧現實體",這些事物AI其實"認識",但它們隨著時間推移發生了變化,需要最新資訊才能準確判斷。比如AI可以分別認出拜登和川普,但"現任美國總統是誰"這個問題,隨著政治局勢變化,AI給出的答案可能已經過時了。
正是基於這兩類問題,復旦大學的研究團隊提出了一個全新的研究課題——新興實體分割任務,英文簡稱NEST。這個任務的核心不只是讓AI"認出"新事物,還要讓它在圖片裡把對應的目標精確地"圈"出來,生成一個精細的分割遮罩。這比單純的問答要難得多,因為AI不僅要知道"那是什麼",還要知道"它在圖裡的哪個位置、邊界在哪裡"。
二、給AI配一個"實時查資料的助手"——ROSE框架誕生
面對AI記憶有保質期這個難題,研究團隊的思路很直接:既然AI自己的知識庫是封閉的,那就給它配一個能隨時上網查資料的助手。這個思路在自然語言處理領域有一個專門的名字,叫做"檢索增強生成",英文縮寫RAG。簡單來說,就是在AI回答問題之前,先讓它去網際網路上搜一搜最新的相關資訊,然後把搜到的內容作為參考,再給出更準確的答案。
研究團隊在這個基礎上,開發了一套專門為圖像分割設計的框架,命名為ROSE,也就是"面向檢索的分割增強"系統。ROSE不是一個全新的、從頭訓練的AI,而是一套可以像插件一樣接入任何現有圖像分割模型的工具包。無論是已經很成熟的LISA、SESAME還是READ這些分割模型,都可以把ROSE"插"進去,立刻獲得處理新興實體的能力。這種設計思路被研究團隊稱為"即插即用"。
ROSE整套框架由四個核心模組組成,它們分工明確、相互配合,共同解決AI面對陌生新事物時束手無策的問題。接下來,我們一個一個地拆開來看。
三、四個關鍵組件——ROSE是怎麼工作的
第一個模組叫做"網際網路檢索增強生成模組",簡稱IRAG。當用戶提出一個問題,比如"圖里誰主辦了2025年的Mayhem Ball巡演",IRAG會先把這個問題交給一個語言模型,生成優化過的搜索關鍵詞,然後用這些關鍵詞去網際網路上抓取相關網頁內容。抓回來的內容往往非常多、非常雜,IRAG會把它們切分成小塊,用一種叫做"向量化"的技術把每塊內容轉換成數學形式存起來,形成一個臨時的小型知識庫。接下來,系統會用一種"分而治之"的處理方法,從這些碎片資訊里提煉出一個候選答案摘要,列出所有可能的答案。
然而,光有文字答案還不夠。一個問題的答案有時不止一個,比如同一首歌的表演者可能有好幾位。這時候,IRAG會調用谷歌雲視覺服務來分析用戶上傳的那張圖片,識別圖中出現的實體,然後把這些實體和候選答案對比,找出最匹配的那一個作為最終答案。如果圖片裡找不到匹配項,系統就會選取置信度最高的候選答案。確定了答案之後,系統會再拿著這個答案去網際網路上搜索相關圖片,為後續步驟做準備。
這裡有一個細節值得關註:研究團隊特意沒有用AI大模型來識別圖中的實體,而是用了谷歌雲視覺這樣的專用工具。原因在於,AI大模型本身就不認識那些"新實體",用它來識別新事物是繞圈子,專用視覺識別服務反而更可靠。
第二個模組叫做"文本提示增強器",簡稱TPE。拿到IRAG找到的答案之後,光把答案直接告訴原來的分割模型是不夠的。TPE會做更多的工作:它把原來用戶的問題、IRAG找到的答案,以及從網上另外檢索到的關於這個目標的背景知識,三者整合起來,生成一段經過精心設計的、更豐富的文字描述,再餵給分割模型。比如原來的問題只是"誰主辦了巡演",經過TPE處理後,分割模型收到的資訊變成了"Lady Gaga,女性,黑色長髮,以其誇張前衛的舞台風格著稱,2025年發布了新專輯MAYHEM並開啟巡演……"。這種資訊量更豐富、指向性更精準的描述,讓分割模型能更準確地在圖中鎖定目標。
第三個模組叫做"視覺提示增強器",簡稱VPE,專門用來對付那些完全陌生的全新實體。當AI對某個新產品或新人物毫無概念時,即使文字描述再詳細,AI仍然可能找錯目標,因為它腦海里根本沒有那個東西的"長相"。VPE的辦法是從IRAG檢索到的網際網路圖片裡提取視覺特徵。這些圖片經過聚類處理,過濾掉不相關的噪聲,然後用一個叫做CLIP的視覺模型提取出目標實體的"視覺指紋",也叫做原型特徵。
有了這個"視覺指紋",VPE會先檢查分割模型給出的結果是否正確——如果模型圈出來的區域和"視覺指紋"差異很大,說明分割出錯了。這時VPE會接手:用目標檢測器把用戶圖片裡所有可能的實體都標記出來,逐一提取它們的視覺特徵,然後和"視覺指紋"比對,找出最相似的那一個,再調用SAM(一種專門生成精細分割遮罩的工具)生成最終的分割結果。通俗地說,VPE的工作就像是拿著一張目標的照片去人群中認臉,先確認原來的AI有沒有認對,沒認對的話自己親自上陣找。
第四個模組叫做"WebSense",是整套系統的守門人。不是每一個問題都需要上網查資料的——如果有人問"圖里哪個是蘋果",顯然不需要聯網搜索,AI自己完全能判斷。如果每個問題都觸發聯網檢索,系統會變得極其低效,響應時間也會大幅延長。WebSense的職責就是在用戶提問之後,先判斷這個問題是否真的需要檢索最新資訊。它採用兩級判斷機制:第一級是簡單快速的規則過濾,比如問題里有沒有出現年份、"最新"、"現任"這類時間敏感詞;如果規則判斷不了,第二級則調用一個語言模型進行更深入的語義分析,判斷是否需要聯網。只有真正需要最新資訊的查詢,才會觸發後續的檢索流程,大幅提升系統效率。
四、自動化數據工廠——NEST基準數據集是怎麼建起來的
研究團隊在提出ROSE框架的同時,還面臨一個棘手的評估問題:沒有專門針對新興實體分割的標準測試數據集,就無法衡量ROSE到底有多好。建立這樣一個數據集本身就是個難題,因為"新興實體"天然地會隨時間變化——今天的新實體,一年後可能已經被AI模型學進去了,數據集就失效了。而且手動收集、標註這些數據費時費力,根本無法持續更新。
為了解決這個問題,研究團隊設計了一套完全自動化的數據生產流水線。整個流水線從谷歌趨勢——一個實時追蹤全球熱門關鍵詞的公共平台——出發,抓取當下最熱門的搜索詞。這些熱門詞往往集中在體育、娛樂和政治領域,為了讓數據集涵蓋更廣的範圍,團隊還手動補充了科技、經濟等領域的關鍵詞。
原始的熱門詞裡有很多抽象概念,比如"谷歌股價",這類詞根本沒有可以在圖里被分割的具體物體,需要過濾掉。團隊用語言模型對這些詞進行篩選,最終保留的都是具體可辨的人物或產品。
有了過濾後的關鍵詞列表,流水線會去搜尋引擎上抓取相關圖片。但這裡有個問題:直接搜索"Lady Gaga"往往只能得到她一個人的獨照,沒有干擾項,分割任務太簡單了,不能真實反映現實場景的複雜性。為此,團隊設計了一個"查詢增強"策略:把原始搜索詞擴展成更複雜的組合,比如"Lady Gaga和Taylor Swift以及Billie Eilish同框",這樣搜到的圖片往往包含多個人物,大幅提升了任務難度和現實感。
圖片搜集完成後,流水線還需要為每張圖片生成問答對和精確的分割遮罩。問答對的生成依賴與關鍵詞配套的新聞報道:系統會從搜尋引擎里抓取相關新聞,過濾掉重複報道(以三天為窗口,同一事件只保留一篇),然後讓語言模型基於新聞內容生成自然語言問題,同時確保問題不直接提及答案,要求真正的理解才能答對。
分割遮罩的生成則是整個流水線最精巧的部分。系統首先從那些只包含單一目標的圖片裡提取目標的視覺特徵,作為"長相模板";然後對包含多個人物的複雜圖片運行目標檢測器,識別出所有可能的實體;最後把每個實體的視覺特徵和"長相模板"進行相似度比對,選出最像的那個,再用SAM工具生成精細的分割遮罩。整個過程無需人工干預,可以持續自動運行。
最終,研究團隊利用這套流水線,採集了2025年3月23日至4月11日期間的網路數據,構建了包含1548個樣本的NEST數據集。這些樣本涵蓋經濟、科技、政治、娛樂、體育和社會等多個領域,平均每張圖片包含2.7個有效實體,平均每張圖片對應1.6個不同問法的問題,保證了足夠的任務難度和查詢多樣性。
五、實驗結果——ROSE到底強在哪裡
研究團隊在NEST數據集上對多個現有方法進行了橫向比較,結果頗為直觀地說明了問題所在,以及ROSE的改進幅度。
現有的圖像分割模型,包括CRIS、GRES、Grounded-SAM、SEEM,以及基於大語言模型的LISA-7B、SESAME-7B和READ-7B,在面對NEST任務時表現普遍有限。其中LISA-7B作為最具代表性的基線方法,整體gIoU(一種衡量分割精度的指標,可以理解為"分割框和真實邊界的重合程度")為48.7,但這個數字對全新實體只有38.4,因為AI根本不認識那些從未見過的東西。相比之下,SESAME-7B在這個任務上表現更差,gIoU只有13.1,READ-7B也只有22.5。
為了設立更強的對比基線,研究團隊還構建了"兩階段商業檢索基線":先用具備聯網能力的GPT-4o mini Search或Gemini 2.0 Flash Search來回答"圖裡的目標是誰/是什麼",然後把答案交給LISA等模型進行分割。這是業界能想到的比較直接的解決方案,但結果顯示,即便是最強的組合——Gemini 2.0 Flash Search搭配LISA-7B——整體gIoU也只有53.8。
而ROSE搭配LISA-7B之後,整體gIoU直接跳到73.0,比Gemini 2.0 Flash Search的兩階段方法高出整整19.2個百分點。對全新實體的gIoU從38.4提升到67.0,對湧現實體的gIoU從56.5提升到77.5,兩類任務都有大幅改善。ROSE搭配READ-7B的效果略高於搭配LISA-7B,整體gIoU達到72.2;搭配SESAME-7B也達到了70.6。
研究團隊還進行了混合數據集實驗,把NEST和另外三個傳統分割數據集(ReasonSeg、RefCOCO、RefCOCO+、RefCOCOg)合併在一起測試,驗證ROSE在處理新興實體的同時,會不會把原來的傳統任務能力破壞掉。結果顯示,ROSE在NEST部分的性能大幅提升,在傳統分割任務上的表現也與原始模型基本持平,說明ROSE不是"拆東牆補西牆",而是真正擴展了模型的能力邊界。
為了弄清楚ROSE的四個模組各自貢獻了多少,研究團隊還做了拆解實驗。在LISA-7B基礎上只加IRAG模組,整體gIoU從48.7提升到55.7,提升7個百分點,說明聯網檢索本身確實有效,但效果有限。在IRAG基礎上再加TPE模組,整體gIoU進一步提升到59.6,主要改善來自湧現實體(gIoU+6.2),因為豐富的文字背景知識幫助AI更好地理解目標。在IRAG基礎上加VPE模組(不加TPE),整體gIoU大幅跳升到68.7,對全新實體的提升最為顯著(cIoU+24.5),因為"視覺指紋"對比機制專門解決了AI看不認新東西的問題。而四個模組全部啟用之後,整體gIoU達到74.7,說明四個模組之間存在互補效應,缺一不可。
六、真實案例——從實驗數字到具體場景
研究論文中呈現了若干直觀的對比案例,讓這些數字變得更有說服力。
在全新實體的例子中,有一張圖展示了任天堂Switch 2遊戲機。用戶的問題是"請分割圖中的Nintendo Switch 2"。LISA對這款2025年發布的遊戲機毫無印象,給出了錯誤的分割結果;READ同樣表現不佳。ROSE則憑藉從網際網路上找到的Switch 2參考圖片,成功識別並精準圈出了目標。另一個例子是小米SU7汽車,LISA對這款車型一無所知,輸出為空,而ROSE正確地在圖中找到並分割了這輛車。
在湧現實體的例子中,有一個關於《魷魚遊戲2》(2024年上映)的問題,詢問誰選擇重返遊戲。LISA對劇中人物身份的理解已經過時,圈出了錯誤的人物;ROSE通過檢索最新的相關資訊,正確識別並分割了目標角色。另一個案例更貼近體育新聞:問題是"2025年5月9日,哪位MLB球員為道奇隊打出關鍵三分全壘打",LISA因為知識截止而圈錯了人,ROSE檢索了當天的體育新聞後,準確找到了那位球員並完成分割。
這些案例共同說明了一個規律:對於全新實體,視覺參考圖片(VPE模組)是關鍵;對於湧現實體,文字背景知識(TPE模組)和準確的實體識別(IRAG模組)缺一不可。ROSE把這兩類能力整合在一套框架里,才能同時應對兩種不同類型的挑戰。
說到底,這項研究揭示了一個我們平時可能沒有意識到的問題:我們使用的AI工具,其實活在一個"時間凍結"的世界裡。它們認識2023年之前的所有明星、產品和事件,卻對此後發生的一切一無所知。這就像是一個非常博學但已經隱居多年的老學者,問他歷史上的任何知識都能對答如流,但一旦問起最近的新聞,他只能搖搖頭說"不知道"。
復旦大學的研究團隊提出的ROSE框架,本質上是給這位老學者配了一台可以隨時上網的電腦,讓他在回答問題之前先快速查一下最新資訊。這個思路看似簡單,但工程實現上卻涉及資訊檢索、視覺識別、文本理解和精確分割等多個環節的協同配合,每一個環節出了問題都會影響最終結果。這也是為什麼單純地把商業搜尋引擎(如Gemini 2.0 Flash Search)和分割模型簡單拼接,效果遠不如ROSE——前者只解決了"知道答案是什麼"的問題,後者還額外解決了"怎麼讓AI看懂並圈出來"的問題。
這項研究對普通用戶的實際意義在於,未來基於大模型的圖像處理工具或許能夠持續更新對現實世界的認知,而不必每隔一兩年就重新訓練一次整個模型。對於醫療影像分析、安防監控、新聞圖片理解等需要處理"最新資訊"的應用場景,這種能力尤為關鍵。當然,任何依賴網路檢索的系統都面臨資訊質量和網路延遲的挑戰,如何在速度和準確性之間找到更好的平衡,仍然是未來值得繼續探索的方向。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.14147查閱完整論文,論文中還包含更多實驗案例和補充材料。
Q&A
Q1:ROSE框架和普通的帶搜索功能的AI有什麼區別?
A:普通的帶搜索功能AI(如Gemini Flash Search或GPT-4o mini Search)只能告訴你"答案是什麼",但無法進一步把目標在圖片裡圈出來。ROSE在獲取答案的基礎上,還額外從網上下載參考圖片,提取目標的視覺特徵,幫助分割模型真正"認出"並精準勾勒出目標的邊界。兩者的差距在實驗中體現為:商業搜索方案最高gIoU約53.8,ROSE則達到73.0,差距約19個百分點。
Q2:NEST數據集是如何保證持續更新不過時的?
A:NEST數據集採用全自動化的流水線構建,核心數據源是谷歌趨勢實時熱門詞。系統會自動抓取最新新聞、搜索相關圖片、生成問答對,並自動標註分割遮罩,全程無需人工干預。這意味著只要系統持續運行,數據集就能不斷納入最新出現的新事物,避免隨時間失效的問題。
Q3:WebSense模組是如何判斷一個問題要不要聯網查資料的?
A:WebSense採用兩級判斷機制。第一級是快速的規則過濾:如果問題里包含年份、"最新"、"現任"等時間敏感詞,系統就直接判定需要檢索。如果問題比較模糊,第二級會調用一個語言模型進行更深入的語義分析,判斷問題是否涉及知識截止日期之後的內容。這樣設計的目的是避免每個問題都觸發聯網檢索,節省計算和網路資源,讓系統運行更高效。






