螞蟻集團聯合高校研發的「視覺獵手」，終於讓AI學會主動用眼睛搜索了

這項由螞蟻數字科技（螞蟻集團）聯合中國科學院自動化研究所、中國科學院大學、中國人民大學以及北京理工大學共同完成的研究，以預印本形式於2026年6月13日發布在arXiv平台，編號為arXiv:2606.15231。研究成果以"Visual-Seeker"為名，正式提出了一種全新的視覺原生多模態深度搜索智能體。

贊助商廣告

你有沒有遇到過這樣的場景：手機里有一張朋友發來的比賽現場照片，你想知道照片裡穿45號球衣的那位球員是誰，卻發現直接丟給AI問，它根本答不上來？或者你看到一部電影的截圖，想查某個道具的顏色，搜尋引擎吐給你的全是文字介紹，就是找不到真正帶圖的答案？

這兩個困境，恰恰指向了當前AI搜索領域一個被長期忽視的軟肋——AI其實不太會"主動用眼睛"去搜索和推理。

傳統的AI搜索系統，哪怕配備了圖像輸入的能力，骨子裡依然是一個文字工作者。它頂多把你給的圖片當成一個觸發搜索的信號，真正收集證據、拼湊答案的過程，全靠文字。這就好比你雇了一個調查員，他能看懂你給他的照片，但在整個調查過程中，他只願意翻文件、看報告，就是不肯親眼去現場觀察、拍照取證。

螞蟻集團的研究團隊把這個調查員重新訓練了一遍。他們開發的Visual-Seeker，不僅能看懂你提供的圖片，還能在整個多輪搜索過程中，主動去網路上找圖片、細看圖片裡的細節，把視覺證據和文字證據像偵探一樣拼接在一起，最終給出答案。

一、現有AI搜索的"視覺短板"是怎麼形成的

要理解Visual-Seeker的價值，得先明白現有系統為什麼會有這個短板。

近年來，隨著大型語言模型的飛速發展，研究界開始探索所謂的"深度搜索智能體"。這類系統的核心思路是：不再依賴模型腦子裡那些可能過時的知識，而是讓它像真人一樣，遇到問題就去搜尋引擎查資料、翻網頁、匯總資訊。這個思路相當有效，尤其是處理那種需要多步推理的複雜問題。

贊助商廣告

然而，這批早期系統天生是文字動物。它們發出的搜索查詢是文字，收集的證據是文字，推理過程也是文字。一旦問題涉及圖像，就捉襟見肘了。

研究團隊發現，後來出現的多模態搜索智能體，雖然能接受圖片作為輸入，但在設計上有兩個根本性的缺陷。

第一個缺陷，是對輸入圖片的"淺層處理"。現實世界裡的圖片往往極其複雜——一張NBA比賽照片裡可能同時出現十幾位球員，一張頒獎典禮合影里站著一排名人。現有的訓練數據，偏偏喜歡用那些主體簡單、語義明確的圖片來訓練模型，比如一張單人特寫照，或者一個物體的正面圖。這導致模型在面對真實世界的複雜圖片時，往往認不清目標是誰，更無法精準鎖定"那個穿45號球衣的人"。

第二個缺陷，是在整個搜索過程中完全不依賴視覺證據。現有方法的搜索軌跡里，充斥著文字查詢和文字結果，幾乎沒有主動去搜索圖片、分析圖片內容的步驟。可問題是，有些答案根本就藏在圖片裡。以論文中舉的例子為例：某部電影2018年發行的官方DVD封面上，伊恩·麥克連帽子上羽毛的顏色是什麼？這個問題的答案在任何文字資料里都找不到，必須親眼去找到那張DVD封面圖片才能回答。而現有系統根本想不到去做這件事。

這兩個缺陷疊加起來，就導致了一個令人尷尬的局面：當你問一個需要"看圖找線索、再找更多圖來驗證"的複雜問題時，現有的AI搜索系統幾乎無能為力。

二、一條"偵探培訓流水線"：如何教會AI主動看圖

要解決上面說的兩個缺陷，核心難題在於：哪裡來足夠的訓練數據，讓模型學會"在複雜圖片裡認人"和"主動搜集圖片證據"？

真實的多模態深度搜索軌跡數據，在現實中幾乎不存在，因為壓根就沒有人系統地記錄過這種多輪、跨模態的搜索過程。於是，研究團隊自己設計了一套數據合成流水線，他們稱之為"主動視覺推理數據流水線"。

贊助商廣告

整個流水線分三個階段，邏輯上環環相扣，就像培訓一名偵探要先練眼力、再練破案思路、最後練現場取證。

**第一階段：練眼力——從複雜圖片裡精準鎖定目標**

訓練數據的起點，是一個叫LiveVQA的公開數據集。這個數據集的特點是，圖片來自真實世界，往往包含多個實體（人物、地點、組織等），而且每道題目都附帶了推理過程。研究團隊用這些數據，讓AI學習"在一張複雜圖片裡，認出某個具體的人或物，並用語言描述他的特徵"。

具體做法是：給AI同時提供圖片、問題和推理過程，讓它把圖片裡出現的實體提取出來，每個實體記錄下名字、在圖片中的視覺描述（比如"圖中舉起右手的那位男士"）以及類別（人物、地點還是組織）。

光是提取還不夠，提取出來的實體還要經過嚴格的篩選和去歧義處理。篩選分三步進行。第一步，過濾掉那些過於泛化、無法唯一定位的描述，比如"那個男人"或者"一棟建築"——這種描述太模糊，沒有搜索價值。第二步，過濾掉主體太過明顯的圖片，比如單人特寫照，因為這類圖片不需要細緻的視覺分辨，訓練不了辨別複雜場景的能力。第三步，處理多義實體，比如"Apple"既可能是蘋果公司也可能是水果，需要結合圖片和問題的上下文，確認這裡指的是哪個意思。經過這三重過濾，最終篩出了2000個有價值的"種子實體"，每個實體都是從真實複雜圖片中精準鎖定的。

**第二階段：練破案思路——用知識圖譜生成多跳推理問題**

有了種子實體，接下來要生成那些需要多步推理才能回答的問題。這裡的"多跳"，是指解題過程需要經過多個中間步驟——比如先認出圖中的球員，再查他的大學，再查那所大學有沒有出過什麼歷史性的成就，再從那個成就推到某個城市的名稱。

研究團隊使用了一個基於維基百科構建的離線知識圖譜，把它想像成一張巨大的蜘蛛網，每個節點是一個實體（人物、地點、事件等），節點之間的連線是實體之間的關係。從種子實體出發，在這張網上隨機遊走，就能生成一條推理鏈。

贊助商廣告

為了避免生成的推理鏈過於線性和單調，研究團隊設計了兩種遊走策略來豐富結構。一種叫"回溯策略"：就像偵探在查案時發現某條線索斷了，會回到之前的線索重新出發——遊走過程中有一定概率跳回之前經過的某個節點，再從那裡開岔出去，這樣就能生成像樹形一樣的分叉推理結構。另一種叫"環形約束策略"：從起點出發，在某個分叉點分成兩條獨立的路線，這兩條路線各走幾步之後再匯合到一個共同的終點，形成一個環狀的推理結構。這兩種策略，讓生成的推理問題從形態上更接近真實複雜問題的樣子。

遊走完成後，再用大語言模型把這條推理鏈翻譯成一道自然語言問題，確保問題邏輯自洽、表述清晰。

**第三階段：練現場取證——強制注入視覺證據**

前兩個階段生成的問題，答案雖然需要多步推理，但本質上還是用文字就能搜索到答案的。真正讓Visual-Seeker與眾不同的，是第三階段：把視覺證據強制插入到推理路徑中。

做法是這樣的：找到某道題的答案實體，比如"《西遊記》"，然後用搜尋引擎去找這個實體相關的圖片。對找到的每張候選圖片，用另一個AI模型仔細觀察，提取出那些純粹靠文字描述得不到的視覺細節，比如"主角騎的馬是白色的"，或者"封面上的雲彩是金色的"。然後，把這個視覺細節作為答案，把一個模糊的搜索關鍵詞作為問題，拼接成一道"必須找到圖片才能回答"的子問題，嵌入到原來的多跳問題里。

這樣一來，整道題的解答路徑就包含了一個必經的視覺取證步驟——模型必須主動搜索某張圖片，仔細觀察圖片細節，才能繼續下面的推理。

經過完整的三階段流水線，研究團隊最終合成了5000條高質量的多模態搜索軌跡，其中3000條不含視覺證據注入（用於訓練基礎搜索能力），800條含有視覺證據注入（用於訓練主動視覺取證能力），另有500條純文字問題軌跡和700條來自公開FVQA數據集的軌跡作為補充。

贊助商廣告

三、Visual-Seeker的"工具箱"和工作方式

有了訓練數據，研究團隊用這5000條軌跡，通過監督微調的方式訓練了Visual-Seeker。基礎模型選用的是Qwen3-VL-8B-Instruct，一個參數規模為80億的視覺語言模型，訓練在8張NVIDIA A100 GPU上進行，共訓練3輪。

Visual-Seeker在工作時，會反覆進行"思考→選工具→用工具→看結果→再思考"的循環，直到找到答案或者達到最多15輪的交互上限。

這個智能體的工具箱裡有五件工具。第一件是文字搜索工具，本質上就是一個搜尋引擎接口，輸入自然語言查詢，返回相關網頁的標題和鏈接。第二件是圖片反向搜索工具，把一張圖片丟進去，返回網際網路上與這張圖片相關的網頁，用來識別圖片裡的內容是什麼。第三件是圖片搜索工具，這是Visual-Seeker區別於同類系統的核心工具之一，輸入文字描述，返回相關圖片，專門用來主動收集視覺證據。第四件是網頁訪問工具，輸入一個網址，返回該網頁的摘要內容，用來深入閱讀某條搜索結果。第五件也是核心工具之一，叫圖片裁剪工具，輸入坐標，對當前圖片的某個區域進行放大截取，用來在複雜圖片裡精細查看某個目標。

拿前面那個"45號球衣球員"的例子來說，Visual-Seeker的工作流程可能是這樣的：先用圖片裁剪工具把畫面中45號球衣所在區域截取放大，再把這個裁剪後的圖片丟給圖片反向搜索工具，搜到球員的名字，然後用文字搜索工具繼續查這位球員的大學，再繼續推理下去。全程，圖片和文字證據都在被主動調用和交叉驗證。

四、測試結果：五項挑戰性基準測試全面領跑

為了驗證Visual-Seeker的實際效果，研究團隊在五個極具挑戰性的多模態搜索基準測試上進行了全面評估，分別是MMSearch、MMSearch-Plus、BrowseComp-VL、MM-BrowseComp和VisBrowse-Bench。這五個測試各有側重：MMSearch-Plus專門考察在多實體複雜圖片中的視覺理解能力，MM-BrowseComp和VisBrowse-Bench則重點考察在搜索過程中必須收集視覺證據才能回答的問題。

贊助商廣告

測試框架分為三類：直接回答（完全依賴模型自身知識，不搜索）、智能體工作流（用工具搜索但不經過專門訓練）、多模態深度搜索智能體（專門訓練過的系統）。

直接回答的結果充分說明了為什麼需要搜索智能體：就算是頂級商業模型，在這五個基準上的平均正確率也相當慘澹，Claude-4-Sonnet只有13.1%，GPT-5也僅有27.2%。模型自帶的知識根本不足以回答這類需要實時資訊和精細視覺分析的問題。

接上搜索工具後，所有模型的成績都大幅提升。Claude-4-Sonnet的平均分從13.1%飆升到32.2%，提升幅度高達145.8%。這說明了一件事：工具的加持對於這類任務至關重要，而且研究團隊設計的工作流本身就很有價值，對各種模型都適用。

在真正比拼專門訓練過的多模態搜索智能體時，Visual-Seeker以平均39.6%的正確率拿下第一，超過了所有對比系統。具體來看，在MMSearch上拿到72.2%，在MMSearch-Plus上拿到27.3%，在BrowseComp-VL上拿到47.6%，在MM-BrowseComp上拿到16.1%，在VisBrowse-Bench上拿到34.7%。

這組數字背後有幾個值得關注的細節。與作為基礎模型的Qwen3-VL-8B-Instruct相比，Visual-Seeker在每個基準上的提升幅度都接近翻倍，五項平均提升了16.6個百分點。在MM-BrowseComp和VisBrowse-Bench這兩個必須主動收集視覺證據才能回答的基準上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro這兩個體量遠大於它的商業模型。一個80億參數的開源模型，在視覺取證類任務上打贏了巨型商業模型，這背後正是專門設計的訓練數據發揮了作用。

五、層層拆解：每個設計決策是否真的有效

研究團隊沒有僅僅展示最終成績，還做了一系列精細的消融實驗，也就是把系統里的某個部分拆掉，看整體表現如何變化，以此驗證每個設計決策的真實貢獻。

在數據消融實驗裡，研究團隊從零開始，逐步向訓練集裡加入不同類型的數據。最開始只用FVQA數據集的軌跡和純文字問題軌跡，模型平均分只有12.6%，相比基礎模型沒有太大提升。加入由數據流水線第一、二階段合成的多模態軌跡（不含視覺證據注入）之後，平均分跳升到18.6%，尤其是MMSearch-Plus這個考察複雜圖片理解能力的基準，從20.9%提升到了24.5%，提升了17.2個百分點，證明了從複雜圖片中精準提取種子實體的訓練數據確實有效。進一步加入含有視覺證據注入的軌跡之後，平均分再次躍升到26.0%，MM-BrowseComp和VisBrowse-Bench這兩個視覺取證相關的基準分別提升了5個和14.6個百分點，非常直接地驗證了"強制注入視覺證據"這個設計的價值。

贊助商廣告

在工具消融實驗裡，研究團隊分別拆掉圖片裁剪工具和圖片搜索工具，看看缺少這兩件核心工具會怎樣。拆掉圖片裁剪工具後，VisBrowse-Bench的成績從34.7%跌至25.1%，跌幅最大，說明這個基準的圖片裡確實包含多個複雜實體，不裁剪放大就很難認清目標。拆掉圖片搜索工具後，VisBrowse-Bench的成績從34.7%跌至20.1%，跌幅更大，說明這個基準的很多問題確實必須搜索圖片才能找到視覺證據。兩件工具同時拆掉，成績進一步惡化。這些數據從另一個角度證實了：Visual-Seeker的視覺原生搜索能力，是靠這兩件工具共同支撐起來的，缺一不可。

在工具使用行為分析方面，研究團隊還觀察了模型在不同基準測試上的實際工具調用情況。對於相對簡單的MMSearch，模型平均只需要調用4.3輪工具交互就能得到答案；對於極具挑戰性的MM-BrowseComp，平均需要14.1輪，幾乎用滿了15輪的上限。在工具的分布上，文字搜索工具在各基準上始終是調用比例最高的（48%到65%之間），這說明文字依然是多數問題的主要證據來源。但VisBrowse-Bench是個例外——它的圖片反向搜索工具調用比例（15%）和圖片搜索工具調用比例（9.3%）明顯高於其他基準，說明這個基準的問題確實需要更多的視覺取證操作。

六、一次真實的搜索案例：看它怎麼一步步破案

在論文的附錄中，研究團隊給出了一個完整的搜索案例，可以直觀感受Visual-Seeker的工作節奏。

問題是：圖中這位女士戴的項鍊來自某個特定品牌。2018年，關於這個品牌創始人的一部紀錄片上映了。紀錄片的海報里，主角正在吃什麼水果？

首先，模型看到圖片後，判斷項鍊區域位於畫面的特定位置，調用圖片裁剪工具截取頸部區域放大觀察。看到放大後的圖片，模型認出這似乎是一條帶有Vivienne Westwood（薇薇安·威斯特伍德）Orb標誌掛件的珍珠項鍊。為了確認，模型把裁剪後的圖片交給圖片反向搜索工具進行驗證，搜索結果返回了一些珍珠項鍊的網頁，印證了這是Vivienne Westwood風格的項鍊。

贊助商廣告

確認品牌之後，模型用文字搜索工具查詢"2018年關於Vivienne Westwood創始人的紀錄片"，找到了《Westwood: Punk, Icon, Activist》這部2018年上映的紀錄片，主角正是品牌創始人Vivienne Westwood本人。

接下來，為了找到海報上的視覺細節，模型調用圖片搜索工具，用"Westwood Punk Icon Activist documentary 2018 poster"作為關鍵詞搜索，成功找到了海報圖片。圖片顯示，Vivienne Westwood在海報中正在吃一根香蕉。模型再用網頁訪問工具去IMDB頁面進一步確認，最終確定答案：香蕉。

這個案例完整地展示了Visual-Seeker的核心能力：從複雜圖片裡精準定位目標（裁剪放大識別項鍊），主動去網路上搜索視覺證據（搜索紀錄片海報圖片），並且在整個過程中靈活地在文字搜索和圖片搜索之間切換。

說到底，Visual-Seeker解決的問題，是一個看起來簡單卻長期被忽視的問題：AI搜索系統能不能真正"用眼睛"來收集證據？

這項研究給出了一個明確的答案：可以，而且方法路徑已經相當清晰。關鍵在於兩點，一是用真實複雜圖片來訓練模型的視覺辨別能力，而不是用過於簡單的圖片來偷懶；二是在訓練數據的推理路徑里，強制加入必須通過搜索圖片才能完成的步驟，讓模型從底層就學會"視覺取證"這個動作。

研究也顯示，這種方法並不需要龐大的數據量——5000條精心設計的訓練軌跡，就足以讓一個80億參數的模型在多個基準上超越體量大得多的商業模型。這在一定程度上說明，數據的質量和設計思路，有時候比數據的數量更重要。

當然，這套系統還有很多可以改進的地方。目前它在最複雜的基準MM-BrowseComp上的正確率只有16.1%，說明真正困難的跨模態多跳推理問題依然是個巨大的挑戰。此外，研究只採用了監督微調而沒有引入強化學習，這意味著未來還有更大的性能提升空間。

一個有趣的問題是：當AI不僅能搜文字，還能主動搜圖片、分析圖片細節，對我們尋找資訊的方式意味著什麼？當你不需要知道"45號球員叫什麼"，只需要把照片丟給它，它就能替你完成整個偵探式的調查，這會怎樣改變我們與資訊世界的關係？有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2606.15231查閱完整論文。

贊助商廣告

Q&A

Q1：Visual-Seeker和普通的多模態AI搜索有什麼本質區別？

A：普通多模態搜索系統只是把圖片作為觸發搜索的信號，整個搜索過程依然以文字為主。Visual-Seeker的核心區別在於兩點：第一，它能在複雜的多人物圖片裡精準辨認目標實體；第二，它在搜索過程中會主動去網路上搜索圖片、分析圖片裡的視覺細節，把視覺證據和文字證據結合起來推理，而不只是依賴文字資訊。

Q2：Visual-Seeker的5000條訓練數據是怎麼來的？

A：這5000條數據是通過研究團隊自己設計的"主動視覺推理數據流水線"合成的，分三個階段：先從真實複雜圖片中提取精準的種子實體；然後在維基百科知識圖譜上通過隨機遊走生成多跳推理問題；最後再強制插入一個必須搜索圖片才能回答的視覺取證子問題。其中3000條不含視覺證據注入，800條含視覺證據注入，另有1200條來自其他來源補充。

Q3：Visual-Seeker在哪類問題上表現最突出？

A：在需要主動收集視覺證據才能回答的問題上表現最突出。在MM-BrowseComp和VisBrowse-Bench這兩個專門考察視覺取證能力的基準測試上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro這兩個體量大得多的商業模型。這說明專門針對"視覺原生搜索"設計的訓練數據，在這類任務上的效果非常顯著。