清華&OPPO聯合打造的「智能偵探」：當AI學會主動追查證據，視覺問答準確率飆升27%

這項由清華大學深圳國際研究生院與OPPO AI中心聯合主導，並聯合南洋理工大學共同完成的研究，於2026年6月26日以預印本形式發布在arXiv平台，編號為arXiv:2606.27974v1。

贊助商廣告

你有沒有遇到過這樣的場景：拍了一張公園的照片，想知道這個公園在哪個城市，但手機AI助手要麼給你一個錯誤的答案，要麼直接坦言"我不知道"。這個看似簡單的問題，背後藏著人工智慧領域一個相當棘手的難題——如何讓機器在看圖的同時，還能主動去查找它不知道的知識？

這支來自頂尖高校與產業界的研究團隊，給出了一個頗為有趣的解決方案。他們把AI設計成一個"主動偵探"：面對一張圖片和一個問題，這個偵探不會坐在原地胡亂猜測，而是會主動出擊，先查圖像線索，再翻文字檔案，直到找到足夠的證據才下結論。這個系統被命名為ProMSA（Progressive Multimodal Search Agents，漸進式多模態搜索智能體），它在兩個主流測試數據集上的表現，比此前最強的競爭對手高出了約7到9個百分點。

一、偵探為什麼比旁觀者更聰明

要理解這項研究的意義，得先弄清楚一件事：為什麼看圖回答問題這麼難？

表面上看，現在的AI已經能識別貓狗、理解文字、甚至寫詩作畫，似乎無所不能。但當問題涉及到那些"冷僻知識"時，AI就像一位博學的學者突然被問到一個偏僻小鎮的地名——即便真的去過，也未必能準確說出來。以"圖片裡這個湖泊在哪個國家"為例，世界上有成千上萬個湖泊，大多數湖泊的照片在AI的訓練數據里出現的次數極少，AI很難憑藉記憶給出正確答案。

現有的應對方案，主要走的是"先查後答"的路子，可以把它理解為一種圖書館查閱流程。系統先把圖片拿去檢索資料庫，找到排名前幾位的相關維基百科頁面，然後把這些頁面的內容塞給AI，讓AI根據這些材料回答問題。這個方法確實有效，但它有三個根本性的短板。

贊助商廣告

第一個短板是檢索策略完全固化，不會根據情況調整。就像一個偵探無論面對什麼案件，都只會做同一件事——去翻同一個檔案櫃，而不會根據案情線索決定該去哪裡查、查什麼。有些問題其實不需要檢索就能回答，有些需要先識別圖中的實體再進行文字檢索，有些則需要多輪追蹤。一成不變的流程根本無法覆蓋這些差異。

第二個短板是沒有糾錯機制。一旦第一次檢索到了錯誤的頁面，系統就只能硬著頭皮根據錯誤資訊回答，完全無法回頭重查。這就像偵探翻到了一份偽造的證據，卻沒有任何能力識破和糾正，最終做出了錯誤的判斷。

第三個短板是處理不了需要多步推理的問題。有些問題需要先找到實體，再從找到的資訊里繼續追查另一個知識點。比如"圖片裡這位運動員效力的球隊，其主場球場的容量是多少"，這至少需要兩步：先識別運動員和球隊，再查球場容量。一次性檢索根本無法勝任這類任務。

正是針對這三個問題，研究團隊設計了ProMSA這個"會主動偵查的系統"。

二、偵探的辦案流程：漸進式搜索

ProMSA的核心思路可以用一個簡潔的偵探破案比喻來貫穿理解。每一次接到一個"案件"（圖片+問題），偵探不會立刻給出結論，而是根據手頭的線索決定下一步行動，直到證據充分為止。

具體來說，這個偵探在每一步面前有三個選擇：發起圖像搜索、發起文字搜索，或者宣布"證據已經足夠，我有答案了"。這三個選擇合稱為"行動空間"。

圖像搜索的工作方式是這樣的：偵探把當前圖片拿去和維基百科裡的數百萬張圖片比較，找出最相似的幾張，然後獲取這些圖片所對應的維基百科頁面內容。這個步驟主要用於識別圖中的實體——比如這是什麼建築、這是哪個人、這是哪個地標。

文字搜索則是另一條線索追查路徑：偵探根據已知資訊生成一個文字查詢，去維基百科的文字內容里尋找具體的屬性資訊。比如已經知道圖片裡是"馬里烏奇競技場"，接下來要回答"裡面有什麼類型的座位"，就需要專門去搜索這個球場的文字介紹。

贊助商廣告

特別聰明的一個設計是"去重機制"。偵探每次查過的檔案都會被記錄下來，下次檢索時會自動排除已經看過的內容，避免重複在同一份錯誤證據上打轉。這意味著當第一次圖像搜索返回了錯誤實體時，偵探可以再次發起圖像搜索，並且這次會繞開上次的錯誤結果，向更深處探尋正確答案。

整個過程還有一個"預算"約束——圖像搜索和文字搜索各自最多能調用3次，防止偵探無休止地查下去耗盡計算資源。一旦超出預算，必須給出當前最佳判斷。

為了防止每次檢索返回的大量文字讓偵探"資訊過載"，系統還專門設置了一個"摘要員"，由另一個AI負責把檢索到的維基百科頁面壓縮成與問題最相關的簡短摘要，再交給偵探閱讀。這樣一來，偵探每次獲得的是精煉的關鍵資訊，而不是成千上萬字的原始文本。

三、偵探是怎麼被訓練出來的

有了這套辦案流程，下一個問題是：怎麼讓偵探學會用好這套工具？

研究團隊採用了一個分兩步走的訓練方案，可以把它理解為"先上基礎培訓課，再通過實戰磨練"。

基礎培訓課被稱為"冷啟動監督學習"。在這個階段，團隊先從訓練數據中抽取3000個問題，讓一個初始版本的AI模型去反覆嘗試，每次保留那些格式正確、工具調用成功、且最終答案正確的嘗試軌跡，丟掉那些失敗的。這個過程就像篩選高質量的範例卷子——只收錄"做對了而且步驟清晰"的答案，然後讓AI從這些範例中學習基本的辦案格式和流程。這一步不要求AI學會高深的策略，只要求它能正確地填寫"工具調用表格"、按格式匯報推理過程。

實戰磨練階段則採用強化學習，是更高級的訓練方式。研究團隊從訓練數據中取出15000個問題，讓訓練好基礎格式的偵探去實際辦案，根據最終結果給予獎勵或懲罰。獎勵機制由三部分構成：答案正確給高分，格式規範額外加分，而調用工具的次數越多則會被適當扣分（鼓勵偵探用最少的調查步驟解決問題）。通過大量實戰，偵探逐漸學會了什麼情況下應該繼續搜索、什麼時候已經可以下結論，以及該用圖像搜索還是文字搜索。

贊助商廣告

四、訓練算法的一個關鍵改進

在強化學習的技術細節層面，研究團隊發現了現有訓練方法的一個隱藏問題，並提出了針對性改進。

現有的主流強化學習方法在更新AI參數時，會把本次嘗試產生的總體偏差除以"這次嘗試產生了多少個詞"來做歸一化處理。這個設計背後的邏輯是：產生的詞越多，每個詞對結果的平均貢獻就越小，所以需要相應調整更新幅度，避免因為某次嘗試生成了超長文本而導致訓練信號過大。

然而在偵探這個場景里，決定成敗的關鍵不只是"寫了多少字"，更重要的是"調用了幾次工具、做了幾輪調查"。一個偵探可能只寫了很少的文字，但調用了3次工具；另一個偵探寫了大量分析文字，但只調用了1次工具。這兩個偵探的"決策複雜度"截然不同，但如果只按文字量歸一化，訓練信號就會產生偏差。

研究團隊提出的TN-GSPO（工具歸一化的群體序列策略優化）方法，把歸一化的分母從"生成詞數"擴展為"生成詞數 × (1 + 工具調用深度的函數)"。這樣一來，工具調用越多的軌跡，其更新幅度會被相應調小，與實際的決策複雜度更匹配，訓練過程也因此更加穩定。

從訓練過程的動態曲線來看，使用原始GRPO方法的偵探在訓練早期就迅速減少了工具調用次數，這意味著偵探學會了"儘量少查案"來規避扣分，但代價是收集的證據不足。而TN-GSPO方法訓練出的偵探則保持了合理的工具調用頻率，在整個訓練過程中逐步找到了查案深度與效率的平衡點。

五、偵探上場後的成績單

研究團隊在兩個主流知識型視覺問答數據集上測試了ProMSA，分別是Encyclopedic-VQA（簡稱E-VQA，涵蓋約16.7萬道涉及16700多個維基百科實體的問題）和InfoSeek（包含約130萬道問題，專門測試對"未見過實體"的泛化能力）。

在E-VQA數據集上，僅憑自身知識作答的最新視覺語言大模型（Qwen3-VL-8B）準確率約為25%，相當於偵探什麼工具都不用，單靠記憶作答。引入固定檢索流程的最強競爭對手REAL達到了約45%。而ProMSA（Qwen3-VL-8B版本）在單跳問題上達到了52.2%，在全量測試集上更達到52.6%，領先幅度相當明顯。

贊助商廣告

在InfoSeek數據集上，情況類似。該數據集特別測試"未見過的實體"和"未見過的問題"這兩種泛化難度，ProMSA分別達到了53.6%和53.3%，綜合得分53.4%，同樣顯著領先於各類競爭方法。

研究團隊還額外在OK-VQA這個更廣泛的視覺問答數據集上進行了測試，以驗證偵探技能的遷移能力。結果顯示，使用Qwen2.5-VL-7B的ProMSA達到了82.7%，使用Qwen3-VL-8B的版本更達到85.6%，均超過了此前專門針對OK-VQA設計的方法。這說明偵探學到的不只是針對特定任務的技巧，而是真正具有通用價值的知識搜索能力。

在推理速度方面，ProMSA的平均處理時間為每個樣本1.8秒（相當於最快方法EchoSight的1.5倍），而準確率比EchoSight高出約30個百分點。相比之下，Deepeyesv2的耗時是EchoSight的2倍，但準確率反而低於ProMSA約10個百分點。這意味著ProMSA在性能和速度之間取得了相當優秀的平衡。

六、拆開蓋子看細節：每個設計的貢獻有多大

研究團隊做了一系列對照實驗，來搞清楚偵探的每一件裝備到底有多大用處。

先看訓練階段的貢獻。從基礎模型（僅有推理框架，未經訓練）到冷啟動SFT階段，E-VQA的綜合準確率從32.8%提升至38.6%；再加上強化學習階段，準確率進一步躍升至52.6%。冷啟動解決的是"會不會用工具"的問題，強化學習解決的是"用得好不好"的問題，兩者缺一不可。

再看工具配置的貢獻。只給文字搜索工具時，E-VQA準確率為27.6%，InfoSeek為36.8%——文字搜索在需要先識別實體的場景下表現很差，因為偵探連"被調查對象是誰"都還沒確認，就去查屬性資訊，自然事倍功半。只給圖像搜索工具時，E-VQA準確率為34.7%，但InfoSeek只有21.4%——圖像搜索擅長識別實體，但在需要細粒度文字知識時無能為力。兩種工具同時配備，E-VQA和InfoSeek分別達到52.6%和53.4%，效果遠超任何單一工具，證明了多模態自適應檢索的必要性。

在工具調用預算方面，每種工具可調用2次時，E-VQA為48.2%；調用3次時最優，達到52.6%；調用4次時略有下滑至52.4%。這印證了"預算太少證據不足，預算太多引入噪聲"的直覺。

贊助商廣告

在每次檢索返回數量方面，返回Top-1時E-VQA為45.9%，返回Top-3時達到最優52.6%，返回Top-4時略降至52.1%，同樣呈現出類似的倒U形曲線。

七、偵探是怎麼決定"何時收手"的

研究團隊還對偵探在多輪調查中的行為進行了細粒度分析，這部分結果相當耐人尋味。

在第一輪檢索後，只有39.1%的檢索結果包含了正確的維基百科頁面——這說明偵探的第一反應其實經常是錯的，約六成情況下需要進一步調查。在這一輪，有46.4%的情況是"檢索錯了但偵探選擇繼續查"，體現了偵探的自我糾錯本能；但也有14.5%的情況是"檢索錯了但偵探卻停下來給出答案"，這是明顯的錯判。

到第二輪檢索後，檢索準確率提升至48.8%，"檢索正確並停下"的比例從32.4%上升至45.5%，"檢索錯誤但繼續查"的比例從46.4%驟降至7.4%。這說明強化學習有效地訓練出了"一旦找到可靠證據就及時收手"的判斷能力。

當然，第二輪也出現了一個值得關注的模式：有相當比例的情況是"檢索仍然錯誤，但偵探停了下來"。研究團隊分析，這一方面是工具調用成本懲罰機制在起作用（繼續查的代價太高，偵探選擇了妥協），另一方面也反映出對於真正"長尾"的冷僻實體，偵探有時確實無法判斷手中的證據是否可靠。這是當前版本的一個局限，也是未來可以改進的方向。

說到底，ProMSA做的事情說起來並不複雜：把AI從一個被動的"知識庫"變成一個主動的"調查員"。但實現這個轉變需要解決的問題卻相當精細——既要設計合理的調查工具，又要訓練出恰當的使用策略，還要在效率和準確率之間找到平衡。研究團隊用冷啟動加強化學習的兩階段訓練、用TN-GSPO穩定了學習過程、用雙工具自適應切換覆蓋了不同類型的知識缺口，這些設計共同造就了最終的性能提升。

對於普通用戶而言，這項研究意味著未來的AI助手在面對"圖中這是什麼地方""這個人物在哪裡出生"等涉及冷僻知識的問題時，將有更大概率給出正確答案，而不是自信地給出一個編造的答案。對於研究者而言，TN-GSPO提供了一種更合理的多工具智能體訓練範式，可以推廣到其他需要外部工具調用的AI任務上。

贊助商廣告

有興趣深入了解技術細節的讀者，可以通過編號arXiv:2606.27974在arXiv平台檢索完整論文，代碼也已在GitHub上開源，地址可通過論文中的鏈接獲取。

Q&A

Q1：ProMSA和普通的RAG檢索增強方法有什麼本質區別？

A：普通RAG是一次性檢索然後直接生成答案，檢索策略固定，失敗了無法糾正。ProMSA則像一個主動調查的偵探，可以根據每一步的檢索結果決定是繼續查還是停下來，還可以在第一次檢索失敗後自動排除錯誤結果再次嘗試，形成一個閉環的搜索推理過程。

Q2：TN-GSPO與GRPO相比解決了什麼具體問題？

A：GRPO在訓練多工具智能體時，只按生成文字的數量來歸一化訓練信號，會導致AI傾向於"少用工具、少寫字"來獲得更穩定的優化信號，最終收集的證據不足。TN-GSPO額外把工具調用次數納入歸一化分母，讓訓練信號的強度與實際決策複雜度相匹配，從而引導AI學會在需要時合理使用多次工具調用。

Q3：ProMSA在什麼類型的視覺問答問題上提升最明顯？

A：ProMSA在涉及長尾實體（即訓練數據中很少出現的偏僻實體）的知識型問題上提升最為顯著，尤其是那些需要先識別圖中實體再追查其屬性的問題，以及需要跨多個維基百科頁面進行多步推理的問題。對於AI本身參數記憶中已有答案的常見知識，提升幅度相對有限。