宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

清華&OPPO聯合打造的「智能偵探」:當AI學會主動追查證據,視覺問答準確率飆升27%

2026年07月01日 首頁 » 熱門科技

這項由清華大學深圳國際研究生院與OPPO AI中心聯合主導,並聯合南洋理工大學共同完成的研究,於2026年6月26日以預印本形式發布在arXiv平台,編號為arXiv:2606.27974v1。

你有沒有遇到過這樣的場景:拍了一張公園的照片,想知道這個公園在哪個城市,但手機AI助手要麼給你一個錯誤的答案,要麼直接坦言"我不知道"。這個看似簡單的問題,背後藏著人工智慧領域一個相當棘手的難題——如何讓機器在看圖的同時,還能主動去查找它不知道的知識?

這支來自頂尖高校與產業界的研究團隊,給出了一個頗為有趣的解決方案。他們把AI設計成一個"主動偵探":面對一張圖片和一個問題,這個偵探不會坐在原地胡亂猜測,而是會主動出擊,先查圖像線索,再翻文字檔案,直到找到足夠的證據才下結論。這個系統被命名為ProMSA(Progressive Multimodal Search Agents,漸進式多模態搜索智能體),它在兩個主流測試數據集上的表現,比此前最強的競爭對手高出了約7到9個百分點。

一、偵探為什麼比旁觀者更聰明

要理解這項研究的意義,得先弄清楚一件事:為什麼看圖回答問題這麼難?

表面上看,現在的AI已經能識別貓狗、理解文字、甚至寫詩作畫,似乎無所不能。但當問題涉及到那些"冷僻知識"時,AI就像一位博學的學者突然被問到一個偏僻小鎮的地名——即便真的去過,也未必能準確說出來。以"圖片裡這個湖泊在哪個國家"為例,世界上有成千上萬個湖泊,大多數湖泊的照片在AI的訓練數據里出現的次數極少,AI很難憑藉記憶給出正確答案。

現有的應對方案,主要走的是"先查後答"的路子,可以把它理解為一種圖書館查閱流程。系統先把圖片拿去檢索資料庫,找到排名前幾位的相關維基百科頁面,然後把這些頁面的內容塞給AI,讓AI根據這些材料回答問題。這個方法確實有效,但它有三個根本性的短板。

第一個短板是檢索策略完全固化,不會根據情況調整。就像一個偵探無論面對什麼案件,都只會做同一件事——去翻同一個檔案櫃,而不會根據案情線索決定該去哪裡查、查什麼。有些問題其實不需要檢索就能回答,有些需要先識別圖中的實體再進行文字檢索,有些則需要多輪追蹤。一成不變的流程根本無法覆蓋這些差異。

第二個短板是沒有糾錯機制。一旦第一次檢索到了錯誤的頁面,系統就只能硬著頭皮根據錯誤資訊回答,完全無法回頭重查。這就像偵探翻到了一份偽造的證據,卻沒有任何能力識破和糾正,最終做出了錯誤的判斷。

第三個短板是處理不了需要多步推理的問題。有些問題需要先找到實體,再從找到的資訊里繼續追查另一個知識點。比如"圖片裡這位運動員效力的球隊,其主場球場的容量是多少",這至少需要兩步:先識別運動員和球隊,再查球場容量。一次性檢索根本無法勝任這類任務。

正是針對這三個問題,研究團隊設計了ProMSA這個"會主動偵查的系統"。

二、偵探的辦案流程:漸進式搜索

ProMSA的核心思路可以用一個簡潔的偵探破案比喻來貫穿理解。每一次接到一個"案件"(圖片+問題),偵探不會立刻給出結論,而是根據手頭的線索決定下一步行動,直到證據充分為止。

具體來說,這個偵探在每一步面前有三個選擇:發起圖像搜索、發起文字搜索,或者宣布"證據已經足夠,我有答案了"。這三個選擇合稱為"行動空間"。

圖像搜索的工作方式是這樣的:偵探把當前圖片拿去和維基百科裡的數百萬張圖片比較,找出最相似的幾張,然後獲取這些圖片所對應的維基百科頁面內容。這個步驟主要用於識別圖中的實體——比如這是什麼建築、這是哪個人、這是哪個地標。

文字搜索則是另一條線索追查路徑:偵探根據已知資訊生成一個文字查詢,去維基百科的文字內容里尋找具體的屬性資訊。比如已經知道圖片裡是"馬里烏奇競技場",接下來要回答"裡面有什麼類型的座位",就需要專門去搜索這個球場的文字介紹。

特別聰明的一個設計是"去重機制"。偵探每次查過的檔案都會被記錄下來,下次檢索時會自動排除已經看過的內容,避免重複在同一份錯誤證據上打轉。這意味著當第一次圖像搜索返回了錯誤實體時,偵探可以再次發起圖像搜索,並且這次會繞開上次的錯誤結果,向更深處探尋正確答案。

整個過程還有一個"預算"約束——圖像搜索和文字搜索各自最多能調用3次,防止偵探無休止地查下去耗盡計算資源。一旦超出預算,必須給出當前最佳判斷。

為了防止每次檢索返回的大量文字讓偵探"資訊過載",系統還專門設置了一個"摘要員",由另一個AI負責把檢索到的維基百科頁面壓縮成與問題最相關的簡短摘要,再交給偵探閱讀。這樣一來,偵探每次獲得的是精煉的關鍵資訊,而不是成千上萬字的原始文本。

三、偵探是怎麼被訓練出來的

有了這套辦案流程,下一個問題是:怎麼讓偵探學會用好這套工具?

研究團隊採用了一個分兩步走的訓練方案,可以把它理解為"先上基礎培訓課,再通過實戰磨練"。

基礎培訓課被稱為"冷啟動監督學習"。在這個階段,團隊先從訓練數據中抽取3000個問題,讓一個初始版本的AI模型去反覆嘗試,每次保留那些格式正確、工具調用成功、且最終答案正確的嘗試軌跡,丟掉那些失敗的。這個過程就像篩選高質量的範例卷子——只收錄"做對了而且步驟清晰"的答案,然後讓AI從這些範例中學習基本的辦案格式和流程。這一步不要求AI學會高深的策略,只要求它能正確地填寫"工具調用表格"、按格式匯報推理過程。

實戰磨練階段則採用強化學習,是更高級的訓練方式。研究團隊從訓練數據中取出15000個問題,讓訓練好基礎格式的偵探去實際辦案,根據最終結果給予獎勵或懲罰。獎勵機制由三部分構成:答案正確給高分,格式規範額外加分,而調用工具的次數越多則會被適當扣分(鼓勵偵探用最少的調查步驟解決問題)。通過大量實戰,偵探逐漸學會了什麼情況下應該繼續搜索、什麼時候已經可以下結論,以及該用圖像搜索還是文字搜索。

四、訓練算法的一個關鍵改進

在強化學習的技術細節層面,研究團隊發現了現有訓練方法的一個隱藏問題,並提出了針對性改進。

現有的主流強化學習方法在更新AI參數時,會把本次嘗試產生的總體偏差除以"這次嘗試產生了多少個詞"來做歸一化處理。這個設計背後的邏輯是:產生的詞越多,每個詞對結果的平均貢獻就越小,所以需要相應調整更新幅度,避免因為某次嘗試生成了超長文本而導致訓練信號過大。

然而在偵探這個場景里,決定成敗的關鍵不只是"寫了多少字",更重要的是"調用了幾次工具、做了幾輪調查"。一個偵探可能只寫了很少的文字,但調用了3次工具;另一個偵探寫了大量分析文字,但只調用了1次工具。這兩個偵探的"決策複雜度"截然不同,但如果只按文字量歸一化,訓練信號就會產生偏差。

研究團隊提出的TN-GSPO(工具歸一化的群體序列策略優化)方法,把歸一化的分母從"生成詞數"擴展為"生成詞數 × (1 + 工具調用深度的函數)"。這樣一來,工具調用越多的軌跡,其更新幅度會被相應調小,與實際的決策複雜度更匹配,訓練過程也因此更加穩定。

從訓練過程的動態曲線來看,使用原始GRPO方法的偵探在訓練早期就迅速減少了工具調用次數,這意味著偵探學會了"儘量少查案"來規避扣分,但代價是收集的證據不足。而TN-GSPO方法訓練出的偵探則保持了合理的工具調用頻率,在整個訓練過程中逐步找到了查案深度與效率的平衡點。

五、偵探上場後的成績單

研究團隊在兩個主流知識型視覺問答數據集上測試了ProMSA,分別是Encyclopedic-VQA(簡稱E-VQA,涵蓋約16.7萬道涉及16700多個維基百科實體的問題)和InfoSeek(包含約130萬道問題,專門測試對"未見過實體"的泛化能力)。

在E-VQA數據集上,僅憑自身知識作答的最新視覺語言大模型(Qwen3-VL-8B)準確率約為25%,相當於偵探什麼工具都不用,單靠記憶作答。引入固定檢索流程的最強競爭對手REAL達到了約45%。而ProMSA(Qwen3-VL-8B版本)在單跳問題上達到了52.2%,在全量測試集上更達到52.6%,領先幅度相當明顯。

在InfoSeek數據集上,情況類似。該數據集特別測試"未見過的實體"和"未見過的問題"這兩種泛化難度,ProMSA分別達到了53.6%和53.3%,綜合得分53.4%,同樣顯著領先於各類競爭方法。

研究團隊還額外在OK-VQA這個更廣泛的視覺問答數據集上進行了測試,以驗證偵探技能的遷移能力。結果顯示,使用Qwen2.5-VL-7B的ProMSA達到了82.7%,使用Qwen3-VL-8B的版本更達到85.6%,均超過了此前專門針對OK-VQA設計的方法。這說明偵探學到的不只是針對特定任務的技巧,而是真正具有通用價值的知識搜索能力。

在推理速度方面,ProMSA的平均處理時間為每個樣本1.8秒(相當於最快方法EchoSight的1.5倍),而準確率比EchoSight高出約30個百分點。相比之下,Deepeyesv2的耗時是EchoSight的2倍,但準確率反而低於ProMSA約10個百分點。這意味著ProMSA在性能和速度之間取得了相當優秀的平衡。

六、拆開蓋子看細節:每個設計的貢獻有多大

研究團隊做了一系列對照實驗,來搞清楚偵探的每一件裝備到底有多大用處。

先看訓練階段的貢獻。從基礎模型(僅有推理框架,未經訓練)到冷啟動SFT階段,E-VQA的綜合準確率從32.8%提升至38.6%;再加上強化學習階段,準確率進一步躍升至52.6%。冷啟動解決的是"會不會用工具"的問題,強化學習解決的是"用得好不好"的問題,兩者缺一不可。

再看工具配置的貢獻。只給文字搜索工具時,E-VQA準確率為27.6%,InfoSeek為36.8%——文字搜索在需要先識別實體的場景下表現很差,因為偵探連"被調查對象是誰"都還沒確認,就去查屬性資訊,自然事倍功半。只給圖像搜索工具時,E-VQA準確率為34.7%,但InfoSeek只有21.4%——圖像搜索擅長識別實體,但在需要細粒度文字知識時無能為力。兩種工具同時配備,E-VQA和InfoSeek分別達到52.6%和53.4%,效果遠超任何單一工具,證明了多模態自適應檢索的必要性。

在工具調用預算方面,每種工具可調用2次時,E-VQA為48.2%;調用3次時最優,達到52.6%;調用4次時略有下滑至52.4%。這印證了"預算太少證據不足,預算太多引入噪聲"的直覺。

在每次檢索返回數量方面,返回Top-1時E-VQA為45.9%,返回Top-3時達到最優52.6%,返回Top-4時略降至52.1%,同樣呈現出類似的倒U形曲線。

七、偵探是怎麼決定"何時收手"的

研究團隊還對偵探在多輪調查中的行為進行了細粒度分析,這部分結果相當耐人尋味。

在第一輪檢索後,只有39.1%的檢索結果包含了正確的維基百科頁面——這說明偵探的第一反應其實經常是錯的,約六成情況下需要進一步調查。在這一輪,有46.4%的情況是"檢索錯了但偵探選擇繼續查",體現了偵探的自我糾錯本能;但也有14.5%的情況是"檢索錯了但偵探卻停下來給出答案",這是明顯的錯判。

到第二輪檢索後,檢索準確率提升至48.8%,"檢索正確並停下"的比例從32.4%上升至45.5%,"檢索錯誤但繼續查"的比例從46.4%驟降至7.4%。這說明強化學習有效地訓練出了"一旦找到可靠證據就及時收手"的判斷能力。

當然,第二輪也出現了一個值得關注的模式:有相當比例的情況是"檢索仍然錯誤,但偵探停了下來"。研究團隊分析,這一方面是工具調用成本懲罰機制在起作用(繼續查的代價太高,偵探選擇了妥協),另一方面也反映出對於真正"長尾"的冷僻實體,偵探有時確實無法判斷手中的證據是否可靠。這是當前版本的一個局限,也是未來可以改進的方向。

說到底,ProMSA做的事情說起來並不複雜:把AI從一個被動的"知識庫"變成一個主動的"調查員"。但實現這個轉變需要解決的問題卻相當精細——既要設計合理的調查工具,又要訓練出恰當的使用策略,還要在效率和準確率之間找到平衡。研究團隊用冷啟動加強化學習的兩階段訓練、用TN-GSPO穩定了學習過程、用雙工具自適應切換覆蓋了不同類型的知識缺口,這些設計共同造就了最終的性能提升。

對於普通用戶而言,這項研究意味著未來的AI助手在面對"圖中這是什麼地方""這個人物在哪裡出生"等涉及冷僻知識的問題時,將有更大概率給出正確答案,而不是自信地給出一個編造的答案。對於研究者而言,TN-GSPO提供了一種更合理的多工具智能體訓練範式,可以推廣到其他需要外部工具調用的AI任務上。

有興趣深入了解技術細節的讀者,可以通過編號arXiv:2606.27974在arXiv平台檢索完整論文,代碼也已在GitHub上開源,地址可通過論文中的鏈接獲取。

Q&A

Q1:ProMSA和普通的RAG檢索增強方法有什麼本質區別?

A:普通RAG是一次性檢索然後直接生成答案,檢索策略固定,失敗了無法糾正。ProMSA則像一個主動調查的偵探,可以根據每一步的檢索結果決定是繼續查還是停下來,還可以在第一次檢索失敗後自動排除錯誤結果再次嘗試,形成一個閉環的搜索推理過程。

Q2:TN-GSPO與GRPO相比解決了什麼具體問題?

A:GRPO在訓練多工具智能體時,只按生成文字的數量來歸一化訓練信號,會導致AI傾向於"少用工具、少寫字"來獲得更穩定的優化信號,最終收集的證據不足。TN-GSPO額外把工具調用次數納入歸一化分母,讓訓練信號的強度與實際決策複雜度相匹配,從而引導AI學會在需要時合理使用多次工具調用。

Q3:ProMSA在什麼類型的視覺問答問題上提升最明顯?

A:ProMSA在涉及長尾實體(即訓練數據中很少出現的偏僻實體)的知識型問題上提升最為顯著,尤其是那些需要先識別圖中實體再追查其屬性的問題,以及需要跨多個維基百科頁面進行多步推理的問題。對於AI本身參數記憶中已有答案的常見知識,提升幅度相對有限。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新