這項由上海交通大學、上海人工智慧實驗室、清華大學、中南大學及中國電子科技集團公司第十五研究所聯合開展的研究,於2026年6月23日以預印本形式發布,論文編號為arXiv:2606.24112,有興趣深入了解的讀者可通過該編號查詢完整論文。
網路上每天流傳著數以百萬計的帖子,其中夾雜著精心包裝的假新聞、斷章取義的圖片,以及真真假假混合在一起的"半真消息"。這些內容的危險性,恰恰在於它們不是一眼就能識破的謊言,而是像一碗摻了砒霜的好湯——大部分是真的,但那一點點假的,足以讓你中毒。研究團隊把這個問題形象化地定義為:現實世界中的多模態虛假資訊檢測。所謂"多模態",指的是一條網路帖子往往同時包含文字、圖片、截圖,甚至還有AI生成或PS過的視覺內容,而不是單純的文字謠言或單張配圖。
面對這個挑戰,現有的技術工具就像是一個只會做選擇題的學生——被訓練成判斷"真"或"假"兩個選項,卻對現實中那些"大部分是真的,但有幾處關鍵細節被扭曲"的複雜情況束手無策。更棘手的是,這些工具通常只能處理短文本配一張圖的簡單組合,碰到一篇夾雜著多種語言、附有十張來源各異圖片的長篇帖子,就完全抓瞎了。
正是為了填補這個巨大的空白,研究團隊推出了ReMMD這套完整的解決方案。ReMMD由兩部分組成:一個叫做ReMMDBench的測試集,用來公平地考核各種AI系統在現實條件下的辨別能力;另一個叫做ReMMD-Agent的智能核查系統,像一位經驗豐富的事實核查記者那樣,有條不紊地拆解、查證、判斷每一條帖子。
一、當現有"考卷"都太簡單:ReMMDBench是如何重新定義難度的
要理解ReMMDBench的價值,先得明白之前的測試標準為什麼不夠用。以往用於評測AI辨別假新聞能力的標準,大多像是聯考的單選題:給你一段短文加一張圖,讓你選"真"或"假"。現實世界的網路謠言卻截然不同,它更像是一套綜合考試,卷子上有大量文字、多張圖片、多種語言,而且答案不是非黑即白,而是"基本屬實""部分失實""嚴重失實"這樣的灰色地帶。
ReMMDBench正是按照這套更貼近現實的標準構建的。整個數據集包含500個樣本,共計2756張圖片,平均每個樣本有5.51張圖片,其中只有1個樣本僅含單張圖片,而有168個樣本含有整整十或十一張圖片。這種"圖片密集"的設計,是為了模仿社交媒體上那種"走馬燈式"的證據展示方式——有些圖片是核心證據,有些只是裝飾,AI必須能分辨哪張圖真正支撐著帖子的核心主張。
在語言覆蓋上,ReMMDBench包含了英語、中文、德語、日語、法語五種語言的單語樣本,合計423條,另有77條跨語言遷移測試樣本,用於考察AI能否把在一種語言上學到的辨別能力遷移到另一種語言。五種語言的分布相當均衡,英語111條、中文112條、德語67條、日語68條、法語65條。
文本長度方面,數據集被劃分為短、中、長三個層次,分別對應173、159、168條樣本,三者接近均衡。短帖的平均長度約為168個字符,長帖的平均長度則高達2316個字符,平均圖片數量也從短帖的2.35張增加到長帖的10.05張。短帖測試AI是否會"過度解讀"簡短內容,長帖則測試AI能否在一大堆實體名稱、日期、引用語和圖片序列中追蹤關鍵資訊。
在標籤體系方面,ReMMDBench採用了一套三層標註結構,這是它與過去所有測試集最根本的區別所在。第一層(L1)是"真實性判決",分為五個等級:完全屬實、大部分屬實、真假混合、大部分失實、完全失實。這五個等級按嚴重程度排列,核心邏輯在於區分一個錯誤是改變了帖子的核心結論,還是僅僅是一個無關緊要的小細節。五個類別的樣本數量接近均衡,分別為100、99、100、102、99條,這使得AI不能靠"猜最多的那個類別"來矇混過關。
第二層(L2)是"失真類型"標註,共有八個類別,分別歸屬於文本失真、視覺失真和跨模態失真三大家族。文本失真涵蓋捏造資訊、對真實事實的扭曲,以及誤導性背景;視覺失真涵蓋AI生成的合成內容和圖片編輯;跨模態失真涵蓋語義不一致、情境不一致和語用不一致。這八個標籤是多標籤制,因為一條帖子完全可能同時在文字上捏造資訊、在圖片上進行PS,並且把真實圖片配到了錯誤的事件上。值得特別說明的是,團隊刻意區分了"圖片來源"和"圖片證明力"——一張AI生成的圖片本身並不能讓一條帖子變成假的,而一張真實照片完全可以被用在錯誤的語境裡製造誤導。
第三層(L3)是自然語言形式的"判決理由",解釋為什麼給出這個判決、哪個具體的文字或圖片細節導致了這個結論。隨著L1判決嚴重程度上升,L2標籤的平均數量也從"完全屬實"時的0個穩步增加到"完全失實"時的4.41個,這一規律表明:越嚴重的虛假資訊,往往同時動用了越多種類的失真手段,而不是依靠單一的伎倆。
在話題分布上,ReMMDBench覆蓋了娛樂體育(107條,21.4%)、國際衝突(85條,17%)、公共安全與災害(70條,14%)、科技與AI(66條,13.2%)、政治與公共事務(58條,11.6%)、社會與文化(49條,9.8%)、金融市場(35條,7%)、健康與醫療(22條,4.4%)以及其他(8條,1.6%)。這種多領域覆蓋的設計,是為了防止AI只記住某個特定領域的謠言模板,而需要展現真正的通用核查能力。
在圖片來源方面,2756張圖片中有1353張(49.1%)來自對真實圖片的直接復用,576張(20.9%)是從網路下載的證據圖片,418張(15.2%)是AI生成的合成圖片,409張(14.8%)是經過編輯修改的圖片。整個數據集中,有384個樣本包含至少一張"AI觸碰過"的圖片,其中237個含AI生成圖片,246個含AI編輯圖片。
在質量控制方面,團隊實施了三階段審核。每個候選樣本必須包含一個可查證的核心主張、至少一張相關圖片,以及有證據支撐的黃金標籤。審核人員會剔除那些依賴私人背景知識、諷刺內容或價值觀爭論的案例,並逐一核查每個L2標籤是否對應了具體的文字、視覺或跨模態錯位。最終還會對標註理由與標籤進行對齊校驗,並確認圖片來源認定不與真實性判決相混淆。
二、像老偵探一樣破案:ReMMD-Agent的三步核查流程
有了一套夠難的考卷,接下來就需要一個夠聰明的解題系統。研究團隊設計ReMMD-Agent的核心理念,可以用一位老練偵探的工作方式來理解:他不會拿到案件材料就直接下判斷,而是先把所有資訊拆解成獨立的"待查事實",然後逐一去檔案室(資料庫)和街頭(網路)核實,把查到的線索統一記錄在一本"偵查日誌"里,最後綜合所有線索做出裁決。
具體來說,ReMMD-Agent拿到一條帖子(包含文字內容和一組圖片)之後,需要輸出三樣東西:五分類的真實性判決(L1)、八維度的失真診斷(L2),以及簡明扼要的判決理由(L3)。
第一步叫做"原子化表徵",本質上是把一篇帖子拆解成若干個最小的"可核查單元"。這些單元涵蓋四種類型:對圖片內容的觀察(這張圖片裡出現了什麼場景、哪些文字、哪些人物)、文字與圖片之間的綁定關係(帖子用這張圖來證明哪個具體的事件、地點、時間或結論)、句子級別的事實主張,以及敘事級別的結論性陳述。每個可核查單元都附帶一個檢索查詢,用於後續去網路上查證。近似重複的單元會被合併,每個樣本最多保留十二個單元,以避免冗餘檢索,同時保留判斷所需的核心資訊。
這一步的意義在於:它把長篇敘述中的背景鋪墊、重複斷言和弱相關細節統統過濾掉,讓後續的檢索和判斷聚焦在真正能影響核查結論的那些關鍵點上。用偵探的比喻來說,這一步相當於把一份厚厚的案件材料整理成一張條理清晰的"待查事實清單"。
第二步叫做"記憶增強檢索",是整個系統最具創新性的設計之一。系統會針對每一個可核查單元,調用網路搜索、圖片搜索和社交媒體搜索三類工具,把查到的資訊存入一個"樣本級記憶庫"。這個記憶庫里的每條記錄都包含資訊類型、來源描述、可選的時間戳、可靠性備註,以及它與哪些可核查單元相關的鏈接。
這個記憶庫貫穿所有可核查單元的處理過程,持續存在而不是一次性丟棄。這意味著,在核查一個文字主張時檢索到的新聞報道,之後可以直接用於核實與之相關的圖片綁定關係;針對某個時間錯誤的查證,可以同時解決另一個地點錯誤的問題。記憶庫相當於偵探的"偵查日誌",高價值線索可以被反覆調用,避免了對同樣資訊的重複檢索,這也是ReMMD-Agent能夠比競爭對手更省錢的關鍵原因之一。
第三步叫做"結構化證據判斷",是最終做出裁決的環節。判斷者接收到帖子原文、所有圖片、原子化可核查單元,以及充滿證據條目的記憶庫,還有輔助的文字分析和視覺分析結果。首先,每個可核查單元被標註上一個狀態:有證據支持、被證據反駁,或者無法核實。然後,判斷者根據整體證據模式推斷L1真實性判決。
關鍵在於,這個推斷過程並不是簡單地對所有單元進行投票。一個被反駁的周邊數字,可能只是把"完全屬實"變成"大部分屬實";但一個被反駁的事件歸因,即使帖子裡的很多表面細節都是真實的,也足以決定最終的判決。換句話說,判斷者必須評估每個被反駁的證據是否影響了帖子的核心主張,而不只是記錄有沒有錯誤存在。L2失真標籤是在L1判決之後才被賦予的,以確保視覺真實性不被當成判斷帖子真假的捷徑。判斷者會分別考察文字證據、視覺來源和圖文關係,然後再選定失真標籤,最終輸出真實性判決、失真診斷和判決理由。
在具體實現上,檢索查詢以原文語言發出,跨語言樣本還會額外使用英語或中文作為橋接查詢。視覺檢索會利用圖片描述、OCR識別文字、命名實體,以及在可用時的反向圖片搜索描述。輔助文字分析專門標記捏造、扭曲和誤導性背景,輔助視覺分析則專注於合成內容跡象、編輯痕跡、來源錯配和跨模態一致性。這些輔助分析結果被當作"軟性證據"而非硬性規則對待,保留了判斷者綜合考量的靈活性。
三、真刀真槍的比拼:各系統在500道難題面前的表現
研究團隊在ReMMDBench的全部500個樣本上,對多個系統進行了全面評測,參與評測的系統包括:Manus
(使用1.6版本)、ChatGPT(通過OpenAI網頁界面評測)、MMD-Agent、T?-Agent,以及ReMMD-Agent。其中MMD-Agent和T?-Agent各自搭配了五種骨幹語言模型:GPT-5.2、Gemma4-31B、Qwen3.6-27B、Qwen3.5-9B和Qwen3.5-4B,非GPT的開源骨幹在H200 GPU上本地部署運行。所有系統共享相同的網路檢索後端(Serper API)和圖片處理流程。
在L1真實性判決的五分類準確率上,ReMMD-Agent配合GPT-5.2骨幹取得了41.80%的準確率和39.12%的宏觀F1,這是所有系統中最高的成績。排在其後的是Manus(33.00%準確率)、ChatGPT(30.20%),以及T?-Agent配合GPT-5.2(28.20%)。值得關注的是,MMD-Agent配合GPT-5.2隻取得了26.40%的準確率,反而低於一些規模更小的開源骨幹配置。在開源骨幹中,ReMMD-Agent配合Qwen3.5-9B取得了37.20%的準確率和37.18%的宏觀F1,甚至超過了Manus和ChatGPT這樣的商業閉源系統。
在L2失真診斷的宏觀F1上,ReMMD-Agent配合Qwen3.5-9B以46.97%的成績領先所有配置,ReMMD-Agent配合GPT-5.2則以45.15%緊隨其後。在最嚴格的"完全精確匹配"指標(要求八個失真標籤全部正確預測)上,各系統普遍表現低迷,這反映了細粒度失真診斷的內在困難。
從混淆矩陣來看,兩種主要骨幹(Qwen3.5-9B和GPT-5.2)在主對角線上都積累了相當可觀的正確預測,但剩餘錯誤集中在相鄰的中間標籤之間——比如"大部分屬實"和"真假混合"之間,或者"大部分失實"和"真假混合"之間。這說明系統的主要挑戰不是識別明顯的假消息,而是在部分證據被反駁時,準確判斷被反駁的內容是否影響了核心結論。
在消融實驗中,團隊逐一去掉ReMMD-Agent(GPT-5.2版本)的每個組件來測試其貢獻。去掉記憶庫之後,L1宏觀F1從39.12%降到35.84%,L2宏觀F1從45.15%降到41.77%。去掉原子化解析之後,L1宏觀F1降到34.96%,L2降到39.88%。去掉視覺輔助分析之後,L1降到37.21%,L2降到40.46%——後者說明視覺輔助分析對失真診斷特別重要,因為視覺編輯和跨模態錯配往往在最終的真實性判決形成之前就已經顯示出診斷信號。將整個系統退化為單輪LVLM直接判斷(不做任何分解和檢索)之後,L1宏觀F1降到31.42%,L2降到37.09%,是最差的配置。這組實驗清晰地表明,原子化解析和記憶庫復用都是不可缺少的組件,兩者共同發揮作用。
四、錢花得值不值:成本與遷移能力的雙重考驗
除了性能,研究團隊還對GPT-5.2骨幹下三個系統的全量測試成本進行了精確核算。ReMMD-Agent跑完500個樣本的總成本為104.16美元。MMD-Agent的總成本為126.32美元,每個樣本0.2526美元,比ReMMD-Agent貴17.5%。T?-Agent的總成本高達517.91美元,每個樣本1.0358美元,是ReMMD-Agent的4.97倍,即貴了整整79.9%。
這個成本差異背後有清晰的機制解釋。ReMMD-Agent因為記憶庫的復用機制,針對一個文字主張檢索到的資訊可以直接服務於相關的圖片綁定核查,不需要重複檢索;T?-Agent則採用蒙特卡洛樹搜索方法擴展推理路徑,這帶來了大量重複的工具調用,成本因此急劇膨脹。更重要的是,額外的搜索並沒有換來更好的準確率——T?-Agent配合GPT-5.2的L1宏觀F1(26.00%)甚至低於ReMMD-Agent同款骨幹的39.12%。這說明在虛假資訊檢測中,檢索的質量和組織方式比檢索的數量重要得多。
在遷移能力上,研究團隊用同款Qwen3.5-9B骨幹和同樣的檢索後端,把三個系統都轉移到MMFakeBench的官方測試集上(含10000個樣本,70%為假、30%為真的二分類任務)。ReMMD-Agent取得了82.4%的準確率和87.1%的假新聞類F1,MMD-Agent只取得了59.2%準確率和67.3%的假新聞類F1,T?-Agent取得了63.9%準確率和71.5%的假新聞類F1。這組結果表明,ReMMD-Agent的優勢不是針對ReMMDBench的特殊設計所帶來的,而是源自更通用的證據管理能力。
五、按語言、按長度、按失真類型細拆:誰最難搞定
在不同文本長度下,三個系統(MMD-Agent、T?-Agent、ReMMD-Agent,均使用Qwen3.5-9B)的L1宏觀F1在短文本子集上分別約為22.18%、25.09%、36.07%;在中文本子集上約為24.84%、20.03%、34.55%;在長文本子集上約為29.66%、23.95%、40.79%。ReMMD-Agent在三個長度層次上都保持了明顯領先,且優勢在長文本上最為突出。長帖平均含約十張圖片,大量實體、日期、引用和圖片引用交織在一起,原子化解析把這些混亂的資訊變成可查證的單元,記憶庫復用則避免了對相鄰事件或同款圖片的重複檢索,兩者的協同效應在長文本條件下被放大到最大。
在語言維度上,以MMD-Agent為參照基準,ReMMD-Agent的L1宏觀F1增益在日語上高達+18.18個百分點,在法語上高達+19.62個百分點,在德語上為+12.67個百分點,在中文上為+9.68個百分點,在英語上為+5.08個百分點。MMD-Agent在日語和法語上的基準性能最低(分別為15.97%和15.66%),而ReMMD-Agent在這兩種語言上的增益也最大,這說明多語言核查的瓶頸不只是翻譯問題,更是實體錨定和區域資訊來源訪問的問題。T?-Agent偶爾在某些語言上超過MMD-Agent的L1成績(如法語),但其L2失真診斷成績在幾乎所有語言上都大幅下滑,說明更寬泛的搜索可能找到了足夠做粗粒度判斷的證據,卻仍然無法診斷具體的失真機制。
在八種失真標籤的逐類分析中,ReMMD-Agent在七個類別上都是最優,唯一的例外是V1(合成視覺內容),在這個類別上MMD-Agent以51.78%的F1領先,ReMMD-Agent為45.63%。V1的檢測依賴於圖片的低層次生成痕跡和取證線索,這類信號在證據檢索中難以被直接捕捉,提示低層次視覺取證和證據檢索是兩種互補而非相互替代的能力。相比之下,ReMMD-Agent在T2失真(扭曲真實事實依據)類別上以57.75%的F1比MMD-Agent的27.04%高出整整30.71個百分點,在V2視覺編輯上比MMD-Agent高10.69個百分點,在C1語義不一致上高7.65個百分點,在C2情境不一致上高12.45個百分點——這些類別的共同特徵是,必須把帖子內容與外部證據對比才能準確診斷。C3語用不一致對所有系統都是最難的(ReMMD-Agent的最高F1也只有20.21%),因為這個類別涉及的是證據的修辭性使用方式,而不是單一的事實性錯誤。
在GPT骨幹的混淆矩陣比較中,ChatGPT和T?-Agent都表現出一種明顯的"保守偏移"——傾向於把預測堆積在中間標籤附近,不敢給出自信的"完全屬實"判斷。這反映了一種模型偏見:當任務語境涉及虛假資訊時,模型往往把不確定性本身當成了"部分失實"的證據。ReMMD-Agent通過強制要求判斷者把"有支持的"、"被反駁的"和"無法核實的"原子單元分開處理,有效壓制了這種系統性漂移,使預測質量更接近真實的標籤分布。
六、這項研究告訴我們什麼,以及它還沒能解決什麼
研究團隊在討論部分得出的核心結論頗具啟發性:真實世界的多模態虛假資訊檢測,本質上是一個證據選擇問題,而不是感知或搜索量的問題。一篇帖子可以用真實的證據來支持錯誤的結論,所以細粒度的標籤體系是必要的。檢索只有在每條資訊都被關聯到它所核查的具體主張或圖片時,才真正有幫助。視覺真實性本身不足以判斷帖子的真假,因為真實照片可以被濫用,而合成圖片並不自動使文字內容變假。
Qwen3.5-9B在同一套ReMMD-Agent流程下反超Qwen3.6-27B這一現象,研究團隊給出了解釋:當檢索和記憶提供了充分的證據之後,骨幹模型主要需要做的是遵循判斷模式、校準部分證據,以及避免過度解讀不確定性。更大的模型在相鄰的"部分真實"標籤之間反而可能更不穩定,這提示模型規模與任務設計之間的匹配度比單純的參數量更重要。
在局限性方面,團隊坦承了幾個問題。ReMMDBench的500個樣本相對於真實的社交媒體規模來說偏小,儘管它為受控分析提供了足夠的深度。五種語言的覆蓋未能觸及所有語言社區、區域謠言生態系統和低資源語言。數據集中的部分生成或編輯圖片可能反映了構建時所使用工具的特定痕跡,未來版本應引入更廣泛的生成器、編輯器和真實媒體來源。ReMMD-Agent依賴外部檢索,其結果會隨著搜尋引擎覆蓋範圍、區域可訪問性和網路證據的時序變化而波動。L3判決理由目前只進行了定性審核,自動化的理由忠實性評估還是未來工作。
研究團隊還指出了幾個值得繼續探索的方向:理由標註應當明確識別主張、證據和圖文關係;多語言場景需要本地實體和資訊來源的錨定,而不只是翻譯;未來系統應改善具備來源感知能力的記憶庫、時序感知的檢索、多語言實體鏈接,以及能分別評估視覺編輯、判決準確性和誤導機制的獨立指標體系。
歸根結底,ReMMD這套系統重新定義了我們應該如何要求AI來辨別網路謠言。過去,我們覺得能判斷"真"或"假"就已經很了不起了;現在,研究團隊證明了在有組織的證據管理支撐下,AI完全可以做到更接近人類專業事實核查員的那種細膩判斷——區分"完全捏造"、"事實被扭曲"、"真假混合"、"大部分失實"和"完全屬實",同時還能指出哪張圖被PS了、哪段文字用了真實圖片卻配到了錯誤的事件上。這對於網路資訊生態的維護,是一項實實在在的技術進步。
對於普通讀者而言,這項研究最直接的含義是:當你看到一條配圖帖子在社交媒體上瘋傳時,僅僅檢查"這張圖是不是PS的"遠遠不夠——你還需要想想,就算圖片是真的,它是否真的在說這條帖子想讓你相信的那件事。這套複雜的判斷,正是AI需要學會的,也是人類讀者值得培養的批判性思維習慣。有興趣深入了解這項研究全貌的讀者,可以通過arXiv:2606.24112查閱完整論文。
---
Q&A
Q1:ReMMDBench與以前的假新聞測試數據集有什麼本質區別?
A:ReMMDBench最核心的區別在於三點:它採用五分類真實性標籤(而不是二分類的真假),每個樣本平均包含5.51張圖片(而不是單張配圖),並且覆蓋了英中德日法五種語言的多語言場景。此外,每個樣本還配有八種失真類型的多標籤標註和自然語言判決理由,更接近現實中事實核查員面對的複雜情況。
Q2:ReMMD-Agent為什麼比T?-Agent便宜那麼多?
A:T?-Agent採用了蒙特卡洛樹搜索來擴展推理路徑,這導致大量重複的工具調用,成本是ReMMD-Agent的近5倍。ReMMD-Agent通過持久性記憶庫復用證據,為一個主張檢索到的資訊可以直接服務於相關的其他主張,避免了重複檢索。更關鍵的是,T?-Agent更高的成本並沒有換來更高的準確率——ReMMD-Agent在L1五分類準確率上仍然明顯更優。
Q3:為什麼Qwen3.5-9B在ReMMD-Agent框架下的表現有時超過Qwen3.6-27B?
A:當記憶庫和原子化解析已經提供了充分的證據結構之後,骨幹模型主要需要做的是遵循判斷模式、校準部分證據,避免過度解讀不確定性。更大的模型在"大部分屬實"與"真假混合"這類相鄰的灰色地帶標籤之間有時反而更不穩定,導致出現規模更大反而表現更差的現象。這說明模型規模與具體任務設計之間的匹配度,比單純的參數量更重要。






