南京大學與阿里巴巴聯手破解「配圖難題」：當AI研究報告學會真正看懂圖片

這項由南京大學與阿里巴巴集團聯合開展的研究，於2026年6月1日以預印本形式發布，論文編號為arXiv:2606.02320v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

一份好的研究報告，光有文字還遠遠不夠

考慮這樣一個場景：你是一家公司的決策者，需要了解某個新興市場的發展趨勢。助理給你遞來一份厚厚的報告——文字寫得頭頭是道，引經據典，每一個數據點都有來源。但整份報告裡，要麼沒有圖表，要麼有幾張圖卻和正文內容風馬牛不相及，甚至有些數字對不上。你會信任這份報告嗎？

這正是當前人工智慧"深度研究"系統所面臨的核心困境。所謂深度研究系統，就是那些能夠自動瀏覽網路、收集資訊、並最終寫出一份完整研究報告的AI助手——比如各大科技公司推出的"Deep Research"功能。這類系統近年來發展迅猛，在撰寫長篇文字報告方面已經頗有建樹，但它們有一個共同的軟肋：對於視覺內容的處理，往往流於表面甚至完全缺失。

研究團隊將這一現象描述為"裝飾性視覺"與"證據性視覺"之間的根本差異。前者是把圖片當作報告的美化點綴，插進去好看；後者才是真正意義上把圖表作為論據，讓每一張圖都在支撐某個具體的分析結論。目前大多數AI系統做的是前者，而真實的專業報告需要的是後者。

這項研究的意義在於，它不僅指出了這個問題，還從頭到尾構建了一套解決方案——包括一個專門用來測試"圖文混排報告生成能力"的評測基準，一個專門設計來處理這類任務的多智能體框架，以及一套評分體系。整個體系被命名為TVIR，取自"Text-Visual Interleaved Report Generation"（文本與視覺交織的報告生成）的首字母。

二、先立規矩：TVIR-BENCH是如何"出題"的

要評測AI系統的能力，首先得有一套公平、合理的考題。TVIR-BENCH就是這套考題，它包含100道精心設計的多模態深度研究任務，覆蓋十個不同領域——從科技與智能、金融與商業、健康與醫學，到歷史與社會、文學與藝術、旅遊與娛樂，可謂包羅萬象。

贊助商廣告

這100道題的設計遵循了五條核心原則，理解這些原則，才能明白為什麼這套基準比以前的同類測試更"接地氣"。

第一條原則叫做"角色驅動"。每道題都有一個具體的身份設定：不是泛泛的"某人想了解某話題"，而是"某家生物製藥公司的研發主管需要評估一個新療法的臨床和商業前景"。這樣的設定確保任務有真實的使用場景，而不是空洞的學術問答。

第二條原則叫做"需求導向"。題目里會明確列出需要回答哪些具體問題，避免那種"請談談你對AI的看法"式的開放題。每個子問題都要有明確的資訊目標。

第三條原則叫做"深度研究"。題目不能用簡單的資訊檢索來搞定，必須要求模型從多個來源綜合證據、進行因果推理、比較不同觀點，最後給出結論或建議。

第四條原則叫做"前沿聚焦"。題目要關注近兩三年內出現的新發展、新挑戰，鼓勵模型去使用最新的數據和資料，而不是依賴陳舊的背景知識。

第五條原則，也是最關鍵的一條，叫做"多模態整合"。每道題都明確要求生成視覺內容，而且這些內容必須真正服務於分析目標。有趣的是，題目通常不會直接說"請檢索一張圖片"或"請生成一個圖表"，而是用更自然的方式嵌入這些需求，比如"請繪製一個雷達圖來比較這幾個方案"或"請附上這個系統的架構圖"——前者暗示需要生成圖表，後者暗示需要檢索圖片。

100道題按難度分為三檔：低難度（約130個英文單詞，1至3個多模態需求）、中難度（約260個英文單詞，2至4個多模態需求）、高難度（約390個英文單詞，3至5個多模態需求）。其中50道用中文出題，50道用英文出題，語言分布均衡。

這些題目的誕生過程也頗為嚴謹。首先由領域專家提出核心話題，保證話題的真實性和前沿性；接著用Grok-4.1-Thinking模型草擬題目；然後由三位領域專家對草稿進行審核，從設計合規性、事實準確性、邏輯連貫性和多模態可行性四個維度逐一把關；最後，每道題還會配套一份"評估清單"——把題目拆解成一系列可以逐條核查的具體要求，方便後續評分使用。

贊助商廣告

三、怎麼評分：一套同時審查文字和圖片的雙軌評估體系

有了題目，還需要一把公平的評分尺。TVIR的評估體系分為兩條軌道並行運作：文本評估（Textual Assessment，簡稱TA）和視覺評估（Visual Assessment，簡稱VA）。這兩條軌道各包含若干細分指標，最終匯總成一個綜合得分。

文本評估軌道包含五項指標。第一項是"引用支撐度"，具體檢查報告裡每一個事實陳述是否有對應的參考來源支持——評分系統會把報告裡引用的每條文獻實際抓取下來，逐一核查，給出"完全支撐"、"部分支撐"或"不支撐"三檔評分。第二項是"指令對齊度"，對照每道題配套的評估清單，檢查報告是否完整、具體地回答了所有要求。第三項是"寫作質量"，從連貫性與組織結構、清晰度與可讀性、簡潔度、以及風格與引用格式一致性四個維度評分。第四項是"分析深度與廣度"，評估報告是否做到了因果推理、持續分析、批判性評估、前瞻性洞察和主題覆蓋的廣度。第五項是"事實與邏輯一致性"，專門檢測報告內部是否存在自相矛盾的陳述。

視覺評估軌道同樣包含五項指標。第一項是"多模態構圖"，從報告整體層面評估圖表元素的布局、數量、多樣性和豐富度是否合理。第二項是"圖片質量"，通過電腦視覺技術測量解析度、長寬比、清晰度、對比度，並對重複圖片施加扣分；對於代碼生成的圖表，則用AI逐一檢查布局完整性、可讀性和簡潔性。第三項是"圖注質量"，評估每張圖的說明文字是否準確描述了圖的內容、提供了足夠的解讀資訊、措辭是否清晰易讀。第四項是"圖文整合度"，評估每張圖與其周圍文字的關聯程度，是否被有效融入敘述流程，是否提供了純文字無法有效傳達的資訊。第五項是"圖表與來源一致性"，專門核查代碼生成的圖表中的數據是否與其引用的原始來源一致，有無矛盾之處。

在技術實現層面，評估流程有一個精妙的預處理步驟：在評分之前，系統會先用大語言模型把報告裡的參考文獻條目、事實-引用配對關係、以及所有圖表元素（連同圖注、圖片內容和周圍上下文）都提取出來，結構化儲存，再分別送入對應的評分模組。之所以要做這個預處理，是因為當前的大語言模型在處理特別長的圖文混排內容時容易產生幻覺，拆分處理更為可靠。

贊助商廣告

四、解題工具：TVIR-AGENT是如何工作的

評測基準有了，接下來研究團隊還構建了一個參考答案——一套叫做TVIR-AGENT的多智能體框架，用來實際生成這些文圖並茂的研究報告。這個框架分四個階段串聯工作，可以用一個建築項目來理解整個流程。

第一階段叫做"研究驅動的規劃"（Research-Grounded Planning），負責的是"Planner"（規劃者）這個模組。拿到用戶的研究任務之後，規劃者不會立刻動筆，而是先去網路上搜索和瀏覽相關資料，然後把收集到的資訊整理成一份結構化的提綱。這份提綱里，每一個章節單元都不只有標題和摘要，還明確列出了"視覺需求"——這一節需要什麼樣的圖，大概是什麼內容；以及"研究筆記"——從哪個來源獲取了什麼關鍵發現，來源網址是什麼。這些研究筆記就像建築項目里的材料清單，為後續所有模組提供了可追溯的事實基礎。

第二階段叫做"視覺資產實例化"（Visual Asset Instantiation），由兩個專門的子模組分工合作。"圖片搜索者"（Image Searcher）負責處理那些需要從網路檢索的圖片——比如模型架構圖、歷史人物照片、地標建築圖片等。它會通過谷歌圖片搜索獲取候選圖片，用規則過濾掉低質量結果，然後藉助視覺問答工具核實候選圖片是否真的符合需求，最後選出最合適的一張，同時保留來源網址。"圖表生成器"（Chart Generator）則負責那些需要根據數據自行繪製的圖表——比如某個指標的歷年趨勢折線圖、多個方案的雷達對比圖等。它會先搜索相關數據，核驗數據來源的真實性和不同來源之間的一致性，然後生成Python繪圖代碼，在沙箱環境裡執行，最終輸出圖表文件，同時保留數據來源網址。經過這一階段，原先只是計劃中的"視覺需求"，都變成了有實物、有來源的"視覺資產"。

第三階段叫做"上下文感知的順序寫作"（Context-Aware Sequential Writing），由"Writer"（寫作者）模組負責。它按照章節順序逐一生成報告內容，但有一個關鍵設計：每寫完一節，就把該節的標題、摘要和小節結構更新到一個"全局上下文"里；寫下一節時，寫作者會參考這個全局上下文，確保前後內容不重複、邏輯連貫。寫作過程中，寫作者會根據圖表的描述資訊決定在哪個位置插入對應的視覺資產，用Markdown格式將文字和圖片自然交織在一起。如果發現規劃者留下的研究筆記資訊不夠充分，寫作者還會主動調用搜索工具補充。

贊助商廣告

第四階段叫做"全局索引潤色"（Global Index Polishing），由"Polisher"（潤色者）模組負責。在整篇報告生成完畢後，潤色者會做一次全面的"收尾整理"：刪除被引用了但實際在正文中沒有出現引用標記的參考文獻；對全文的參考文獻按網址和內容去重合併，重新統一編號；同樣地，對所有圖片進行全局重新編號，並更新正文中相應的圖片引用標記。這一步確保了報告在引用和圖片標註上的整潔一致，避免了編號混亂或引用懸空的問題。

五、九強同台：實驗結果說明了什麼

研究團隊用TVIR-BENCH對九個系統進行了橫向比較，其中六個是商業閉源系統，三個是用不同大語言模型驅動的TVIR-AGENT變體。

六個商業系統分別是：谷歌的Gemini-3-Pro Deep Research（純文字報告系統）、xAI的Grok-4.1-Thinking DeepSearch、Anthropic的Claude-4.5-Sonnet w/Search、Perplexity Deep Research、Genspark Deep Research，以及Manus-1.6。三個TVIR-AGENT變體分別以Qwen3-Max、GLM-4.7和Claude-4.5-Sonnet作為底層大語言模型。

總體成績上，三個TVIR-AGENT變體包攬了前三名。其中以Claude-4.5-Sonnet為底層的TVIR-AGENT綜合得分最高（74.44），其次是Qwen3-Max版（73.53）和GLM-4.7版（72.62）。在商業系統中，Manus-1.6表現最強，綜合得分達到69.73。

細看各個維度，不同系統各有側重。GLM-4.7版的TVIR-AGENT在文本評估方面得分最高（71.64），顯示出較強的文字綜合能力；Claude-4.5-Sonnet版則在視覺評估方面以78.76的得分遙遙領先，在圖文對齊和跨模態一致性上優勢明顯。值得特別說明的是，Gemini-3-Pro Deep Research因為只生成純文字報告，視覺評估和綜合得分無從計算，這一結果本身就印證了多模態原生支持的重要性。

引用支撐度這一項最能體現各系統的差異。GLM-4.7版的TVIR-AGENT在這一項得到了68.64分，比表現最好的商業系統Claude-4.5-Sonnet w/Search高出整整21分——後者只有47.53分。這意味著TVIR-AGENT在事實陳述的來源可追溯性上，比商業對手強了將近一半。在圖注質量方面，Claude-4.5-Sonnet版的TVIR-AGENT得到74.49分，比Manus-1.6高出8.35分。

贊助商廣告

研究團隊還分析了不同任務難度對系統表現的影響，發現了一個有規律的現象：隨著任務難度增加，指令對齊度得分普遍下滑，而分析深度與廣度得分反而有所提升。這說明更複雜的任務對多模態協調和指令跟蹤提出了更高要求，系統難以面面俱到地滿足所有細節要求；但正是這種複雜性，似乎也激發了系統進行更全面、更深入探索的傾向。

跨語言表現方面，所有系統在中文任務上的文本評估得分普遍略高於英文任務，不過差距不大，系統排名也基本穩定，說明TVIR-AGENT具備較強的跨語言泛化能力。研究團隊特別提醒，中英文兩組題目並不是互相翻譯的版本，而是各自根據語言文化背景獨立設計的，因此應該把它們理解為平行的基準切片，而不是嚴格對等的測試對。

六、拆件測試：每個模組的貢獻有多大

為了弄清楚TVIR-AGENT的哪些部分最關鍵，研究團隊做了一組消融實驗——就像逐一拆掉一台機器的零件，看少了哪個零件影響最大。

實驗以Claude-4.5-Sonnet版的TVIR-AGENT為基準，分別去掉三個組件：研究筆記、圖片搜索模組和圖表生成模組，看每次去掉一個之後整體表現的變化。

結論是清晰的：去掉任何一個組件都會導致性能下降，但影響程度差異顯著。去掉圖表生成模組的代價最為慘重，視覺評估得分從78.62驟降至60.91，綜合得分從73.92跌至63.84——這足以說明，自主生成有數據支撐、來源可查的圖表，是整個視覺合成能力的核心。去掉圖片搜索模組的影響也相當明顯，各項指標都有清晰的下滑。相比之下，去掉研究筆記的影響最小，但依然存在可觀測的負向效果。

七、工具使用分析：檢索和畫圖，哪個更划算

研究團隊還仔細分析了三個TVIR-AGENT變體在運行過程中的工具調用模式，發現了一個頗有啟發性的權衡關係。

GLM-4.7版在規劃階段和圖表生成階段調用搜索和網頁抓取工具的次數最多，檢索資訊最為充分，其"平均有效引用數"（衡量每道題中有來源支撐的陳述數量的指標）達到了最高的102.41條。然而，在有限的智能體操作預算下，過度的檢索活動占用了大量資源，導致圖表實際生成率只有38.45%——雖然平均每道題計劃生成8.66張圖表，但實際只產出了3.33張。

贊助商廣告

Claude-4.5-Sonnet版採取了更均衡的策略，有效引用數保持在86.14的較高水平，同時圖表完成率高達94.61%，是三個變體中最高的。這個對比說明，系統表現不僅取決於底層模型的能力，還深刻受到工具調用策略的影響——如何在資訊檢索和內容生成之間分配有限的操作次數，是一個需要認真權衡的問題。

八、評估體系本身可靠嗎

一套評估體系的價值，取決於它自身的可靠性。研究團隊為此做了多項驗證。

首先是資訊提取的準確性驗證。研究團隊人工標註了90份報告（每個系統10份），為參考文獻提取、事實-引用配對提取和圖表元素提取建立了人工標註基準。對比結果顯示，AI提取系統在三項任務上的精確率、召回率和F1分數均接近完美，參考文獻提取三項均達100%，事實-引用配對精確率99.55%、召回率99.20%，圖表元素提取同樣達到100%。此外，在整個評測集的900份報告中，通過Serper API實際成功抓取參考來源網頁的成功率高達96.53%。

然後是與人類判斷的一致性驗證。研究團隊招募了20名具有碩士學位和相關領域專業知識的標註員，對8個系統在100道題上的報告進行獨立評分（每份報告由3名標註員評分），計算了自動評分與人工評分之間的一致性。結果顯示，在系統排名的皮爾遜相關係數方面，文本評估維度達到99.12，視覺評估達到99.42，綜合得分達到99.73——這幾乎是完美的線性相關，說明自動評分系統對系統排名的判斷與人類專家高度一致。

最後是跨大語言模型評分者的魯棒性驗證。研究團隊用另一個模型Gemini-2.5-Pro作為評分者，與主體評分模型GPT-5.2的結果進行對比，發現兩者在文本、視覺和綜合三個維度上的皮爾遜相關係數均超過99，排名相關性和成對比較一致性也都很高。這說明評估結論對於評分所用的具體模型不敏感，具有良好的穩健性。

---

歸根結底，這項研究揭示了一個被長期忽視的核心矛盾：我們對AI研究助手的評價體系，長期只盯著文字，卻對圖表的質量和可信度睜一隻眼閉一隻眼。TVIR的工作價值在於，它從問題定義、解決方案、到評估體系，提供了一個完整的閉環回應。

贊助商廣告

對於普通用戶來說，這項研究意味著未來的AI研究工具在生成包含圖表和圖片的報告時，將會有更嚴格的質量標準——不只是"有沒有圖"，而是"圖對不對"、"圖和文章說的是不是一回事"、"數據來源追不追得上"。這些改變雖然發生在技術層面，但最終會直接影響到每一個依賴這類工具做決策的人所能獲得的資訊質量。

當然，研究團隊也坦承，目前所有系統（包括TVIR-AGENT自身）在來源可追溯性方面仍存在不小的挑戰，這是整個領域共同面對的未解難題。另一個值得關注的有趣發現是，任務越複雜，系統在細節指令執行上越容易顧此失彼，但分析視野反而會變得更開闊——這種微妙的權衡關係，或許正是未來優化方向上最值得深挖的課題。

有興趣深入了解技術細節的讀者，可以通過arXiv論文編號2606.02320查詢完整論文，該論文的項目主頁地址為nju-link.github.io/TVIR。

---

**Q&A**

Q1：TVIR-BENCH和現有的深度研究基準有什麼區別？

A：現有的深度研究基準大多只評估文字報告的質量，對圖表和圖片要麼完全不考察，要麼只做粗粒度的評估。TVIR-BENCH的區別在於，它要求報告中的視覺內容必須真正服務於具體的分析目標，並配套了細粒度的視覺評估指標，包括圖注質量、圖文整合度和圖表與來源一致性，這些在其他基準中基本缺失。

Q2：TVIR-AGENT生成的圖表數據是從哪裡來的，會不會有錯？

A：圖表數據由圖表生成器通過搜索和網頁抓取工具從公開來源檢索獲取，系統會對數據來源的真實性和不同來源之間的一致性進行核驗，同時保留原始數據來源網址供追溯。專門設計的"圖表與來源一致性"指標也會事後核查圖表內容和來源之間是否存在矛盾。不過研究團隊也承認，來源可追溯性仍是當前所有系統（包括TVIR-AGENT）的共同弱點。

Q3：為什麼GLM-4.7版TVIR-AGENT的圖表完成率只有38%，而文字質量卻是最好的？

贊助商廣告

A：這是檢索和生成之間的資源權衡問題。GLM-4.7版在規劃和圖表生成階段調用搜索工具的次數最多，檢索到的資訊非常充分，但在有限的操作預算下，過多的檢索活動消耗了本來可以用於實際畫圖的資源，導致很多計劃中的圖表沒能最終生成。這說明系統表現不只取決於底層模型能力，工具調用策略的合理分配同樣至關重要。