當AI科學家學會"看圖說話"：雷克里森理工學院打造科學論文配圖智能檢索庫

這項由雷克里森理工學院（Rensselaer Polytechnic Institute）聯合芝加哥大學共同開展的研究，以預印本形式發布於arXiv平台，編號為arXiv:2604.20857v1，發布時間為2026年2月28日，研究方向歸屬於資訊檢索領域（cs.IR）。感興趣的讀者可通過該編號在arXiv平台檢索到完整論文。

贊助商廣告

科研圈裡流傳著一句話：一張好的"引導圖"，能讓讀者在翻開論文的第一秒就明白這篇文章在做什麼。這種出現在論文首頁的示意圖，有個專屬的名字叫"teaser figure"（引言圖），它不是數據圖表，不是截圖，而是一張精心設計的工作流程示意圖——把整個研究方法的邏輯濃縮進一幅畫面里，讓人一眼就能抓住核心。

然而，當人工智慧開始嘗試自動寫論文、自動跑實驗、自動生成報告時，這張小小的"引言圖"卻成了整個自動化流程中最難攻克的一關。大多數"AI科學家"系統要麼直接跳過這個環節，要麼生成一張看起來像PPT模板的平庸圖片。說白了，機器知道怎麼寫，但不知道怎麼"畫"。

正是為了填補這個缺口，來自雷克里森理工學院和芝加哥大學的研究團隊構建了一個叫做 **DiagramBank** 的大規模數據集。這個數據集從頂級人工智慧和機器學習學術會議的論文中，精心篩選出89,422張示意圖，並為每張圖配上來自原論文的豐富文字資訊，從而讓機器在生成新圖時，能夠參考"前輩"們是怎麼做的。

---

一、為什麼一張圖這麼難？

要理解這項研究解決的問題，先得明白"論文示意圖"和"數據圖"的區別。

數據圖很好理解——你跑完實驗，有了一堆數字，用Excel或Python畫個折線圖、柱狀圖，直接輸出。這個過程高度程式化，有固定的模板可以套用，機器也早就會做了。

但論文示意圖完全是另一回事。以一篇提出新型深度學習框架的論文為例，它的引言圖需要把"數據輸入模組、特徵提取模組、注意力機制、輸出解碼器"這些抽象概念，用方塊、箭頭、圖標和顏色編碼組織成一個清晰的視覺敘事——讀者看一眼就能明白資訊是怎麼流動的，哪些是核心創新點，整體架構是什麼樣的。這需要對論文內容的深刻理解，還需要對"視覺審美"和"學術圖表規範"的敏感度。

贊助商廣告

簡而言之，數據圖是"把數字變成圖"，示意圖是"把思想變成圖"。前者是技術活，後者是藝術活。

現有的文字轉圖像模型（比如那些能根據描述生成風景畫的AI）在這裡幾乎完全失效。原因在於，示意圖里充滿了密集的、語義緊密關聯的元素——多個模組之間的箭頭方向不能錯，文字標籤必須清晰可讀，組件之間的空間關係有嚴格的邏輯。這些約束條件對於普通圖像生成模型來說幾乎是災難性的挑戰。就像讓一個只會畫山水畫的畫家去繪製精密的電路圖——領域完全不同。

更關鍵的是，即使有了更好的生成模型，它也需要"見過"足夠多的高質量示意圖，才能學會這個領域的視覺語言——什麼樣的顏色搭配是學術風格、什麼樣的布局讓讀者看起來舒服、什麼樣的圖標能準確傳達概念。這就是DiagramBank誕生的核心動機：建立一個高質量的"示意圖參考庫"，讓機器在生成新圖時可以借鑑和參考。

---

二、從海量論文中"挖"出圖

構建DiagramBank的過程，像是在一個巨大的圖書館裡，用一台智能篩選機器，把所有真正有價值的"工作流示意圖"從幾十萬個文件里找出來。

數據來源是OpenReview平台，這是一個面向學術界的論文評審和發布系統，匯聚了機器學習領域四個頂級學術會議和期刊的論文：ICLR（國際學習表徵會議）、ICML（國際機器學習會議）、NeurIPS（神經資訊處理系統會議）、以及TMLR（機器學習研究彙刊）。時間跨度從2017年到2025年。研究團隊通過OpenReview的編程接口，批量下載了這些論文的PDF文件及其元數據。

接下來是從PDF中提取圖片。研究團隊使用了一個專門針對學術論文設計的工具PDFFigures 2.0，它能夠識別論文中的圖和表，並把圖片單獨提取出來，同時附帶圖片的說明文字（圖注）。表格被過濾掉，只保留視覺插圖。

但僅僅提取圖注還不夠。一張示意圖的真正價值，往往體現在論文正文裡引用它的那幾段話——作者在那裡解釋了這張圖的每個部分是什麼意思、為什麼這樣設計。為了捕捉這些資訊，研究團隊使用了另一個工具PyMuPDF，逐段掃描論文文本，找出所有明確提到某張圖（比如"如圖1所示"）的段落，把這些段落作為"圖的使用語境"保存下來。這個欄位在數據集裡叫做 `figure_context`，是DiagramBank區別於其他同類數據集的重要特色。

贊助商廣告

完成圖片和文字的提取後，最大的挑戰來了：如何從這幾十萬張圖裡，把真正的"示意圖"挑出來，排除掉折線圖、柱狀圖、散點圖、照片等其他類型？

研究團隊的解決方案是使用CLIP模型——一種由OpenAI提出的、能夠同時理解圖像和文字的神經網路。具體來說，他們使用的是OpenCLIP中的ViT-B-32版本，讓它判斷每張圖屬於以下四類中的哪一類：示意圖（diagram）、數據圖（plot）、照片（photo）或其他（other）。

CLIP的工作原理可以這樣理解：給這個模型看一張圖，同時給它四個文字描述（"這是一張工作流程圖"、"這是一張折線圖"……），模型會計算這張圖和每個描述的"相似度分數"，選擇分數最高的那個作為分類結果。這種做法的好處是不需要人工標註訓練數據，直接用模型的"常識性"理解能力來分類。

為了保證質量，研究團隊通過人工檢查，將置信度閾值設定在0.85——也就是說，只有當CLIP模型以85%以上的把握認定某張圖是示意圖時，這張圖才會被納入數據集。經過這一系列篩選，最終保留下來的示意圖有89,422張，占全部提取圖片的19.8%。

---

三、每張圖背後的"檔案袋"

DiagramBank最有價值的地方，不只是圖片本身，而是每張圖配套的資訊層次之豐富。

每一條數據記錄都包含兩個維度的資訊。在論文層面，記錄了論文標題、摘要、作者列表、關鍵詞、主題領域、TL;DR簡介（一句話總結）、審稿決定、審稿人評分、論文鏈接，以及完整的BibTeX引用格式——後者專門用於在使用這張圖時給原論文正確署名。在圖片層面，記錄了圖片的唯一編號、圖片文件路徑、圖注文字、從正文提取的引用段落，以及CLIP分類的標籤和置信度分數。

這種設計思路叫做"去規範化"（denormalized）——雖然同一篇論文的資訊會在多條記錄里重複出現（論文有幾張圖就重複幾次），但這樣做的好處是每一條記錄都是"自包含"的，拿出來就能獨立使用，不需要再去查其他表格。對於檢索系統來說，這種設計大大降低了使用難度。

贊助商廣告

值得一提的是，數據集還專門保留了CLIP置信度分數（`clip_confidence`），這意味著使用者可以根據自己的需求靈活調整篩選標準。如果做的是精度要求很高的生成任務，可以把閾值調高一點，讓進入使用範圍的圖質量更純粹；如果做的是檢索覆蓋率要求高的任務，可以適當放寬閾值，納入更多候選。

---

四、數字里藏著的規律

在數據統計層面，這項研究呈現出一些頗為有趣的規律，對於理解機器學習學界的"圖文生態"很有參考價值。

從整體規模來看，研究團隊從OpenReview平台提取了共計452,339張非表格圖片，其中數據圖（折線圖、柱狀圖等）占了65.2%的絕對多數，示意圖占19.8%，照片占11.5%，其他類型占3.6%。這個比例在四個會議之間相當穩定，示意圖大約占每個會議圖片總量的18%到21%。這說明，無論在哪個頂級機器學習會議上，示意圖都是一種穩定存在、不可或缺的視覺表達形式。

從置信度來看，數據圖的平均CLIP置信度最高，而示意圖的置信度稍低。這背後的原因很直觀：折線圖、柱狀圖有非常固定的外觀特徵，模型很容易識別；但示意圖的外觀千變萬化——有的像流程圖，有的像思維導圖，有的像系統架構圖——這種多樣性讓模型的判斷更加不確定。這也是研究團隊選擇把置信度分數公開發布的原因之一，方便使用者針對不同任務做出調整。

從時間維度看，2023年到2025年間提取的圖片數量出現了爆發式增長，這與近年來機器學習領域論文數量的急速擴張高度一致。換句話說，DiagramBank在時間軸上越靠近當下，數據越密集，覆蓋面越廣。

從圖注長度的變化趨勢來看，平均圖注字數從2017年的約40個單詞，緩慢下降到2025年的約35個單詞。研究團隊認為，這可能反映了兩種趨勢的疊加：一方面，作者們越來越傾向於寫更簡潔的圖注；另一方面，近年論文中補充圖（supplementary figures）的比例上升，這類圖通常配有更短的說明。

贊助商廣告

從各會議的"圖密度"來看，TMLR（機器學習研究彙刊）平均每篇論文包含9.22張圖，圖注平均長度也最長（45.3個單詞），視覺內容最為豐富；而ICLR平均每篇只有4.79張圖，圖注也最短（36.1個單詞）。這種差異對檢索系統的設計有實際影響——在圖片密度高的來源里，同一篇論文可能有多張候選示意圖，系統需要能夠精確區分"哪張圖最符合需求"，而不是籠統地定位到論文層面。

在高置信度子集（置信度大於0.85）中，ICLR貢獻了12,550張來自已接收論文的示意圖，ICML貢獻了8,005張，NeurIPS貢獻了13,533張，TMLR貢獻了3,849張，四個來源合計37,937張。如果不設置置信度門檻，則總量增加到57,808張（僅統計已接收論文）。

---

五、三層檢索：從"大概是什麼領域"到"具體長什麼樣"

有了這個資料庫，下一步是讓它真正"好用"。研究團隊配套開發了一套叫做DiagramBank-RAG的檢索系統，RAG是"檢索增強生成"（Retrieval-Augmented Generation）的縮寫——簡單來說，就是在讓AI生成內容之前，先從資料庫里找幾個相關的參考案例給它看，讓它"有樣學樣"，而不是憑空想像。

檢索的核心挑戰在於，如果只用一個維度來搜索，很容易出問題。舉個例子：假如你的論文是關於"用強化學習優化推薦系統"的，你想找一張示意圖做參考，但你搜索"框架概覽"這個關鍵詞，搜出來的可能是生物資訊學的流程圖、自動駕駛的系統架構圖，甚至是某個企業管理框架的圖——這些圖從視覺風格上可能完全不適合你的論文。這個問題叫做"領域漂移"（domain drift）。

為了解決這個問題，研究團隊設計了一套三級漏斗式檢索流程，像在三個不同精度的濾網上依次過濾。

第一層用論文標題做粗粒度過濾。系統把用戶輸入的論文標題和資料庫中所有論文標題的"語義向量"進行比較，找出最相關的幾百到幾千篇論文。這一步的目的是把檢索範圍縮小到大致相關的領域，排除掉絕大多數不相干的論文。

贊助商廣告

第二層用論文摘要做中粒度精化。在第一層篩出的候選論文中，再用用戶輸入的摘要內容做進一步比對，找出研究方法和問題背景最相似的一批論文，通常保留約一百篇。這一步確保候選論文不只是話題相關，而是在"研究思路"層面也有相似之處。

第三層用圖注做細粒度匹配。在第二層篩出的論文範圍內，把用戶期望的圖注描述（比如"展示三個模組依次處理輸入數據的流程圖"）與資料庫中所有候選圖的圖注做比對，最終返回最相關的幾張圖。

在第二和第三層，研究團隊還引入了一個叫"深度檢索"（Deep Fetch）的技巧。這是因為在有限制條件的檢索中，系統容易"漏網"——它先從全庫里撈出一個比實際需要大很多的候選池，再在這個大池子裡做過濾，最終保留最優的結果。這樣做能在保證精度的同時，避免因過早縮小範圍而錯過好的候選。

整個檢索過程使用OpenAI的文本嵌入模型（text-embedding-3系列）來生成語義向量，用FAISS（一個高效的向量檢索庫）來做近似最近鄰搜索。三個檢索索引（標題索引、摘要索引、圖注索引）在系統啟動時一次性加載，之後每次檢索都可以復用，不需要重複構建。

---

六、真實案例：有參考和沒參考，差距有多大？

研究團隊通過一個具體的案例，展示了這套檢索系統的實際效果。他們選擇了一篇名為"Code2MCP"的論文作為測試對象——這篇論文提出了一種將代碼倉庫自動轉化為標準化AI工具服務的方法。

在沒有任何參考的情況下，直接讓圖像生成模型根據文字描述生成引言圖，結果是一張視覺風格極其"俗氣"的圖：高對比度的深藍色、亮橙色和綠色組合，線條粗獷，布局簡單線性。技術內容倒是表達出來了——"GitHub倉庫"到"MCP 當AI科學家學會看圖說話雷克里森理工學院打造科學論文配圖智能檢索庫工具"的流程是對的——但整體感覺像是企業宣傳PPT，而不是學術論文配圖。更麻煩的是，為了描述視覺效果，大量的提示詞token被浪費在"背景用淺藍色"、"箭頭要有一定弧度"這類描述上，真正需要傳遞的內容反而被擠壓。

贊助商廣告

接入DiagramBank-RAG後，系統檢索出三張高度相關的參考圖。其中最有價值的一張來自一篇關於"代碼輔助思維鏈推理"的論文，它的風格特點是：柔和的粉彩色系（淺灰、淺藍、淺綠）、圓角矩形的模組容器、以及一個中心環形工作流的設計。

以這幾張圖作為視覺參考，生成的新圖在視覺上發生了明顯轉變。顏色從刺眼的高對比度變成了專業的粉彩風格；布局從簡單的線性排列變成了更有層次感的嵌套結構，中間的"Code2MCP處理流程"被設計成了環形多智能體工作流，符合參考圖中的循環結構設計思路；圖標從通用的矩形變成了有語義的圖形——文件夾圖標代表代碼倉庫，齒輪圖標代表服務處理。整體感覺更接近真正的高質量學術論文配圖，而不是模板化的示意圖。

這個對比說明，檢索到的視覺參考不僅改變了生成圖的美觀程度，更重要的是改變了生成模型對"學術示意圖應該長什麼樣"的基本判斷。參考圖充當了一種隱性的風格指導，把生成模型從"通用圖像生成模式"拉入了"學術配圖生成模式"。

---

七、這套系統還有哪些不足？

研究團隊對自身工作的局限性持有相當坦誠的態度，這些局限值得認真對待。

首先是數據本身的噪聲問題。整個收集和篩選流程完全依賴自動化工具，沒有人工對每一張圖進行逐一審核。這意味著CLIP分類器可能會把一些不典型的數據圖誤判為示意圖，也可能遺漏一些風格特別的示意圖。提取的圖注可能不完整，從正文提取的引用段落也可能遺漏某些隱式引用。

其次是檢索質量的不穩定性。在某些情況下，檢索系統可能返回在視覺風格或內容邏輯上並不匹配的參考圖，而這種錯誤會直接傳遞給下游的生成模型，導致最終生成結果出現偏差。

第三是圖像生成模型本身的能力瓶頸。即使有了高質量的參考圖，現有的圖像生成模型在處理"密集箭頭拓撲"和"可讀文字標籤"這兩個方面仍然表現不佳。學術示意圖里往往有大量箭頭交叉、層疊，文字標籤也必須精確可讀——這些需求對於主流圖像生成模型來說依然是很大的挑戰，生成出來的圖通常還需要人工二次編輯才能達到發表標準。

贊助商廣告

第四是數據覆蓋面的限制。DiagramBank的數據來源嚴格限定在OpenReview平台上可公開訪問的論文，這本身就帶來了兩種偏差：一方面，只有在這四個會議和期刊上發表的論文才被涵蓋，其他領域（醫學、物理、化學等）的示意圖完全缺失；另一方面，開放獲取的政策不同，可能導致某些類型的論文系統性地缺少。

研究團隊指出，未來值得探索的方向包括：開發更強的"重排序器"來提升檢索精度（即在初步檢索後，再用更精細的模型對候選結果重新排序）；以及引入明確的中間表示形式（比如先生成布局程序或向量圖規格），讓圖像生成過程更可控、更可編輯。

---

說到底，DiagramBank在做的事情，可以用一個很直白的比喻來概括：給"會寫論文的AI"配上一本"看圖說話"的參考手冊。

科學研究的自動化是一個宏大的目標，而在這條路上，"會寫"只是第一步，"會畫"才是讓作品真正完整的最後一塊拼圖。一張好的引言圖，能讓讀者在打開論文的第一眼就知道"這篇文章值得我花時間讀"；而一張糟糕的圖，則可能讓一項出色的研究被直接滑過。

DiagramBank提供了一個基礎設施層面的解答——不是教機器從零發明示意圖的視覺語言，而是讓機器能夠站在已有高質量作品的肩膀上，通過精準檢索找到合適的參考，借鑑它們的布局邏輯、顏色體系和組織方式，從而生成更接近學術規範的示意圖。

這個方向是否能最終解決"AI自動生成發表級論文配圖"的難題？目前還不確定。但至少，它提供了一個切實可行、數據紮實、工具完整的起點。數據集已在HuggingFace平台公開，代碼在GitHub上同步發布，任何研究團隊都可以直接使用。有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.20857查閱完整論文，那裡有完整的構建細節、檢索算法的數學推導，以及所有實驗的提示詞原文。

---

Q&A

Q1：DiagramBank數據集裡的圖都是什麼類型的圖，普通數據折線圖算不算？

贊助商廣告

A：DiagramBank專門收錄的是"示意圖"（schematic diagrams），也就是那種用方塊、箭頭、圖標來表達系統架構或工作流程的圖，比如深度學習模型的結構圖、算法流程圖。普通的折線圖、柱狀圖、散點圖屬於數據圖（plot），在構建數據集時已經被CLIP分類器過濾掉了，不包含在DiagramBank里。最終入選的89,422張圖都是經過置信度篩選的示意圖。

Q2：DiagramBank的三層檢索為什麼不直接用圖片內容檢索，而要先匹配論文標題和摘要？

A：直接用圖片內容或圖注關鍵詞檢索容易出現"領域漂移"的問題——比如搜索"框架概覽"，可能搜出各種不同學科的框架圖，風格完全不適合。先用論文標題和摘要過濾，是為了把候選範圍鎖定在研究話題相近的論文裡，確保參考圖不只是外形相似，而是來自同一研究方向，更符合目標論文的學術語境和視覺風格習慣。

Q3：DiagramBank只能用於機器學習領域的論文嗎，其他領域能用嗎？

A：目前DiagramBank的數據來源嚴格限定在ICLR、ICML、NeurIPS和TMLR四個機器學習領域的頂級會議和期刊，時間跨度2017到2025年，因此數據本身帶有明顯的領域偏向性。如果要為醫學、物理或其他學科的論文檢索參考示意圖，用DiagramBank可能找到的參考在領域風格上不太匹配。不過，數據集的構建方法和檢索框架是通用的，其他領域的研究團隊可以用同樣的流程，針對本領域的論文構建類似的數據集。