在競爭激烈的全球市場中,企業為了加速決策流程、提升決策質量,往往藉助生成式 AI 模型來匯總和解讀市場報告與財務文件中大量出現的圖表。然而,即便是目前最先進的視覺語言模型,在處理此類任務時也時常表現欠佳——因為這項工作要求模型同時整合視覺、數值與語言理解能力。這意味著,企業即便投資引入了最前沿的模型,也可能收到不準確或不完整的資訊。
為填補這一性能空缺,麻省理工學院(MIT)與MIT-IBM計算研究實驗室的研究人員聯合開發了一套專門面向視覺語言模型(VLM)的綜合性訓練資源,旨在教會模型有效解讀圖表內容。
研究團隊採用一種全新的數據生成方法,構建了一個包含逾百萬張多樣化圖表的高質量數據集。該數據集對每張圖表圖像中的視覺、語言和數值資訊均進行了詳細編碼,從而使模型能夠對圖表內容進行穩健的推理分析。
研究人員將這一數據集命名為ChartNet,並用其訓練了一系列開源視覺語言模型。測試結果顯示,其中許多規模較小的模型在數據提取和圖表摘要等任務上的表現,顯著超越了體量大出數個量級的商業模型。
通過讓開源模型的性能超越商業競品,ChartNet有望幫助預算有限的中小企業更便捷地應用AI技術。該開源數據集可用於提升AI模型在商業趨勢分析、科學圖表解讀等任務中的能力。
"我們將ChartNet打造成一站式圖表理解解決方案,幾乎覆蓋了AI模型和使用者在訓練過程中可能用到的一切資源。我們希望這項研究能夠激勵更多研究者探索如何用更小的模型、更少的算力達到最先進的性能水平。"論文第一作者、MIT電氣工程與電腦科學系研究生Jovana Kondic表示。
論文合著者還包括來自MIT、MIT-IBM計算研究實驗室及IBM Research的多位研究人員:IBM Research研究員Pengyuan Li、IBM Research高級科學家Dhiraj Joshi、IBM Research軟體工程師Isaac Sanchez、MIT Schwarzman計算學院戰略產業合作總監兼MIT-IBM計算研究實驗室MIT方向負責人、MIT電腦科學與人工智慧實驗室(CSAIL)高級研究科學家Aude Oliva,以及MIT-IBM計算研究實驗室首席科學家兼研究經理Rogerio Feris。該研究成果將在IEEE電腦視覺與模式識別大會(CVPR)上正式發布。
數據瓶頸制約發展
儘管研究人員在自然語言處理和自然圖像推理方面已取得長足進展,但針對圖表中複雜多模態數據的解讀研究仍相對匱乏。Kondic指出,圖表理解對於幾乎所有行業的大小企業而言都是一項關鍵能力。
"金融行業高度依賴圖表。如果視覺語言模型能夠從圖表中提取趨勢描述等資訊,將極大地推動下游眾多業務流程的效率提升。"Joshi說道。
高質量訓練數據的匱乏,是制約圖表解讀VLM發展的重要瓶頸。目前許多數據集中的圖表圖像數量有限,往往來源於網際網路抓取,缺乏必要的規模和輔助資訊,難以幫助模型有效理解圖表背後的數據。
"與人類大腦不同,視覺語言模型可能需要在訓練過程中看到數千個示例,才能可靠地識別一張折線圖。"Kondic表示。
研究團隊通過生成合成數據來突破上述局限。合成數據是由算法人工生成的,用於模擬真實數據的統計特性。
ChartNet數據集包含逾百萬張高質量圖表圖像,以及每張圖表對應的生成代碼、文本描述和包含數值資訊的數據表格。此外,每條數據還附有問答對,用於訓練模型正確回答關於圖表的問題。
"這些額外的數據模態引導模型將圖表圖像所編碼的不同資訊片段進行關聯與對齊。"Kondic說。
兩步式合成數據生成流程
為構建ChartNet,研究團隊設計了一套兩步式合成數據生成流水線。
第一步,自動化系統將現有圖表圖像轉譯為代碼;第二步,系統對代碼進行疊代增強,對圖表的類型、數據值、主題、顏色等各類屬性進行修改。
"我們可以從一張圖表出發,以其為種子,生成數百種變體。正是憑藉這一方法,我們才得以建立一個包含逾百萬張多樣圖像的數據集。"Kondic解釋道。
研究團隊還引入了自動化質量審核流程,以確保合成數據的高質量,包括驗證代碼可執行性以及渲染圖像的準確性與清晰度。
"我們不僅追求樣本的多樣性,更希望資訊能夠以有意義的方式呈現。"她說。
此外,ChartNet還收錄了一部分由人類專家標註的圖表數據,提供額外類型的圖表及配套數據,並附有可靠性保證。Joshi補充指出,使用者可利用這些標註數據對現有VLM進行微調,進一步提升特定應用場景下的模型性能。
研究團隊以ChartNet訓練了IBM的Granite Vision系列模型及其他多個不同規模的開源模型,並在多項圖表解讀任務上對其進行了系統評估。結果表明,該數據集在圖表重建、數據提取、圖表摘要和圖表問答等任務上全面提升了所有模型的準確率。在ChartNet的加持下,小型開源模型持續優於體量更大的商業模型。
"許多此前的訓練數據集只關注對圖表簡單問題的回答。我們希望通過ChartNet超越這一局限,生成能夠支撐全方位圖表理解的數據。"Kondic說。
未來,研究團隊計劃持續擴充ChartNet,納入更高複雜度的數據,並積極吸收研究社區的反饋意見。
本項研究得到MIT-IBM計算研究實驗室的部分資助支持。
Q&A
Q1:ChartNet數據集包含哪些內容?
A:ChartNet數據集包含逾百萬張高質量圖表圖像,以及每張圖表對應的生成代碼、文本描述和包含數值資訊的數據表格。此外,每條數據還附有問答對,用於訓練模型正確回答關於圖表的問題。部分數據點還包含人類專家標註內容,提供額外類型的圖表及可靠性保證。
Q2:ChartNet是怎麼生成合成數據的?
A:ChartNet採用兩步式合成數據生成流水線:首先,自動化系統將現有圖表圖像轉譯為代碼;然後對代碼進行疊代增強,修改圖表類型、數據值、主題、顏色等屬性,從一張圖表出發可生成數百種變體。同時引入自動化質量審核流程,驗證代碼可執行性及渲染圖像的準確性與清晰度。
Q3:用ChartNet訓練的小型開源模型,真的能比大型商業模型效果更好嗎?
A:根據研究結果,用ChartNet訓練的小型開源模型在圖表重建、數據提取、圖表摘要和圖表問答等多項任務上,確實顯著超越了體量大出數個量級的商業模型。這意味著預算有限的中小企業也有機會藉助開源模型,實現高質量的圖表理解能力,降低AI應用門檻。






