這項由騰訊模式識別中心的劉源、趙仲印、田樂等研究人員完成的突破性研究,發表於2025年EMNLP主要會議。該研究提出了一個名為POINTS-Reader的全新文檔轉換方法,徹底改變了傳統依賴大模型"蒸餾"的訓練模式。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項目。
當你拿起一本厚厚的教科書,裡面既有普通文字,又有複雜的數學公式和密密麻麻的表格時,你可能會感到頭疼。現在想像一下,要讓電腦也能"讀懂"這樣的文檔內容,並準確地把它們轉換成數字化文本,這該有多麼困難。騰訊AI團隊面對的正是這樣一個挑戰,他們要讓電腦學會像人一樣理解和處理各種複雜的文檔格式。
傳統的做法就像讓一個學生通過模仿優等生的作業來學習。研究人員通常會用GPT-4這樣的"超級學霸"來給文檔做標註,然後讓較小的模型學習這些標註結果。這種方法被稱為"知識蒸餾",就好比讓一個學生看著學霸的答案來學習解題方法。然而,這種方法存在明顯的問題:學生永遠無法超越被模仿的對象,而且還可能學到學霸的一些壞習慣。
更重要的是,這種依賴"老師"的學習方式讓AI的發展受到了限制。就像一個班級里如果所有學生都在模仿同一個學霸,那麼整個班級的思維方式就會變得單一,缺乏創新性。騰訊的研究團隊意識到這個問題後,決定讓AI"自立門戶",通過自己的努力來掌握文檔理解的能力。
他們的解決方案分為兩個階段,就像培養一個獨立學習者的完整過程。第一個階段叫做"統一格式預熱階段",這就像給學生制定一套標準化的學習方法。研究團隊發現,文檔中的不同元素——普通文字、數學公式、表格——通常用不同的格式來表示,這讓AI學習起來特別困難。就好比一個學生同時要學習中文、英文和數學符號,如果沒有統一的學習規則,很容易搞混。
因此,他們為每種內容制定了統一的輸出格式。普通文字用Markdown語法表示,就像給文字穿上統一的"制服";表格統一用HTML格式,因為Markdown表格無法處理複雜的合併單元格結構,就像普通的格子紙無法畫出複雜的建築圖紙一樣;數學公式則用LaTeX語法,這是數學界公認的"通用語言"。
有了統一的格式規則後,他們開始"製造"大量的練習材料。這個過程就像一個出版社批量生產教輔書籍。他們用大語言模型生成各種類型的文本內容,然後把這些內容渲染成圖片,形成圖文對照的訓練數據。這樣做的好處是可以快速獲得大量高質量的訓練素材,而且每一份素材的答案都是完全準確的。
他們總共生成了四類數據:純文本內容、包含數學公式的文本、包含表格的文本,以及多欄布局的複雜文檔。每一類數據都經過精心設計,確保涵蓋真實世界中可能遇到的各種情況。就像製作一套完整的練習冊,從基礎題目開始,逐漸增加難度。
第二個階段被稱為"疊代自我改進階段",這是整個研究中最具創新性的部分。雖然AI在合成數據上訓練得很好,但真實世界的文檔往往更加複雜多變,就像在教室里學會了游泳動作,但真正下水時還是會遇到各種意外情況。為了讓AI適應真實環境,研究團隊讓它開始處理真實的文檔,然後通過巧妙的"自我檢驗"機制來篩選高質量的結果。
這個自我檢驗過程特別巧妙。對於文字內容,他們使用傳統的OCR工具作為"參考答案"來計算F1分數,就像用標準答案來檢查作業的正確性。雖然OCR工具本身不夠完美,但在識別基本文字方面還是相當可靠的,可以有效篩選出那些明顯錯誤的結果,比如漏掉大段文字或者產生幻覺內容的情況。
對於表格,他們重點檢查結構的完整性。每個表格的行和列必須保持一致,就像檢查一個拼圖是否完整。如果某一行的單元格數量和其他行不一致,這樣的數據就會被剔除。
數學公式的檢驗則相對簡單,主要檢查語法是否正確。雖然無法驗證公式的數學含義是否正確,但至少可以確保公式的格式是合法的,不會出現括號不匹配或者語法錯誤的情況。
經過篩選後的高質量數據被用來重新訓練模型,這個過程可以反覆進行多輪。每一輪訓練後,模型的能力都會有所提升,同時生成的數據質量也會越來越高。這形成了一個正向的螺旋上升過程,就像一個學生通過不斷練習和自我糾錯來提高成績。
研究團隊在實驗中發現了許多有趣的現象。比如,當合成數據的規模達到80萬條時,模型的性能開始出現下降。這說明過度依賴合成數據可能會讓模型"過擬合",就像一個學生如果只做模擬題而不接觸真實考試,可能會在實際應試中表現不佳。這進一步證明了第二階段真實數據適應的重要性。
他們還發現,數據的長寬比對訓練效果有顯著影響。那些形狀過於極端的圖片——比如特別細長或者特別扁平的文檔——往往會影響模型的學習效果。這就像人在閱讀時,如果書頁的比例太過奇怪,也會影響閱讀的舒適度和效率。因此,他們將數據篩選範圍限制在長寬比2/5到5/2之間,這個範圍基本涵蓋了常見文檔格式。
在多輪疊代的過程中,模型表現出了令人驚喜的持續改進能力。即使在只檢驗表格結構和公式語法正確性的情況下,模型對這些內容的識別準確率也在穩步提升。這說明通過高質量數據的反覆訓練,模型確實在"理解"這些內容,而不僅僅是機械地模仿。
實驗結果證明了這種方法的有效性。POINTS-Reader在多個基準測試中都表現出色,在某些任務上甚至超越了體積更大的競爭模型。比如在OmniDocBench的表格識別任務中,它比GOT-OCR模型高出19.7個百分點,這是一個相當顯著的提升。更重要的是,它在Fox數據集上的整體編輯距離只有0.023,這意味著它的輸出結果與標準答案幾乎完全一致。
這種方法的優勢不僅體現在性能上,更在於它開闢了一條全新的發展路徑。傳統的蒸餾方法就像讓所有學生都去模仿同一個老師,而這種自我改進的方法讓AI能夠根據自己的經驗來學習和成長。這種獨立學習的能力對於AI的長遠發展具有重要意義。
當然,這個方法目前還存在一些限制。比如它目前只支持英文文檔,對於中文、日文等其他語言的支持還需要進一步開發。另外,它主要專注於文字、公式和表格的識別,對於圖片內容的處理能力還比較有限。研究團隊表示,他們將在未來的工作中逐步解決這些問題。
從更廣闊的視角來看,這項研究展示了AI領域的一個重要發展趨勢:從依賴外部"老師"轉向自主學習能力的培養。這種轉變不僅能夠提高AI系統的性能,更重要的是讓它們獲得了持續改進的能力。就像人類文明的進步一樣,最重要的不是現在掌握了多少知識,而是具備了不斷學習和創新的能力。
POINTS-Reader的成功也為其他AI任務提供了有價值的啟發。這種"先用合成數據打基礎,再用真實數據精雕細琢"的方法,很可能成為AI訓練的一種新範式。它證明了在某些領域,我們可以擺脫對超大模型的依賴,通過精心設計的訓練方法讓相對較小的模型也能達到優秀的性能。
說到底,這項研究最大的價值在於它為AI的發展指出了一條更加自主和可持續的道路。在這個AI技術日新月異的時代,能夠讓機器學會獨立學習,不再依賴"老師"的指導,這本身就是一個了不起的成就。對於普通用戶而言,這意味著未來我們將擁有更加智能、更加準確的文檔處理工具,無論是學術論文、技術文檔還是複雜的財務報表,都能被快速而準確地數字化。
研究團隊已經將POINTS-Reader開源,這意味著全世界的研究者和開發者都可以基於這個工作繼續創新。相信在不久的將來,我們會看到更多基於這種自主學習理念的AI應用出現,為人類的工作和生活帶來更多便利。
Q&A
Q1:POINTS-Reader和傳統的文檔識別方法有什麼不同?
A:傳統方法需要依賴GPT-4等大模型來製作訓練數據,就像學生模仿學霸的作業來學習。而POINTS-Reader採用自主學習方式,先用合成數據建立基礎,再通過自我改進機制在真實數據上不斷提升,不需要依賴外部"老師"指導。
Q2:POINTS-Reader能處理哪些類型的文檔內容?
A:POINTS-Reader主要處理三類內容:普通文字(用Markdown格式輸出)、數學公式(用LaTeX語法表示)和表格(用HTML格式呈現)。它特別擅長處理包含複雜表格和數學公式的學術文檔、技術報告等專業材料。
Q3:普通用戶可以使用POINTS-Reader嗎?
A:是的,研究團隊已經將POINTS-Reader開源,用戶可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項目。不過目前主要面向開發者和研究人員,普通用戶可能需要等待更友好的應用版本推出。