騰訊AI團隊革命性突破：無需「老師」指導，讓AI自己學會閱讀複雜文檔

這項由騰訊模式識別中心的劉源、趙仲印、田樂等研究人員完成的突破性研究，發表於2025年EMNLP主要會議。該研究提出了一個名為POINTS-Reader的全新文檔轉換方法，徹底改變了傳統依賴大模型"蒸餾"的訓練模式。有興趣深入了解的讀者可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項目。

贊助商廣告

當你拿起一本厚厚的教科書，裡面既有普通文字，又有複雜的數學公式和密密麻麻的表格時，你可能會感到頭疼。現在想像一下，要讓電腦也能"讀懂"這樣的文檔內容，並準確地把它們轉換成數字化文本，這該有多麼困難。騰訊AI團隊面對的正是這樣一個挑戰，他們要讓電腦學會像人一樣理解和處理各種複雜的文檔格式。

傳統的做法就像讓一個學生通過模仿優等生的作業來學習。研究人員通常會用GPT-4這樣的"超級學霸"來給文檔做標註，然後讓較小的模型學習這些標註結果。這種方法被稱為"知識蒸餾"，就好比讓一個學生看著學霸的答案來學習解題方法。然而，這種方法存在明顯的問題：學生永遠無法超越被模仿的對象，而且還可能學到學霸的一些壞習慣。

更重要的是，這種依賴"老師"的學習方式讓AI的發展受到了限制。就像一個班級里如果所有學生都在模仿同一個學霸，那麼整個班級的思維方式就會變得單一，缺乏創新性。騰訊的研究團隊意識到這個問題後，決定讓AI"自立門戶"，通過自己的努力來掌握文檔理解的能力。

他們的解決方案分為兩個階段，就像培養一個獨立學習者的完整過程。第一個階段叫做"統一格式預熱階段"，這就像給學生制定一套標準化的學習方法。研究團隊發現，文檔中的不同元素——普通文字、數學公式、表格——通常用不同的格式來表示，這讓AI學習起來特別困難。就好比一個學生同時要學習中文、英文和數學符號，如果沒有統一的學習規則，很容易搞混。

贊助商廣告

因此，他們為每種內容制定了統一的輸出格式。普通文字用Markdown語法表示，就像給文字穿上統一的"制服"；表格統一用HTML格式，因為Markdown表格無法處理複雜的合併單元格結構，就像普通的格子紙無法畫出複雜的建築圖紙一樣；數學公式則用LaTeX語法，這是數學界公認的"通用語言"。

有了統一的格式規則後，他們開始"製造"大量的練習材料。這個過程就像一個出版社批量生產教輔書籍。他們用大語言模型生成各種類型的文本內容，然後把這些內容渲染成圖片，形成圖文對照的訓練數據。這樣做的好處是可以快速獲得大量高質量的訓練素材，而且每一份素材的答案都是完全準確的。

他們總共生成了四類數據：純文本內容、包含數學公式的文本、包含表格的文本，以及多欄布局的複雜文檔。每一類數據都經過精心設計，確保涵蓋真實世界中可能遇到的各種情況。就像製作一套完整的練習冊，從基礎題目開始，逐漸增加難度。

第二個階段被稱為"疊代自我改進階段"，這是整個研究中最具創新性的部分。雖然AI在合成數據上訓練得很好，但真實世界的文檔往往更加複雜多變，就像在教室里學會了游泳動作，但真正下水時還是會遇到各種意外情況。為了讓AI適應真實環境，研究團隊讓它開始處理真實的文檔，然後通過巧妙的"自我檢驗"機制來篩選高質量的結果。

這個自我檢驗過程特別巧妙。對於文字內容，他們使用傳統的OCR工具作為"參考答案"來計算F1分數，就像用標準答案來檢查作業的正確性。雖然OCR工具本身不夠完美，但在識別基本文字方面還是相當可靠的，可以有效篩選出那些明顯錯誤的結果，比如漏掉大段文字或者產生幻覺內容的情況。

對於表格，他們重點檢查結構的完整性。每個表格的行和列必須保持一致，就像檢查一個拼圖是否完整。如果某一行的單元格數量和其他行不一致，這樣的數據就會被剔除。

贊助商廣告

數學公式的檢驗則相對簡單，主要檢查語法是否正確。雖然無法驗證公式的數學含義是否正確，但至少可以確保公式的格式是合法的，不會出現括號不匹配或者語法錯誤的情況。

經過篩選後的高質量數據被用來重新訓練模型，這個過程可以反覆進行多輪。每一輪訓練後，模型的能力都會有所提升，同時生成的數據質量也會越來越高。這形成了一個正向的螺旋上升過程，就像一個學生通過不斷練習和自我糾錯來提高成績。

研究團隊在實驗中發現了許多有趣的現象。比如，當合成數據的規模達到80萬條時，模型的性能開始出現下降。這說明過度依賴合成數據可能會讓模型"過擬合"，就像一個學生如果只做模擬題而不接觸真實考試，可能會在實際應試中表現不佳。這進一步證明了第二階段真實數據適應的重要性。

他們還發現，數據的長寬比對訓練效果有顯著影響。那些形狀過於極端的圖片——比如特別細長或者特別扁平的文檔——往往會影響模型的學習效果。這就像人在閱讀時，如果書頁的比例太過奇怪，也會影響閱讀的舒適度和效率。因此，他們將數據篩選範圍限制在長寬比2/5到5/2之間，這個範圍基本涵蓋了常見文檔格式。

在多輪疊代的過程中，模型表現出了令人驚喜的持續改進能力。即使在只檢驗表格結構和公式語法正確性的情況下，模型對這些內容的識別準確率也在穩步提升。這說明通過高質量數據的反覆訓練，模型確實在"理解"這些內容，而不僅僅是機械地模仿。

實驗結果證明了這種方法的有效性。POINTS-Reader在多個基準測試中都表現出色，在某些任務上甚至超越了體積更大的競爭模型。比如在OmniDocBench的表格識別任務中，它比GOT-OCR模型高出19.7個百分點，這是一個相當顯著的提升。更重要的是，它在Fox數據集上的整體編輯距離只有0.023，這意味著它的輸出結果與標準答案幾乎完全一致。

贊助商廣告

這種方法的優勢不僅體現在性能上，更在於它開闢了一條全新的發展路徑。傳統的蒸餾方法就像讓所有學生都去模仿同一個老師，而這種自我改進的方法讓AI能夠根據自己的經驗來學習和成長。這種獨立學習的能力對於AI的長遠發展具有重要意義。

當然，這個方法目前還存在一些限制。比如它目前只支持英文文檔，對於中文、日文等其他語言的支持還需要進一步開發。另外，它主要專注於文字、公式和表格的識別，對於圖片內容的處理能力還比較有限。研究團隊表示，他們將在未來的工作中逐步解決這些問題。

從更廣闊的視角來看，這項研究展示了AI領域的一個重要發展趨勢：從依賴外部"老師"轉向自主學習能力的培養。這種轉變不僅能夠提高AI系統的性能，更重要的是讓它們獲得了持續改進的能力。就像人類文明的進步一樣，最重要的不是現在掌握了多少知識，而是具備了不斷學習和創新的能力。

POINTS-Reader的成功也為其他AI任務提供了有價值的啟發。這種"先用合成數據打基礎，再用真實數據精雕細琢"的方法，很可能成為AI訓練的一種新範式。它證明了在某些領域，我們可以擺脫對超大模型的依賴，通過精心設計的訓練方法讓相對較小的模型也能達到優秀的性能。

說到底，這項研究最大的價值在於它為AI的發展指出了一條更加自主和可持續的道路。在這個AI技術日新月異的時代，能夠讓機器學會獨立學習，不再依賴"老師"的指導，這本身就是一個了不起的成就。對於普通用戶而言，這意味著未來我們將擁有更加智能、更加準確的文檔處理工具，無論是學術論文、技術文檔還是複雜的財務報表，都能被快速而準確地數字化。

研究團隊已經將POINTS-Reader開源，這意味著全世界的研究者和開發者都可以基於這個工作繼續創新。相信在不久的將來，我們會看到更多基於這種自主學習理念的AI應用出現，為人類的工作和生活帶來更多便利。

贊助商廣告

Q&A

Q1：POINTS-Reader和傳統的文檔識別方法有什麼不同？

A：傳統方法需要依賴GPT-4等大模型來製作訓練數據，就像學生模仿學霸的作業來學習。而POINTS-Reader採用自主學習方式，先用合成數據建立基礎，再通過自我改進機制在真實數據上不斷提升，不需要依賴外部"老師"指導。

Q2：POINTS-Reader能處理哪些類型的文檔內容？

A：POINTS-Reader主要處理三類內容：普通文字（用Markdown格式輸出）、數學公式（用LaTeX語法表示）和表格（用HTML格式呈現）。它特別擅長處理包含複雜表格和數學公式的學術文檔、技術報告等專業材料。

Q3：普通用戶可以使用POINTS-Reader嗎？

A：是的，研究團隊已經將POINTS-Reader開源，用戶可以通過GitHub鏈接https://github.com/Tencent/POINTS-Reader訪問完整項目。不過目前主要面向開發者和研究人員，普通用戶可能需要等待更友好的應用版本推出。