這是一個來自百度飛槳團隊的重要研究成果。由Cheng Cui、Ting Sun、Suyin Liang等多位研究者組成的團隊,在2025年11月發表了這項突破性研究,論文編號為arXiv:2510.14528v4。這項工作發表在電腦視覺領域,代表了文檔解析技術的最新進展。有興趣深入了解的讀者可以通過這個論文編號在arXiv學術論文庫中查詢完整論文。
想像一下,你正在一個巨大的圖書館裡工作,每天要處理成千上萬份各式各樣的文件。有些是學術論文,裡面充滿了複雜的公式和表格;有些是報紙,文字和圖片混在一起;有些甚至是手寫的筆記。如果要一份份手工整理這些文件,提取裡面的資訊,那簡直是一場噩夢。
這正是現實中很多企業和機構每天都在面對的挑戰。隨著數字化進程的加快,文檔的數量和複雜性都在爆炸式增長。這些文檔可能來自不同的國家,使用不同的語言,有著各種各樣的排版方式。對電腦來說,理解這些文檔的內容和結構,就像要求一個人類在完全陌生的環境中快速理解一份外文文件一樣困難。
百度飛槳團隊認識到這個問題的嚴重性。他們意識到,如果能開發出一個既能準確理解文檔內容,又能快速處理大量文件的智能系統,那將是一個巨大的突破。這個系統不僅要能識別文字,還要能理解表格的結構、識別數學公式、分析圖表數據,甚至要能處理手寫文字。更關鍵的是,這個系統要足夠輕量,能在普通的電腦上運行,而不是只能在超級電腦上才能使用。
在文檔處理的技術世界裡,研究者們一直在兩條不同的路線之間搖擺。
第一條路線就像是一個專業的流水線工廠。工廠里有多個專門的工人,每個人負責一項特定的工作。有人專門負責找出文檔的布局結構,有人專門識別文字,有人專門分析表格。這種方法的好處是每個工人都能把自己的工作做得非常精細,因為他們只需要專注於一件事。但問題在於,如果前一個工人出了錯,後面的工人就會基於錯誤的資訊繼續工作,錯誤會像滾雪球一樣越來越大。而且,當你想要添加一個新的功能或處理新的文檔類型時,整條流水線都需要重新調整。
第二條路線就像是招聘一個全能的員工,給他一個任務,他就能從頭到尾完成所有工作。這種方法看起來很高效,因為少了很多中間環節。但這個全能員工通常需要很大的腦子(也就是需要很強的計算能力),而且當文檔特別複雜或特別長時,他容易出現幻覺,就像一個人在極度疲勞時開始說胡話一樣。
百度飛槳團隊採取了一個聰明的折中方案。他們保留了第一條路線中最有價值的部分——一個專門負責理解文檔布局和閱讀順序的模塊,但這個模塊被設計得非常輕量和高效。然後,他們開發了一個新的、更聰明的全能員工來處理具體的內容識別工作。這個新員工的大腦雖然不是最大的,但被精心設計得特別擅長處理文檔中的各種元素。
讓我們來看看這個新系統的核心——PaddleOCR-VL-0.9B模型。這個名字中的"0.9B"指的是它有9億個參數,相比之下,很多其他的文檔識別模型有幾十億甚至上百億個參數。參數就像是大腦中的神經元連接,參數越多,模型通常就越大,需要的計算資源也就越多。所以0.9B聽起來很小,但百度團隊讓它做出了很多大得多的模型才能做到的事情。
這個模型的構造就像是一個精心設計的兩層樓房。底層是視覺部分,負責"看"文檔。百度團隊使用了一種叫做NaViT的特殊視覺編碼器,它有一個獨特的能力:可以處理任意解析度的圖像,而不需要先把圖像壓縮或扭曲成固定的尺寸。這就像是一個攝影機,無論你拍攝的是一張小紙條還是一整面牆,它都能清晰地捕捉所有細節。這對於文檔識別特別重要,因為文檔中的文字可能很小,如果壓縮圖像,小文字就會變得模糊不清。
樓房的上層是語言部分,負責"理解"和"表達"。這裡使用的是一個叫做ERNIE-4.5-0.3B的語言模型。這個模型雖然只有3億個參數,但它被特別優化過,能夠快速地生成文本。在自動回歸語言模型中,每生成一個詞都需要時間,所以用一個更小、更快的模型能顯著加快處理速度。
連接這兩層的是一個簡單但有效的中間層,就像是一個翻譯官,把視覺資訊轉換成語言模型能理解的形式。這個中間層只有兩層神經網路,非常輕量。
在處理任何文檔之前,系統首先需要理解文檔的結構。這就是PP-DocLayoutV2模塊的工作。
想像你拿到一份報紙,首先要做的是識別哪些是標題,哪些是正文,哪些是圖片,哪些是廣告。然後你需要確定應該按什麼順序讀這些內容。這個模塊就是在做這樣的工作。
PP-DocLayoutV2由兩個部分組成。第一部分是一個物體檢測模型,它的工作就像是一個細心的編輯,用紅筆在文檔上圈出不同的元素。它使用了一個叫做RT-DETR的最新檢測技術,能夠快速準確地定位文檔中的各個元素,比如文本塊、表格、公式和圖表。
第二部分更有趣。它是一個指針網路,用來確定閱讀順序。這就像是在問:"這些被圈出來的元素,我應該按什麼順序讀?"這個網路通過分析元素之間的幾何關係來做出判斷。它考慮的是元素的位置——哪個在左邊,哪個在上面,哪個更靠近——然後推斷出合理的閱讀順序。
這個模塊的巧妙之處在於,它不依賴長序列的自動回歸生成過程。也就是說,它不需要像生成文本那樣一個一個地預測每個元素的順序。相反,它能夠一次性地分析所有元素之間的關係,然後確定最合理的順序。這使得它既快速又準確,而且不容易出現那種"越往後預測越容易出錯"的問題。
一旦系統理解了文檔的布局和閱讀順序,就可以根據這些資訊把文檔分割成不同的區域,然後讓PaddleOCR-VL-0.9B模型來處理每個區域。
這個模型需要處理四種不同的任務,就像一個多面手工人需要掌握不同的技能。
第一項技能是光學字符識別,也就是識別文字。這不僅僅是識別單個字符,而是理解文字是如何組織的——哪些字組成一個詞,哪些詞組成一行,哪些行組成一個段落,甚至整個頁面的文本結構是什麼樣的。這對於處理不同語言特別重要,因為不同語言的文字組織方式完全不同。
第二項技能是表格識別。表格就像是一個精心組織的矩陣,有行有列,每個單元格里可能有文字、數字或其他內容。識別表格需要理解這種二維結構,知道哪些單元格是相鄰的,哪些單元格被合併了。模型需要輸出一種特殊的格式來表示這種結構,就像是用代碼來描述一個表格的樣子。
第三項技能是公式識別。數學公式是特別複雜的,因為它們涉及特殊的符號、上標、下標、分數線等等。模型需要把這些視覺元素轉換成LaTeX格式,這是數學領域的標準語言。這就像是要把一個手寫的數學公式翻譯成電腦能理解的數學語言。
第四項技能是圖表識別。圖表可能是柱狀圖、折線圖、餅圖等等。模型需要理解圖表想要表達的數據,然後把這些數據轉換成表格的形式。這就像是要把一個圖形化的故事翻譯成數字表格。
要讓一個AI模型變得聰明,最重要的是給它高質量的訓練數據。百度團隊在這方面下了很大的功夫。
他們的數據收集策略就像是在做一道複雜的菜餚,需要從多個不同的來源採集食材。首先,他們從公開的數據集中收集了大量的基礎數據,就像是去超市買基本的食材。這些包括著名的手寫數據集CASIA-HWDB,還有各種數學公式數據集和圖表數據集。
但僅有這些還不夠,因為公開數據集往往不夠平衡。某些類型的數據很多,某些類型的數據很少。所以團隊採用了數據合成技術,就像是用烹飪技巧來補充不足的食材。他們使用各種工具——字體庫、CSS庫、LaTeX渲染器、網頁瀏覽器等——來人工生成缺少的數據類型。
此外,他們還從網際網路上收集了大量真實的文檔,包括學術論文、報紙、科學期刊、掃描的手寫文檔、各種考試試卷和演示文稿。這些真實數據為模型提供了多樣化的風格和結構。
最後,百度團隊還使用了自己多年積累的內部數據集。這些數據都經過了精心的質量控制。
數據收集只是第一步。接下來是標註,也就是給數據添加正確答案的標籤。對於3000多萬個樣本來說,手工標註是不可能的。所以團隊使用了一個聰明的自動標註流程。首先,他們用一個已有的專業模型PP-StructureV3來初步處理數據,生成初步的標籤。然後,他們把這些初步標籤和原始圖像一起送給更強大的大型語言模型,比如ERNIE-4.5-VL和Qwen2.5VL,讓這些模型來改進和驗證標籤。最後,他們還進行了一個特殊的過濾步驟,去除那些模型可能產生的錯誤或幻覺。
但這還不是全部。團隊還進行了一個叫做"困難樣本挖掘"的過程。他們在一個精心標註的評估數據集上測試模型,找出模型表現不好的地方。然後,他們針對這些困難的情況,使用各種工具來合成新的訓練樣本,幫助模型在這些弱點上進行改進。這就像是一個學生在考試中發現自己在某個知識點上很弱,然後專門做這個知識點的練習題一樣。
訓練PaddleOCR-VL-0.9B分為兩個階段,就像學習一門新語言——先學基礎語法,再學實際應用。
第一個階段叫做對齊預訓練。在這個階段,模型要學習的是如何把視覺資訊和語言資訊聯繫起來。團隊使用了2900萬個高質量的圖像-文本對。這些對可能來自各種來源,但都經過了精心的選擇和清理。在這個階段,模型就像是一個初學者,在學習如何用眼睛看東西,然後用語言來描述。這個階段進行了一個完整的循環,使用了相對較大的學習率。
第二個階段叫做指令微調。在這個階段,模型已經學會了基礎的視覺-語言對齊,現在要學習如何在特定的任務上表現得很好。團隊使用了270萬個精心設計的樣本,這些樣本都是針對四個具體任務的——OCR、表格識別、公式識別和圖表識別。在這個階段,模型要學習的是如何根據具體的指令來完成任務。這就像是一個學過基礎語言的人,現在要學習如何在不同的情境下使用這門語言。這個階段進行了兩個循環,使用了更小的學習率,以便進行精細的調整。
要知道一個模型是否真的好,最重要的是在真實的任務上測試它。百度團隊在多個公開的基準測試上評估了他們的模型。
首先是OmniDocBench v1.5,這是一個包含1355個文檔頁面的大型測試集,涵蓋了多種文檔類型和語言。在這個測試上,PaddleOCR-VL取得了92.86的總體分數,超過了之前的最佳模型MinerU2.5的90.67分。更重要的是,在各個具體的任務上,這個模型都表現得很出色。在文本識別上,它的錯誤率是0.035,這意味著平均每1000個字符中只有3.5個識別錯誤。在公式識別上,它的CDM分數是91.22,在表格識別上,它的TEDS分數是90.89。
在OmniDocBench v1.0上,模型同樣表現優異,在多個指標上都達到了最先進的水平。
還有olmOCR-Bench,這個測試集包含了1402個PDF文檔和7010個測試用例。這個測試的特點是使用了非常嚴格的評估標準,不允許模糊的評分,而是要求模型的輸出完全正確。在這個嚴格的測試上,PaddleOCR-VL取得了80.0的分數,在多個類別上都領先其他模型。
除了整體的文檔解析能力,團隊還在四個具體的任務上進行了詳細的評估。
在文本識別方面,他們使用了多個測試集。在OmniDocBench-OCR-block上,這個測試集包含了從真實文檔中提取的17148個文本塊,PaddleOCR-VL在幾乎所有的文檔類型上都表現最好。在一個叫做In-house-OCR的內部測試集上,這個集合包含了超過10萬個樣本,涵蓋了多種語言和文本類型,模型同樣表現出色。特別值得一提的是,它在處理多種語言上的表現——包括阿拉伯語、韓語、泰米爾語、希臘語、泰語、印地語、西里爾字母等——都達到了最先進的水平。在處理各種文本類型上,比如手寫中文、手寫英文、印刷文本、傳統中文、古文、豎排文字、單個字符和藝術字體,模型都表現得很好。
在表格識別方面,模型在OmniDocBench-Table-block上取得了0.9195的TEDS分數,這是一個非常高的分數。在一個包含各種表格類型的內部測試集上,模型同樣表現優異,在各個指標上都超過了其他模型。
在公式識別方面,模型在OmniDocBench-Formula-block上取得了0.9453的CDM分數。在一個包含34816個公式的內部測試集上,模型的CDM分數達到了0.9882,這意味著它能夠正確識別98.82%的公式。
在圖表識別方面,雖然公開的測試集質量不是很高,但在內部的測試集上,模型取得了0.8440的RMS-F1分數,這個分數超過了很多更大的模型。
一個好的模型不僅要準確,還要快速。畢竟,如果一個模型需要花費幾個小時來處理一份文檔,那它在實際應用中就沒有什麼價值。
百度團隊通過多種優化技術來提高推理速度。他們使用了多線程異步執行,把推理過程分成三個階段——數據加載、布局模型處理和VLM推理——每個階段在單獨的線程中運行。這樣,當一個階段在處理數據時,另一個階段可以同時準備下一批數據,就像是一個流水線一樣。
此外,他們還使用了高效的推理引擎,比如vLLM和FastDeploy,這些引擎經過了特殊的優化,能夠充分利用GPU的計算能力。他們還調整了各種參數,比如最大批處理令牌數和GPU內存利用率,以找到速度和內存消耗之間的最佳平衡。
在實際測試中,當在一個NVIDIA A100 GPU上處理OmniDocBench v1.0數據集時,PaddleOCR-VL使用FastDeploy後端可以達到每秒1.6184個頁面的處理速度,這比之前最好的模型MinerU2.5快了53.1%。如果考慮生成的令牌數,PaddleOCR-VL每秒可以生成2486.4個令牌,比MinerU2.5快了50.9%。
在一個全球化的世界裡,文檔可能使用任何一種語言。百度團隊的模型支持109種語言,這包括了世界上大多數主要語言。
這種廣泛的多語言支持不是偶然的。在訓練數據的收集和處理過程中,團隊特別注意了語言的多樣性。他們確保訓練數據包含了各種不同的語言和文字系統,從拉丁字母到阿拉伯字母,從漢字到天城文。
這意味著,無論你的文檔是用英文、中文、阿拉伯文、俄文、印地文還是其他任何語言寫的,這個模型都能理解並正確處理。這對於跨國公司、國際組織和全球供應鏈來說是非常重要的。
除了在標準測試集上的表現,百度團隊還展示了模型在真實世界文檔上的表現。這些文檔包括學術論文、報紙、教科書、考試試卷、手寫筆記等等。在所有這些真實世界的場景中,模型都表現得很好,能夠準確地識別和理解各種複雜的文檔元素。
這意味著,這個模型不僅在實驗室里表現好,在真實的應用場景中也能可靠地工作。
這項研究的重要性不僅僅在於技術指標的提升,更在於它解決的實際問題。
首先,它證明了一個相對較小的模型(0.9B參數)也能達到甚至超過更大模型的性能。這對於那些計算資源有限的組織和個人來說是一個好消息。你不需要擁有超級電腦才能使用最先進的文檔處理技術。
其次,它提供了一個完整的解決方案,不僅僅是一個模型,而是一個從數據收集、標註、訓練到推理的完整系統。這對於其他研究者和開發者來說提供了寶貴的參考。
第三,它在多個維度上都達到了最先進的水平——準確性、速度、資源效率和多語言支持。這使得它成為了一個真正可用的、實用的系統。
最後,它為大型語言模型在文檔理解中的應用打開了新的可能性。通過結合專門的布局分析模型和高效的視覺-語言模型,百度團隊展示了如何在保持高性能的同時降低計算成本。
這項研究為文檔處理領域的未來發展奠定了基礎。隨著越來越多的資訊被數字化,自動化文檔處理的需求只會增加。這個模型的出現意味著,更多的組織可以使用先進的AI技術來處理他們的文檔,而不需要投入巨大的資金購買昂貴的硬體。
這也為檢索增強生成(RAG)系統的改進提供了基礎。RAG系統是現代AI應用中的一個關鍵技術,它允許大型語言模型訪問外部知識庫。如果文檔處理變得更快、更準確、更便宜,那麼RAG系統就能提供更好的服務。
總的來說,百度飛槳團隊的這項研究不僅是一個技術上的突破,更是一個實用性的突破。它證明了在AI時代,我們不需要盲目追求更大的模型,而是應該追求更聰明的設計和更高效的實現。通過精心的架構設計、高質量的數據準備和系統的優化,一個相對較小的模型也能做出令人印象深刻的工作。
##########
Q&A
Q1:PaddleOCR-VL是什麼?它能處理哪些類型的文檔內容?
A:PaddleOCR-VL是百度飛槳團隊開發的文檔解析系統,核心是一個僅有9億參數的輕量級視覺-語言模型。它能夠識別和處理文檔中的文字、表格、數學公式和圖表,支持109種語言,包括中文、英文、阿拉伯文、俄文等。
Q2:為什麼PaddleOCR-VL比其他文檔識別模型更快更準確?
A:該模型採用了兩階段的混合方案:先用專門的布局分析模型理解文檔結構,再用高效的視覺-語言模型識別具體內容。它使用了NaViT動態解析度視覺編碼器和輕量級的ERNIE-4.5-0.3B語言模型,通過多線程異步執行和高效推理引擎優化,處理速度比前代快50%以上。
Q3:這個模型需要什麼樣的硬體才能運行?普通用戶能使用嗎?
A:PaddleOCR-VL僅需9億參數,相比其他動輒幾十億參數的模型要輕量得多,可以在單塊NVIDIA A100 GPU上高效運行。百度已經開源了代碼和模型,普通用戶可以通過PaddlePaddle框架使用,或者通過在線演示體驗其功能。






