宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

騰訊發布"讀圖神器"HunyuanOCR,只用1%的參數就打敗了行業巨頭?

2025年11月28日 首頁 » 熱門科技

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

2025年11月24日,騰訊混元視覺團隊在arXiv上發布了一篇技術報告,介紹了最新開源的HunyuanOCR模型。這個僅有10億參數的小模型,在多項測試中竟然擊敗了參數量是它幾十倍甚至上百倍的大模型。

HunyuanOCR用巧妙的設計和精心的訓練方法,證明了"小而美"的力量。這篇文章將帶你深入了解這位OCR界的"小鋼炮"是如何煉成的。

什麼是OCR

在正式介紹HunyuanOCR之前,我們先來聊聊OCR到底是什麼。OCR的全稱是"光學字符識別",簡單來說,就是讓電腦能夠"看懂"圖片中的文字。你可能已經在日常生活中不知不覺地使用過OCR技術了:用手機掃描名片、拍照翻譯外文菜單、把紙質文件轉換成可編輯的電子文檔,這些功能背後都有OCR在默默工作。

想像你面前有一堆圖片需要分析。傳統的方式是你得一張張看,一個字一個字地抄寫下來。而OCR就像是給你配備了一位超級助手,它能瞬間"看"完所有圖片,並把裡面的文字都整理出來。更厲害的是,現代OCR不僅能認字,還能理解文檔的結構,哪裡是標題、哪裡是表格、哪裡是公式,就像這位助手不僅能抄寫,還能幫你整理成條理清晰的筆記。

隨著人工智慧的快速發展,OCR的應用場景已經遠遠超出了簡單的文字識別。在辦公和教育領域,OCR能幫助翻譯文獻、提供學科輔導。在醫療健康領域,OCR可以將醫療記錄數字化存檔,幫助分析病歷,為患者提供更好的治療建議。更重要的是,OCR系統正在成為訓練大型語言模型的重要工具,那些專業書籍和歷史檔案中蘊含的知識,正是通過OCR技術被"解鎖"並用於訓練AI的。

傳統OCR的困境:流水線上的煩惱

在HunyuanOCR出現之前,業界主流的OCR解決方案大多採用"流水線"式的架構。這就像一家工廠的生產線,每個工位負責一道工序:第一個工位負責檢測文字在哪裡,第二個工位負責識別檢測到的文字內容,第三個工位負責分析文檔的布局結構,第四個工位負責識別其中的公式和表格,如果還需要翻譯,那就再加一個工位。

這種流水線式的設計確實有它的優點:模塊化程度高,每個環節都可以單獨優化和更換。但問題也隨之而來。首先是"踢皮球效應",如果第一個工位(文字檢測)出了錯,比如漏掉了一行字,那這個錯誤就會一路傳遞下去,後面的工位再厲害也無法彌補。這就像接力賽跑,第一棒選手掉了棒,後面的隊友跑得再快也追不回來了。

其次是維護成本高昂,想像你要維護一條有五六個工位的生產線,每個工位都需要專業人員調試,工位之間的銜接也需要協調。一個完整的文檔解析系統,可能需要整合高精度的文字檢測模塊、多語言文字識別引擎、精細的布局分析組件、專業的數學公式識別模塊,以及結構化的表格識別單元。這種模塊堆疊的設計不僅增加了部署的複雜性,還需要專業人員對各個組件進行協調調優。

近年來,隨著視覺語言模型的進步,一些專門用於OCR和文檔解析的開源模型相繼問世,比如MonkeyOCR、Dots.OCR、MinerU2.5和PaddleOCR-VL等。這些努力試圖通過大規模建模來提高解析精度。然而,由於當前開源模型在處理複雜布局和長文本序列時的魯棒性有限,許多模型仍然依賴於前置的布局分析模塊來檢測文檔元素,然後由視覺語言模型在局部區域內解析內容。雖然這種混合設計在一定程度上提高了可用性,但它尚未充分發揮視覺語言模型在端到端聯合推理和統一多任務建模方面的潛力。

HunyuanOCR的秘密武器:一步到位的端到端設計

HunyuanOCR採用了一種完全不同的思路:把整條流水線變成一個"全能選手"。這位全能選手不需要在不同工位之間傳遞接力棒,而是一個人就能完成所有工序。用專業術語來說,這叫做"端到端"架構。

用一個比喻來理解這個概念,傳統的流水線OCR就像是在餐廳點餐時,你的訂單要經過前台、廚房主管、配菜師、大廚、裝盤師等多個環節,任何一個環節出錯,你的菜都可能不對味。而HunyuanOCR就像是一位全能的私人廚師,從聽你說想吃什麼,到採購、備菜、烹飪、裝盤,全部一個人搞定,既高效又不容易出錯。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

HunyuanOCR的架構由三個核心模塊組成,它們協同工作就像一支默契的三人樂隊。第一位成員是"原生解析度視覺編碼器",基於SigLIP-v2-400M預訓練模型構建,擁有大約4億參數。這位成員的特長是"看",它能夠處理任意解析度的輸入圖像,通過自適應的分塊機制保留原始寬高比。這意味著無論你給它一張又長又窄的文檔截圖,還是一張方方正正的證件照,它都能完整地"看"到所有細節,不會因為強行縮放而丟失資訊。

第二位成員是"自適應MLP連接器",它是視覺和語言兩個世界之間的橋樑。想像你有一位翻譯官,能把圖像世界的"語言"翻譯成文字世界的"語言"。這位翻譯官非常聰明,它會對視覺特徵進行空間維度的自適應內容壓縮,減少冗餘資訊,同時保留關鍵區域的重要語義資訊,比如文字密集的區域。

第三位成員是"輕量級語言模型",基於混元0.5B模型構建。雖然只有5億參數,但它內置了一項特殊技能,XD-RoPE位置編碼。這項技術將傳統的位置編碼分解為四個獨立的子空間:文本、高度、寬度和時間。這樣的設計建立了一種原生的對齊機制,能夠橋接一維文本序列、二維頁面布局和三維時空資訊,使模型能夠處理複雜的布局解析和跨頁文檔分析。

這三位成員加起來,HunyuanOCR總共只有大約10億參數,卻能夠在單次推理中完成整個工作流程。相比那些動輒上百億參數的大模型,這就像是一輛小排量汽車跑出了超跑的速度,既省油又跑得快。

訓練這位全能選手:從新手到高手的四個階段

一位全能選手不是一天練成的,HunyuanOCR的訓練過程分為四個精心設計的階段。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

第一階段可以叫做"熱身期",主要任務是讓視覺和語言兩個模塊學會"握手"。在這個階段,研究團隊只訓練視覺編碼器和MLP連接器,讓它們學會如何將圖像特徵與文本語義對齊。訓練數據主要是通用的圖像描述數據和合成的OCR數據,同時保留少量純文本數據以維持語言模型的基本能力。這個階段使用了大約500億個token進行訓練。

第二階段是"全面發展期",所有模型參數都被解鎖,進行端到端的視覺語言聯合學習。這個階段的重點是增強模型對文檔、表格、圖表等結構化內容的深度理解和認知推理能力。訓練數據混合了文本解析、定位、翻譯和視覺問答等多種任務,使用了大約3000億個token。

第三階段是"長跑訓練期",目標是將模型的上下文窗口擴展到32K個token。這就像是讓運動員從短跑轉向馬拉松——不僅要跑得快,還要能跑得遠。這個階段使用了長文檔解析任務和長篇純文本數據,總計約800億個token。

第四階段是"精細打磨期",使用精心策劃的人工標註真實數據進行退火訓練。研究團隊採用統一的指令模板和標準化的輸出格式,確保不同任務之間響應模式的一致性。這個階段使用了約240億個token,為後續的強化學習奠定了堅實基礎。

四個階段加起來,HunyuanOCR使用了大約2億個高質量樣本進行訓練,涵蓋了九大真實場景:街景、文檔、廣告、手寫文字、截圖、卡證票據、遊戲界面、影片幀和藝術字體,支持超過130種語言。

強化學習的魔法:讓模型學會"自我反思"

如果說四階段預訓練是教會HunyuanOCR基本功,那麼強化學習階段就是讓它學會"自我反思"和"精益求精"。這是HunyuanOCR的另一大創新,研究團隊首次在業界證明,強化學習策略能夠在OCR任務中帶來顯著的性能提升。

強化學習的核心思想可以用一個簡單的比喻來理解:想像你在訓練一隻寵物狗。當它做對了動作,你就給它一塊小餅乾作為獎勵;當它做錯了,就不給獎勵。久而久之,狗狗就學會了哪些行為會得到獎勵,並傾向於做出正確的行為。

HunyuanOCR使用的是一種叫做GRPO的算法,全稱是"群體相對策略優化"。在每次訓練疊代中,模型會針對同一個輸入生成多個不同的響應,然後根據獎勵信號來調整策略,讓好的響應更容易被生成。

但關鍵問題是:怎麼判斷一個響應是"好"還是"不好"呢?研究團隊為不同的任務設計了不同的獎勵機制。對於文字定位任務,獎勵是基於預測框與真實框的重疊程度,以及識別文字與真實文字之間的編輯距離來計算的。這就像是判斷你畫的框有多准、認的字有多對。對於文檔解析任務,獎勵是基於輸出內容與參考答案之間的編輯距離來計算的。對於視覺問答任務,獎勵是二元的,答案語義匹配就給1分,不匹配就給0分。對於翻譯任務,研究團隊使用了一個評分模型來比較生成的翻譯與參考翻譯,給出0到5分的評分,然後歸一化到0到1的區間。

為了確保訓練的穩定性,研究團隊還設置了一些約束條件。如果輸出超過了最大長度限制,直接給0分;如果輸出格式不符合要求,也直接給0分。這些約束幫助模型專注於學習準確的推理和格式化行為。

強化學習帶來的效果是顯著的。在文字定位任務中,模型在藝術字和螢幕截圖等場景下的得分提升了2分以上。在文檔解析任務中,OmniDocBench上的得分從92.5提升到了94.1。在資訊提取任務中,準確率提升了約2分。在OCRBench上,平均得分提升了3.3分。這些數字背後,是模型在實際應用中更加可靠和準確的表現。

數據的藝術:好廚師需要好食材

在機器學習領域,有句話叫"垃圾進,垃圾出"。再好的模型架構,如果餵給它的數據質量不高,最終的效果也會大打折扣。HunyuanOCR的成功,很大程度上要歸功於研究團隊在數據構建方面下的功夫。

研究團隊建立了一套完整的數據生產和清洗流水線,構建了一個包含超過2億個圖文對的語料庫。這些數據來源多樣:有公開的基準數據集,有通過網路爬蟲收集的真實數據,還有使用自研工具生成的高質量合成樣本。

合成數據的生成是一門藝術。研究團隊基於SynthDog框架進行了擴展,能夠生成支持130多種語言的段落級渲染數據,並且能夠處理從左到右和從右到左兩種文本方向,以及複雜的連筆書寫風格。更重要的是,這套合成流水線支持對文本屬性的精細控制,字體、顏色、方向都可以調整,還能模擬各種圖像干擾,比如光照和陰影變化。

為了提高模型的魯棒性,研究團隊還開發了一套"扭曲合成流水線",專門用於模擬真實拍攝和自然場景中的圖像缺陷。這套流水線可以模擬幾何變形,比如摺疊、彎曲和透視畸變;可以添加成像退化效果,比如運動模糊、高斯噪聲和壓縮偽影;還可以模擬光照變化,包括全局和局部的光照變化、陰影和反光。這些增強手段大大提升了模型在文字定位、文檔解析和視覺問答等核心任務上的魯棒性。

在問答對生成方面,研究團隊開發了一套自動化流水線,能夠將同一張圖片的標註重複利用於多個任務。比如,一張帶有文字定位標註的圖片,可以自動生成相應的視覺問答數據。這種"一源多用"的策略大大提高了數據利用效率。

HunyuanOCR能做什麼:五大核心能力全解析

說了這麼多技術細節,HunyuanOCR到底能做什麼呢?讓我們來看看它的五大核心能力。

第一項能力是文字定位,這是OCR最基礎的功能。HunyuanOCR能夠精確定位和識別圖片中的文字,輸出行級別的文字內容和對應的坐標資訊。為了確保輸出格式的統一,研究團隊設計了標準化的輸出格式:用特定標籤包裹識別出的文字內容,用另一組標籤包裹文字區域的坐標資訊。所有坐標都被歸一化到0到1000的範圍,以確保不同解析度圖片之間的一致性。

第二項能力是文檔解析,這是OCR領域的核心能力,隨著大語言模型的快速發展,其戰略重要性日益凸顯。HunyuanOCR提供了全面的文檔解析方案,支持精細的元素級解析和完整的端到端文檔解析。在元素級解析方面,它能夠獨立識別和提取數學公式、化學式、表格和圖表等專門的文檔元素,並將它們轉換為相應的格式。公式轉換為LaTeX,表格轉換為HTML,流程圖轉換為Mermaid格式。在端到端文檔解析方面,它能夠對包含多種複雜元素類型的文檔進行整體解析,按照閱讀順序輸出所有文本內容,同時智能地將表格和公式轉換為相應的格式。

第三項能力是資訊提取和視覺問答。在資訊提取方面,HunyuanOCR被設計用於開放世界中任意欄位的提取,同時針對30多種常見文檔類型進行了精確優化,包括身份證、銀行卡、護照、營業執照、駕駛證、購物小票、計程車發票、火車票等。用戶可以通過自然語言指令進行精細控制,支持單欄位提取和多欄位並行提取。此外,它還支持影片字幕提取,能夠從標準影片截圖中提取字幕內容。在視覺問答方面,HunyuanOCR展現了強大的開放域文檔問答能力,能夠處理裁剪的文本行、數學公式、文檔、圖表和街景圖像等多種輸入格式,並執行空間和屬性理解、邏輯推理、數值計算等複雜任務。

第四項能力是文字圖像翻譯。HunyuanOCR內置了一個全面的端到端圖像到文本翻譯模塊,支持14種以上的源語言,包括法語、德語、日語、韓語等,可以翻譯成中文或英文。此外,系統還支持中英文之間的直接雙向翻譯。這個翻譯模塊不僅覆蓋通用翻譯場景,還能處理具有複雜布局的文檔翻譯任務。值得一提的是,HunyuanOCR在ICDAR 2025文檔圖像機器翻譯競賽的小模型賽道中獲得了第一名,證明了其翻譯能力的有效性。

性能表現:小模型的大能量

現在到了最激動人心的部分,HunyuanOCR的實際表現如何?讓我們用一系列數據來說話。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

在文字定位任務上,研究團隊構建了一個包含九個類別的基準測試集:藝術字、文檔圖像、遊戲截圖、手寫文字、廣告場景、卡證票據、螢幕截圖、街景文字和影片幀,每個類別包含100張圖片,總計900張。HunyuanOCR在這個測試集上取得了70.92分的綜合成績,大幅領先於傳統的流水線方法和通用視覺語言模型。作為參考,PaddleOCR的得分是53.38分,百度OCR API的得分是61.90分,而參數量高達235B的Qwen3-VL-235B-A22B-Instruct也只得到了53.62分。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

在文檔解析任務上,HunyuanOCR在公開的OmniDocBench基準測試中取得了94.10分的綜合成績,超越了所有其他模型。在研究團隊自建的Wild-OmniDocBench測試集上,這個測試集通過列印原始文檔並在摺疊、彎曲、不同光照等挑戰性條件下重新拍攝,模擬真實世界中的文檔拍攝場景,HunyuanOCR同樣取得了最佳成績85.21分。在多語言解析數據集DocML上,HunyuanOCR也展現了優秀的多語言解析能力,在全部14種語言上都取得了領先成績。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

在資訊提取和視覺問答任務上,HunyuanOCR在卡證資訊提取任務上取得了92.29分,在票據資訊提取任務上取得了92.53分,在影片字幕提取任務上取得了92.87分,全面超越了包括Qwen3-VL-235B-A22B-Instruct、Seed-1.6-Vision和Gemini-2.5-Pro在內的大型視覺語言模型。在OCRBench基準測試上,HunyuanOCR取得了860分,與參數量更大的Qwen3-VL-2B-Instruct相當,顯著優於同等規模的DeepSeek-OCR。

騰訊發布讀圖神器HunyuanOCR只用1的參數就打敗了行業巨頭

在文字圖像翻譯任務上,HunyuanOCR在DoTA基準測試的英譯中任務上取得了83.48分的COMET得分,超越了參數量超過8B的多個模型。雖然由於語言模型規模相對較小,HunyuanOCR的翻譯能力還不及其在文字檢測、識別和文檔解析方面的表現,但研究團隊建議,對於需要更高翻譯精度的應用場景,可以將其多語言解析模塊與混元MT-7B翻譯模型級聯使用。

至頂AI實驗室洞見

更好的OCR技術意味著更便捷的日常生活,比如,可以把一堆紙質文檔拍照上傳,系統能夠完美保留原文檔的格式和結構;把一張複雜的財務報表拍照,系統能夠精確提取出每一個數字。這些場景正在因為OCR技術的進步而變得越來越現實。

而且HunyuanOCR是開源的,開發者和企業可以基於它構建自己的應用,而不必依賴昂貴的商業API。

HunyuanOCR證明,小模型也能取得優秀的表現,為邊緣設備部署和移動端應用打開了大門。

不過HunyuanOCR目前還有局限性。由於語言模型規模相對較小,它在翻譯質量上還有提升空間。研究團隊表示,未來將繼續通過token壓縮和架構改進來優化推理效率,同時擴展模型處理更高解析度和多頁文檔的能力。他們的長期目標是讓HunyuanOCR適配邊緣設備部署,進一步普及強大的OCR能力。

END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

Q&A

Q1:HunyuanOCR的參數量只有1B,為什麼能比235B的大模型表現更好?

A:HunyuanOCR的成功主要歸功於三個因素:端到端的架構設計避免了傳統流水線的錯誤傳播問題;精心策劃的高質量訓練數據涵蓋了130多種語言和九大真實場景;以及首創的強化學習策略為OCR任務提供了針對性的優化。

Q2:普通用戶可以在哪裡使用HunyuanOCR?

A:HunyuanOCR已經在HuggingFace上開源,開發者可以通過GitHub下載使用。研究團隊還提供了基於vLLM的高性能部署方案,適合有技術背景的用戶和企業進行二次開發和集成。

Q3:HunyuanOCR支持中文識別嗎?

A:支持。HunyuanOCR是一個多語言模型,支持超過130種語言的識別和處理,中文是其重點優化的語言之一。無論是簡體中文、繁體中文,還是中英混排的文檔,它都能夠有效處理。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新