就在剛剛,DeepSeek
開源了一個 3B 模型 DeepSeek-OCR。雖然 3B 體量不大,但模型思路創新的力度著實不小。
眾所周知,當前所有 LLM 處理長文本時都面臨一個繞不開的困境:計算複雜度是平方級增長的。序列越長,算力燒得越狠。
於是,DeepSeek 團隊想到了一個好辦法。既然一張圖能包含大量文字資訊,而且用的 Token 還少,那不如直接把文本轉成圖像?這就是所謂的「光學壓縮」——用視覺模態來給文本資訊「瘦身」。

而 OCR 正好天然適合驗證這個思路,因為它本身就是在做「視覺→文本」的轉換,而且效果還能量化評估。

論文顯示,DeepSeek-OCR 的壓縮率能達到 10 倍,OCR 準確率還能保持在 97% 以上。
什麽意思呢?就是說,原本需要 1000 個文本 Token 才能表達的內容,現在只用 100 個視覺 Token 就搞定了。即使壓縮率拉到 20 倍,準確率也還有 60% 左右,整體效果相當能打。
OmniDocBench 基準測試結果顯示:
- 只用 100 個視覺 Token,就超過了 GOT-OCR2.0(每頁 256 個 Token)的表現
- 用不到 800 個視覺 Token,干翻了 MinerU2.0(平均每頁超過 6000 個 Token)
在實際生產中,一塊 A100-40G 顯卡就能每天生成超過 20 萬頁的 LLM/VLM 訓練數據。20 個節點(160 塊 A100)直接飆到每天 3300 萬頁。

DeepSeek-OCR 由兩個核心組件組成:
- DeepEncoder(編碼器):負責圖像特徵提取和壓縮
- DeepSeek3B-MoE(解碼器):負責從壓縮後的視覺 Token 中重建文本
讓我們來重點說說 DeepEncoder 這個引擎。
它的架構很巧妙,通過把 SAM-base(8000 萬參數)和 CLIP-large(3 億參數)串聯起來,前者負責「窗口注意力」提取視覺特徵,後者負責「全局注意力」理解整體資訊。
中間還加了個 16×卷積壓縮器,在進入全局注意力層之前把 Token 數量大幅砍掉。
舉例而言,一張 1024×1024 的圖像,會被切成 4096 個 patch token。但經過壓縮器處理後,進入全局注意力層的 Token 數量會大幅減少。
這樣的好處是,既保證了處理高解析度輸入的能力,又控制住了激活內存的開銷。
而且 DeepEncoder 還支持多解析度輸入,從 512×512 的 Tiny 模式(64 個 Token)到 1280×1280 的 Large 模式(400 個 Token),一個模型全搞定。
目前開源版本支持的模式包括原生解析度的 Tiny、Small、Base、Large 四檔,還有動態解析度的 Gundam 模式,靈活性拉滿。

解碼器用的是 DeepSeek-3B-MoE 架構。
別看只有 3B 參數,但採用了 MoE(混合專家)設計——64 個專家中激活 6 個,再加 2 個共享專家,實際激活參數約 5.7 億。這也讓模型既有 30 億參數模型的表達能力,又保持了 5 億參數模型的推理效率。
解碼器的任務就是從壓縮後的視覺 Token 中重建出原始文本,這個過程可以通過 OCR 風格的訓練被緊湊型語言模型有效學習。
數據方面,DeepSeek 團隊也是下了血本。
從網際網路收集了 3000 萬頁多語言 PDF 數據,涵蓋約 100 種語言,其中中英文占 2500 萬頁。
數據分兩類:粗標註直接用 fitz 從 PDF 提取,主要訓練少數語言的識別能力;精標註用 PP-DocLayout、MinerU、GOT-OCR2.0 等模型生成,包含檢測與識別交織的高質量數據。
對於少數語言,團隊還搞了個「模型飛輪」機制——先用有跨語言泛化能力的版面分析模型做檢測,再用 fitz 生成的數據訓練 GOT-OCR2.0,然後用訓練好的模型反過來標註更多數據,循環往復最終生成了 60 萬條樣本。
此外還有 300 萬條 Word 文檔數據,主要提升公式識別和 HTML 表格解析能力。
場景 OCR 方面,從 LAION 和 Wukong 數據集收集圖像,用 PaddleOCR 標註,中英文各 1000 萬條樣本。

DeepSeek-OCR 不僅能識別文字,還具備「深度解析」能力,只需一個統一的提示詞,就能對各種複雜圖像進行結構化提取:
- 圖表:金融研究報告中的圖表可以直接提取為結構化數據
- 化學結構式:識別並轉換為 SMILES 格式
- 幾何圖形:對平面幾何圖形進行複製和結構化解析
- 自然圖像:生成密集描述(dense captions)
這在 STEM 領域的應用潛力巨大,尤其是化學、物理、數學等需要處理大量符號和圖形的場景。
這裡就不得不提 DeepSeek 團隊提出的一個腦洞大開的想法——用光學壓縮模擬人類的遺忘機制。
人類的記憶會隨時間衰退,越久遠的事情記得越模糊。DeepSeek 團隊想,那能不能讓 AI 也這樣?於是,他們的方案是:
- 把超過第 k 輪的歷史對話內容渲染成圖像
- 初步壓縮,實現約 10 倍的 Token 減少
- 對於更久遠的上下文,繼續縮小圖像尺寸
- 隨著圖像越來越小,內容也越來越模糊,最終達到「文本遺忘」的效果
這就很像人類記憶的衰退曲線,近期資訊保持高保真度,久遠記憶自然淡化。
雖然這還是個早期研究方向,但如果真能實現,對於處理超長上下文將是個巨大突破——近期上下文保持高解析度,歷史上下文占用更少計算資源,理論上可以支撐「無限上下文」。
簡言之,DeepSeek-OCR 表面上是個 OCR 模型,但實際上是在探索一個更宏大的命題:能否用視覺模態作為 LLM 文本資訊處理的高效壓縮媒介?
初步答案是肯定的,7-20 倍的 Token 壓縮能力已經展現出來了。

當然,團隊也承認這只是個開始。單純的 OCR 還不足以完全驗證「上下文光學壓縮」,後續還計劃開展數字–光學文本交替預訓練、「大海撈針」式測試,以及其他系統性評估。
不過不管怎麼說,這在 VLM 和 LLM 的進化路上,又多了一條新賽道。
去年這個時候,大家還在卷想著怎麼讓模型「記得更多」。
今年 DeepSeek 直接反其道行之:不如讓模型學會「忘掉一些」?確然,AI 的進化,有時候不是做加法,而是做減法。小而美,也能玩出大花樣,DeepSeek-OCR 這個 3B 小模型就是最好的證明。
GitHub 主頁:
http://github.com/deepseek-ai/DeepSeek-OCR
論文:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
模型下載:
https://huggingface.co/deepseek-ai/DeepSeek-OCR






