剛剛，DeepSeek 又發新模型，小而美玩出新高度

就在剛剛，DeepSeek 剛剛DeepSeek又發新模型小而美玩出新高度開源了一個 3B 模型 DeepSeek-OCR。雖然 3B 體量不大，但模型思路創新的力度著實不小。

贊助商廣告

眾所周知，當前所有 LLM 處理長文本時都面臨一個繞不開的困境：計算複雜度是平方級增長的。序列越長，算力燒得越狠。

於是，DeepSeek 團隊想到了一個好辦法。既然一張圖能包含大量文字資訊，而且用的 Token 還少，那不如直接把文本轉成圖像？這就是所謂的「光學壓縮」——用視覺模態來給文本資訊「瘦身」。

而 OCR 正好天然適合驗證這個思路，因為它本身就是在做「視覺→文本」的轉換，而且效果還能量化評估。

論文顯示，DeepSeek-OCR 的壓縮率能達到 10 倍，OCR 準確率還能保持在 97% 以上。

什麽意思呢？就是說，原本需要 1000 個文本 Token 才能表達的內容，現在只用 100 個視覺 Token 就搞定了。即使壓縮率拉到 20 倍，準確率也還有 60% 左右，整體效果相當能打。

OmniDocBench 基準測試結果顯示：

只用 100 個視覺 Token，就超過了 GOT-OCR2.0（每頁 256 個 Token）的表現
用不到 800 個視覺 Token，干翻了 MinerU2.0（平均每頁超過 6000 個 Token）

在實際生產中，一塊 A100-40G 顯卡就能每天生成超過 20 萬頁的 LLM/VLM 訓練數據。20 個節點（160 塊 A100）直接飆到每天 3300 萬頁。

贊助商廣告

DeepSeek-OCR 由兩個核心組件組成：

DeepEncoder（編碼器）：負責圖像特徵提取和壓縮
DeepSeek3B-MoE（解碼器）：負責從壓縮後的視覺 Token 中重建文本

讓我們來重點說說 DeepEncoder 這個引擎。

它的架構很巧妙，通過把 SAM-base（8000 萬參數）和 CLIP-large（3 億參數）串聯起來，前者負責「窗口注意力」提取視覺特徵，後者負責「全局注意力」理解整體資訊。

中間還加了個 16×卷積壓縮器，在進入全局注意力層之前把 Token 數量大幅砍掉。

舉例而言，一張 1024×1024 的圖像，會被切成 4096 個 patch token。但經過壓縮器處理後，進入全局注意力層的 Token 數量會大幅減少。

這樣的好處是，既保證了處理高解析度輸入的能力，又控制住了激活內存的開銷。

而且 DeepEncoder 還支持多解析度輸入，從 512×512 的 Tiny 模式（64 個 Token）到 1280×1280 的 Large 模式（400 個 Token），一個模型全搞定。

目前開源版本支持的模式包括原生解析度的 Tiny、Small、Base、Large 四檔，還有動態解析度的 Gundam 模式，靈活性拉滿。

解碼器用的是 DeepSeek-3B-MoE 架構。

別看只有 3B 參數，但採用了 MoE（混合專家）設計——64 個專家中激活 6 個，再加 2 個共享專家，實際激活參數約 5.7 億。這也讓模型既有 30 億參數模型的表達能力，又保持了 5 億參數模型的推理效率。

解碼器的任務就是從壓縮後的視覺 Token 中重建出原始文本，這個過程可以通過 OCR 風格的訓練被緊湊型語言模型有效學習。

數據方面，DeepSeek 團隊也是下了血本。

從網際網路收集了 3000 萬頁多語言 PDF 數據，涵蓋約 100 種語言，其中中英文占 2500 萬頁。

數據分兩類：粗標註直接用 fitz 從 PDF 提取，主要訓練少數語言的識別能力；精標註用 PP-DocLayout、MinerU、GOT-OCR2.0 等模型生成，包含檢測與識別交織的高質量數據。

對於少數語言，團隊還搞了個「模型飛輪」機制——先用有跨語言泛化能力的版面分析模型做檢測，再用 fitz 生成的數據訓練 GOT-OCR2.0，然後用訓練好的模型反過來標註更多數據，循環往復最終生成了 60 萬條樣本。

贊助商廣告

此外還有 300 萬條 Word 文檔數據，主要提升公式識別和 HTML 表格解析能力。

場景 OCR 方面，從 LAION 和 Wukong 數據集收集圖像，用 PaddleOCR 標註，中英文各 1000 萬條樣本。

DeepSeek-OCR 不僅能識別文字，還具備「深度解析」能力，只需一個統一的提示詞，就能對各種複雜圖像進行結構化提取：

圖表：金融研究報告中的圖表可以直接提取為結構化數據
化學結構式：識別並轉換為 SMILES 格式
幾何圖形：對平面幾何圖形進行複製和結構化解析
自然圖像：生成密集描述（dense captions）

這在 STEM 領域的應用潛力巨大，尤其是化學、物理、數學等需要處理大量符號和圖形的場景。

這裡就不得不提 DeepSeek 團隊提出的一個腦洞大開的想法——用光學壓縮模擬人類的遺忘機制。

人類的記憶會隨時間衰退，越久遠的事情記得越模糊。DeepSeek 團隊想，那能不能讓 AI 也這樣？於是，他們的方案是：

把超過第 k 輪的歷史對話內容渲染成圖像
初步壓縮，實現約 10 倍的 Token 減少
對於更久遠的上下文，繼續縮小圖像尺寸
隨著圖像越來越小，內容也越來越模糊，最終達到「文本遺忘」的效果

這就很像人類記憶的衰退曲線，近期資訊保持高保真度，久遠記憶自然淡化。

雖然這還是個早期研究方向，但如果真能實現，對於處理超長上下文將是個巨大突破——近期上下文保持高解析度，歷史上下文占用更少計算資源，理論上可以支撐「無限上下文」。

簡言之，DeepSeek-OCR 表面上是個 OCR 模型，但實際上是在探索一個更宏大的命題：能否用視覺模態作為 LLM 文本資訊處理的高效壓縮媒介？

初步答案是肯定的，7-20 倍的 Token 壓縮能力已經展現出來了。

當然，團隊也承認這只是個開始。單純的 OCR 還不足以完全驗證「上下文光學壓縮」，後續還計劃開展數字–光學文本交替預訓練、「大海撈針」式測試，以及其他系統性評估。

不過不管怎麼說，這在 VLM 和 LLM 的進化路上，又多了一條新賽道。

去年這個時候，大家還在卷想著怎麼讓模型「記得更多」。

今年 DeepSeek 直接反其道行之：不如讓模型學會「忘掉一些」？確然，AI 的進化，有時候不是做加法，而是做減法。小而美，也能玩出大花樣，DeepSeek-OCR 這個 3B 小模型就是最好的證明。

GitHub 主頁：
http://github.com/deepseek-ai/DeepSeek-OCR
論文：
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
模型下載：
https://huggingface.co/deepseek-ai/DeepSeek-OCR

贊助商廣告