宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

剛剛,DeepSeek 又發新模型,小而美玩出新高度

2025年10月20日 首頁 » 熱門科技

就在剛剛,DeepSeek剛剛DeepSeek又發新模型小而美玩出新高度 開源了一個 3B 模型 DeepSeek-OCR。雖然 3B 體量不大,但模型思路創新的力度著實不小。

眾所周知,當前所有 LLM 處理長文本時都面臨一個繞不開的困境:計算複雜度是平方級增長的。序列越長,算力燒得越狠。

於是,DeepSeek 團隊想到了一個好辦法。既然一張圖能包含大量文字資訊,而且用的 Token 還少,那不如直接把文本轉成圖像?這就是所謂的「光學壓縮」——用視覺模態來給文本資訊「瘦身」。

剛剛DeepSeek又發新模型小而美玩出新高度

而 OCR 正好天然適合驗證這個思路,因為它本身就是在做「視覺→文本」的轉換,而且效果還能量化評估。

剛剛DeepSeek又發新模型小而美玩出新高度

論文顯示,DeepSeek-OCR 的壓縮率能達到 10 倍,OCR 準確率還能保持在 97% 以上。

什麽意思呢?就是說,原本需要 1000 個文本 Token 才能表達的內容,現在只用 100 個視覺 Token 就搞定了。即使壓縮率拉到 20 倍,準確率也還有 60% 左右,整體效果相當能打。

OmniDocBench 基準測試結果顯示:

  • 只用 100 個視覺 Token,就超過了 GOT-OCR2.0(每頁 256 個 Token)的表現
  • 用不到 800 個視覺 Token,干翻了 MinerU2.0(平均每頁超過 6000 個 Token)

在實際生產中,一塊 A100-40G 顯卡就能每天生成超過 20 萬頁的 LLM/VLM 訓練數據。20 個節點(160 塊 A100)直接飆到每天 3300 萬頁。

剛剛DeepSeek又發新模型小而美玩出新高度

DeepSeek-OCR 由兩個核心組件組成:

  • DeepEncoder(編碼器):負責圖像特徵提取和壓縮
  • DeepSeek3B-MoE(解碼器):負責從壓縮後的視覺 Token 中重建文本

讓我們來重點說說 DeepEncoder 這個引擎。

它的架構很巧妙,通過把 SAM-base(8000 萬參數)和 CLIP-large(3 億參數)串聯起來,前者負責「窗口注意力」提取視覺特徵,後者負責「全局注意力」理解整體資訊。

中間還加了個 16×卷積壓縮器,在進入全局注意力層之前把 Token 數量大幅砍掉。

舉例而言,一張 1024×1024 的圖像,會被切成 4096 個 patch token。但經過壓縮器處理後,進入全局注意力層的 Token 數量會大幅減少。

這樣的好處是,既保證了處理高解析度輸入的能力,又控制住了激活內存的開銷。

而且 DeepEncoder 還支持多解析度輸入,從 512×512 的 Tiny 模式(64 個 Token)到 1280×1280 的 Large 模式(400 個 Token),一個模型全搞定。

目前開源版本支持的模式包括原生解析度的 Tiny、Small、Base、Large 四檔,還有動態解析度的 Gundam 模式,靈活性拉滿。

剛剛DeepSeek又發新模型小而美玩出新高度

解碼器用的是 DeepSeek-3B-MoE 架構。

別看只有 3B 參數,但採用了 MoE(混合專家)設計——64 個專家中激活 6 個,再加 2 個共享專家,實際激活參數約 5.7 億。這也讓模型既有 30 億參數模型的表達能力,又保持了 5 億參數模型的推理效率。

解碼器的任務就是從壓縮後的視覺 Token 中重建出原始文本,這個過程可以通過 OCR 風格的訓練被緊湊型語言模型有效學習。

數據方面,DeepSeek 團隊也是下了血本。

從網際網路收集了 3000 萬頁多語言 PDF 數據,涵蓋約 100 種語言,其中中英文占 2500 萬頁。

數據分兩類:粗標註直接用 fitz 從 PDF 提取,主要訓練少數語言的識別能力;精標註用 PP-DocLayout、MinerU、GOT-OCR2.0 等模型生成,包含檢測與識別交織的高質量數據。

對於少數語言,團隊還搞了個「模型飛輪」機制——先用有跨語言泛化能力的版面分析模型做檢測,再用 fitz 生成的數據訓練 GOT-OCR2.0,然後用訓練好的模型反過來標註更多數據,循環往復最終生成了 60 萬條樣本。

此外還有 300 萬條 Word 文檔數據,主要提升公式識別和 HTML 表格解析能力。

場景 OCR 方面,從 LAION 和 Wukong 數據集收集圖像,用 PaddleOCR 標註,中英文各 1000 萬條樣本。

剛剛DeepSeek又發新模型小而美玩出新高度

DeepSeek-OCR 不僅能識別文字,還具備「深度解析」能力,只需一個統一的提示詞,就能對各種複雜圖像進行結構化提取:

  • 圖表:金融研究報告中的圖表可以直接提取為結構化數據
  • 化學結構式:識別並轉換為 SMILES 格式
  • 幾何圖形:對平面幾何圖形進行複製和結構化解析
  • 自然圖像:生成密集描述(dense captions)

這在 STEM 領域的應用潛力巨大,尤其是化學、物理、數學等需要處理大量符號和圖形的場景。

這裡就不得不提 DeepSeek 團隊提出的一個腦洞大開的想法——用光學壓縮模擬人類的遺忘機制。

人類的記憶會隨時間衰退,越久遠的事情記得越模糊。DeepSeek 團隊想,那能不能讓 AI 也這樣?於是,他們的方案是:

  1. 把超過第 k 輪的歷史對話內容渲染成圖像
  2. 初步壓縮,實現約 10 倍的 Token 減少
  3. 對於更久遠的上下文,繼續縮小圖像尺寸
  4. 隨著圖像越來越小,內容也越來越模糊,最終達到「文本遺忘」的效果

這就很像人類記憶的衰退曲線,近期資訊保持高保真度,久遠記憶自然淡化。

雖然這還是個早期研究方向,但如果真能實現,對於處理超長上下文將是個巨大突破——近期上下文保持高解析度,歷史上下文占用更少計算資源,理論上可以支撐「無限上下文」。

簡言之,DeepSeek-OCR 表面上是個 OCR 模型,但實際上是在探索一個更宏大的命題:能否用視覺模態作為 LLM 文本資訊處理的高效壓縮媒介?

初步答案是肯定的,7-20 倍的 Token 壓縮能力已經展現出來了。

剛剛DeepSeek又發新模型小而美玩出新高度

當然,團隊也承認這只是個開始。單純的 OCR 還不足以完全驗證「上下文光學壓縮」,後續還計劃開展數字–光學文本交替預訓練、「大海撈針」式測試,以及其他系統性評估。

不過不管怎麼說,這在 VLM 和 LLM 的進化路上,又多了一條新賽道。

去年這個時候,大家還在卷想著怎麼讓模型「記得更多」。

今年 DeepSeek 直接反其道行之:不如讓模型學會「忘掉一些」?確然,AI 的進化,有時候不是做加法,而是做減法。小而美,也能玩出大花樣,DeepSeek-OCR 這個 3B 小模型就是最好的證明。

GitHub 主頁:
http://github.com/deepseek-ai/DeepSeek-OCR
論文:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
模型下載:
https://huggingface.co/deepseek-ai/DeepSeek-OCR

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新