宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

DeepSeek讓AI學會像人一樣閱讀:一場關於視覺理解的認知革命

2026年01月30日 首頁 » 熱門科技

此刻正在閱讀的你,眼睛是怎麼移動的?

我們的視覺系統非常聰明,不會機械地從左上角一路掃描到右下角,而是會"跳著看",根據內容的重要性和邏輯關係,自動規劃出一條最合理的閱讀路徑。一篇新聞報道中,標題會首先抓住我們的注意力,然後是配圖說明,接著才是正文內容。這種看似隨意實則充滿智慧的閱讀方式,正是人類數百萬年進化的結晶。

當我們把同樣的任務交給AI時,問題就來了。目前幾乎所有的視覺理解模型都像是一個刻板的機器人讀者,它們只會按照固定的順序,從左到右、從上到下,逐行掃描圖像內容。

這就好比讓一個人蒙著眼睛按照事先畫好的路線行走,完全無視路況和周圍環境。這種一刀切的處理方式在面對簡單圖片時或許還能湊合,但當遇到複雜的文檔、表格、多欄排版時,就會像無頭蒼蠅一樣亂撞,經常把內容的順序搞得一團糟。

DeepSeek讓AI學會像人一樣閱讀一場關於視覺理解的認知革命

2026年1月,DeepSeek的研究團隊發布了一項令人眼前一亮的研究成果:DeepSeek-OCR 2。他們提出了一種全新的視覺編碼器DeepEncoder V2,它能夠像人類一樣,根據圖像的語義內容動態調整"閱讀順序"。簡單來說,研究團隊教會了AI一項人類與生俱來的能力,用理解來指導觀看。

當你拍下一份合同文件交給AI助手處理時,它不再會把頁眉和正文混在一起,也不會把表格中的數據錯位對應。當企業需要批量處理成千上萬份PDF文檔時,AI能夠像經驗豐富的文員一樣準確理解每一頁的結構布局。這種"會思考的閱讀"能力,正是通向真正智能的重要一步。

為什麼AI閱讀文檔總是"犯迷糊"

要理解DeepSeek-OCR 2的創新之處,我們首先需要明白當前AI視覺理解系統的工作原理以及它們面臨的困境。

想像你正在參觀一座博物館。傳統的AI視覺系統就像是一個嚴格按照固定路線參觀的遊客,它會從入口開始,機械地按照地板上的指引箭頭,一間一間地經過每個展廳,完全不管哪些展品更重要、哪些展廳之間有主題關聯。即使前面是一間無關緊要的儲物間,後面緊跟著一個鎮館之寶,它也會按照死板的順序處理,先花時間研究儲物間的掃把,再去看那件稀世珍品。

這種工作方式源於一個根本性的技術限制:現有的視覺語言模型在處理圖像時,需要先把二維的圖片"拍平"成一維的序列,然後送入語言模型進行理解。這個拍平的過程通常採用所謂的"光柵掃描"順序,就像老式電視機逐行繪製畫面那樣,從左上角開始,一行一行地向下推進,直到右下角結束。

這種做法對於普通照片來說問題不大,畢竟一張風景照片或者人物肖像並沒有什麼特定的閱讀順序。但文檔完全不同。一份學術論文可能有標題、摘要、多欄正文、腳註、圖表和參考文獻;一張報紙版面可能同時包含七八篇不同的報道,每篇都有自己的標題、導語和正文;一份財務報表可能有表格、批註、公式和說明文字交織在一起。在這些場景中,固定的掃描順序就會造成嚴重的混亂,把這一欄的上半部分和那一欄的下半部分拼接在一起,或者把表格的行標題和隔了十厘米遠的數據錯誤配對。

研究團隊用一個非常形象的例子說明了這個問題:想像你在觀察一個螺旋形的圖案。人類的眼睛會自然而然地沿著螺旋線移動,每一次注視都因果性地依賴於前一次,因為你看到了這裡的曲線走向,所以你知道下一步應該看向哪裡。而傳統的AI卻會傻傻地從上到下逐行掃描,完全破壞了螺旋的連續性,最後看到的只是一堆斷斷續續的弧線碎片。

正是這種對人類視覺認知機制的深刻洞察,催生了DeepSeek-OCR 2的核心設計理念:能不能讓AI像人一樣,先"理解"圖像的整體結構,然後根據語義內容自動規劃出最合理的處理順序?

用"因果思維"重塑視覺理解

DeepSeek-OCR 2的核心創新在於它引入了"視覺因果流"的概念。這個聽起來有點學術的名詞,其實可以用一個簡單的比喻來理解。

想像你是一位經驗豐富的偵探,正在調查一個複雜的案件。現場有很多線索:腳印、指紋、打翻的花瓶、半杯剩餘的咖啡、一封未完成的信。一個新手偵探可能會機械地從門口開始,按照房間的物理布局逐一記錄每樣東西。但一個資深偵探會怎麼做?他會首先環顧整個房間,形成一個整體印象,然後根據線索之間的邏輯關係來決定調查順序,因為咖啡還沒涼,所以事情發生不久;因為信寫到一半停下,所以主人可能被突然打斷;因為腳印指向窗戶,所以嫌疑人可能從那裡逃離。每一條線索的解讀都建立在對前面線索理解的基礎上,這就是因果性思維。

DeepEncoder V2正是要賦予AI這種偵探般的因果思維能力。它的工作原理可以分解為這樣幾個步驟:

首先,系統會像普通視覺編碼器一樣,讓每一個圖像小塊都能"看到"整張圖片的全貌。這就像偵探進入房間後的第一次環顧,讓每一個局部資訊都有了全局背景。在技術上,這是通過所謂的"雙向注意力"機制實現的,每個視覺標記都可以關注所有其他標記,形成對整體畫面的理解。

然後,關鍵的創新來了:系統引入了一組被稱為"因果流查詢"的特殊標記。你可以把它們想像成一隊偵探助手,他們的任務是重新整理現場線索的呈現順序。第一個助手可以看到所有的原始線索,然後決定"哪條線索應該排在最前面";第二個助手不僅能看到所有原始線索,還能看到第一個助手的決定,然後決定"接下來應該是哪條";以此類推。每個助手的決定都依賴於前面所有助手的工作成果,這就是"因果性"的含義,後面的決策是前面決策的結果。

通過這種機制,原本按照空間位置排列的視覺資訊,被重新組織成了按照語義邏輯排列的序列。一份複雜的文檔不再是"左上角的像素、然後是旁邊的像素……",而變成了"首先是標題、然後是摘要、接著是第一部分的正文……"。這個重新排序的過程發生在資訊被送入語言模型之前,所以語言模型接收到的已經是一個有意義的、符合閱讀邏輯的序列了。

研究團隊在技術實現上做出了一個大膽的決定:他們沒有使用傳統的CLIP視覺編碼器,而是選擇用一個小型語言模型來充當視覺編碼器的角色。這就好比讓一個懂得閱讀的人來整理文檔,而不是讓一個只認識圖形的人來做這件事。具體來說,他們使用了Qwen2-0.5B這個5億參數的語言模型,通過特殊的注意力機制讓它同時具備全局感知和因果排序的能力。

精妙的建築設計

如果把DeepSeek-OCR 2比作一棟建築,那麼它的結構設計可謂匠心獨運。整個系統由三個主要部分組成,每個部分都有其特定的功能,環環相扣。

DeepSeek讓AI學會像人一樣閱讀一場關於視覺理解的認知革命

第一個部分是"視覺分詞器",你可以把它理解為這棟建築的"入口大廳"。當一張圖片進入系統時,首先需要經過一番處理才能被後續模塊理解。這個分詞器採用了一個只有8000萬參數的輕量級架構,基於SAM模型和一些卷積層構建而成。它的主要工作是對原始圖像進行16倍壓縮,也就是說,把原本龐大的圖像資訊濃縮成更加精簡的表示。這種壓縮不是簡單的"縮小圖片",而是提取圖像中真正有意義的視覺特徵,去掉那些冗餘的細節。

想像你在讀一本厚厚的小說,視覺分詞器的工作就像是先幫你把這本書改寫成一個精簡版,保留所有重要的情節轉折和人物描寫,但刪去那些無關緊要的環境描述和冗長的對話。這樣,後續的閱讀就會高效得多。

第二個部分是我們前面重點介紹的DeepEncoder V2,它是這棟建築的"核心處理中心"。從視覺分詞器出來的壓縮表示會在這裡被重新組織。前半程使用雙向注意力讓所有視覺標記互相交流,形成全局理解;後半程使用因果注意力讓查詢標記逐步生成語義化的排列順序。最終,只有那些因果查詢標記的輸出會被送往下一個階段。

關於這個注意力機制的設計,研究團隊採用了一種非常聰明的"拼接式"結構。整個注意力矩陣被分成四個區域:左上角是視覺標記之間的全連接(每個都能看到所有其他的);右上角是空白(視覺標記不需要關注查詢標記);左下角是查詢標記對所有視覺標記的關注;右下角是查詢標記之間的因果連接(只能看到前面的,不能看到後面的)。這個設計既保留了視覺理解需要的全局感知能力,又引入了語言模型擅長的因果推理能力。

第三個部分是DeepSeek-MoE解碼器,它是整棟建築的"輸出大廳"。這是一個30億參數的混合專家模型,但實際運行時只有大約5億參數被激活。它接收經過重新排序的視覺表示,結合用戶的提示指令,生成最終的文字輸出。由於這項研究主要聚焦於編碼器的改進,解碼器沿用了之前DeepSeek-OCR的設計,沒有做大的改動。

整個流程可以用一個公式簡潔地表達:輸入圖像先經過視覺分詞器得到視覺標記,然後這些視覺標記和可學習的查詢標記一起送入帶有特殊注意力掩碼的Transformer層,只保留查詢標記的輸出送入語言解碼器,最終生成文字結果。從數學上看非常清晰優雅,從直覺上理解就是:先壓縮、再重排、最後解讀。

聰明的"多鏡頭"策略

處理不同尺寸和解析度的文檔是一個實際應用中的重要挑戰。一張名片和一份A3海報顯然不能用完全相同的方式處理。DeepSeek-OCR 2採用了一種被稱為"多裁剪策略"的方法來應對這個問題。

你可以把這想像成一位攝影師在拍攝一幅壁畫。他會先退後幾步,拍一張全景照片,把整幅壁畫都收入畫面;然後他會靠近一些,對準壁畫的不同區域分別拍攝特寫,捕捉那些細節豐富的部分。最後,把這些照片組合在一起,就既有了整體的空間關係,又有了局部的精細資訊。

DeepSeek讓AI學會像人一樣閱讀一場關於視覺理解的認知革命

DeepSeek-OCR 2的處理方式與此類似。對於每一張輸入圖像,系統首先會生成一個固定尺寸(1024×1024像素)的"全局視圖",對應256個因果查詢標記。這個全局視圖就像攝影師的全景照片,提供對整體布局的把握。然後,根據圖像的實際尺寸,系統可能會額外生成0到6個"局部視圖",每個尺寸為768×768像素,對應144個因果查詢標記。這些局部視圖負責捕捉細節資訊。

通過這種設計,系統最終送入語言模型的視覺標記數量在256到1120之間,具體取決於輸入圖像的複雜程度。值得注意的是,這個1120的上限與Gemini-3 Pro模型使用的最大視覺標記預算相當,但DeepSeek-OCR 2用更少的標記就能達到更好的效果。這就像一位經濟高效的旅行者,用更少的行李完成了更精彩的旅程。

為了避免為不同解析度維護多套查詢參數帶來的複雜性,研究團隊採用了共享查詢的設計。所有局部視圖使用同一套144個可學習的查詢嵌入,全局視圖使用一套專屬的256個查詢嵌入。這種設計既保證了系統的靈活性,又控制了參數規模,體現了工程實現上的精巧考量。

訓練一個"會讀書"的AI

訓練DeepSeek-OCR 2就像培養一個孩子學會閱讀一樣,需要經歷多個循序漸進的階段。研究團隊設計了一個三階段的訓練流程,每個階段都有明確的目標和側重點。

第一個階段是"基礎教育",主要目標是讓視覺分詞器和語言模型風格的編碼器掌握基本功:特徵提取、標記壓縮和標記重排的基礎能力。這個階段使用兩種解析度的數據(768×768和1024×1024),訓練了大約4萬次疊代,處理了約1億個圖文對樣本。視覺分詞器繼承了之前DeepEncoder的權重,而語言模型編碼器則從Qwen2-0.5B初始化。就像一個孩子在這個階段學會了認字和基本的閱讀理解。

第二個階段是"強化訓練",主要目標是進一步增強查詢標記的重排能力和視覺知識壓縮能力。在這個階段,視覺分詞器被凍結不再更新,而語言模型編碼器和語言模型解碼器聯合優化。兩種解析度的數據也被統一到一個數據加載器中,通過多裁剪策略處理。這個階段訓練了1.5萬次疊代。就像孩子開始大量閱讀不同類型的書籍,在實踐中磨練技能。

第三個階段是"快速消化",主要目標是讓語言模型解碼器更好地理解編碼器輸出的重排序列。在這個階段,整個DeepEncoder V2都被凍結,只有語言模型解碼器的參數在更新。這種設計有兩個好處:一是訓練速度大大提升(相同全局批次下速度翻倍以上),二是讓解碼器能夠專注於適應編碼器產出的新格式數據。這個階段又訓練了2萬次疊代。就像孩子已經掌握了閱讀技能,現在開始針對考試進行專項訓練,進一步提高答題速度和準確率。

在整個訓練過程中,數據的質量和多樣性至關重要。研究團隊使用了與DeepSeek-OCR相同的數據源,包括OCR 1.0、OCR 2.0和通用視覺數據,其中OCR數據占比高達80%。他們還做了兩項改進:一是對OCR 1.0數據按內容類型(純文本、公式、表格)以3:1:1的比例進行更均衡的採樣;二是對布局檢測的標籤進行了精細化處理,合併了語義相似的類別(比如把"圖片說明"和"圖片標題"統一)。

實驗結果:數字背後的故事

任何技術創新最終都要接受實驗數據的檢驗。研究團隊選擇了OmniDocBench v1.5作為主要的評測基準,這是一個包含1355頁文檔的綜合測試集,涵蓋了9大類型的文檔,包括雜誌、學術論文、研究報告等,同時支持中文和英文兩種語言。

DeepSeek讓AI學會像人一樣閱讀一場關於視覺理解的認知革命

在這個嚴格的測試中,DeepSeek-OCR 2取得了91.09%的綜合得分,在所有參評模型中名列前茅。更值得注意的是,它使用的最大視覺標記數量只有1120,遠低於大多數競爭對手的6000甚至7000以上。這就好比在一場馬拉松比賽中,有人用更少的能量跑出了更好的成績,這種效率上的優勢對於實際應用來說意義重大。

與前作DeepSeek-OCR相比,新版本在各項指標上都有明顯提升。綜合得分從87.36%提高到91.09%,提升了3.73個百分點。文本識別的編輯距離(越低越好)從0.073降低到0.048,公式識別的準確率從84.14%躍升到90.31%,表格識別的準確率也有超過2個百分點的提升。

其中最能體現DeepEncoder V2價值的是閱讀順序指標的改善。這個指標衡量的是AI能否正確識別文檔內容的閱讀順序,比如在一個三欄排版的頁面上,是否能正確地按照第一欄、第二欄、第三欄的順序輸出,而不是把它們混在一起。DeepSeek-OCR 2在這個指標上的編輯距離從0.085降低到0.057,改善幅度達到33%。這個結果直接驗證了"視覺因果流"設計的有效性,AI確實學會了根據語義內容來安排閱讀順序。

研究團隊還進行了更細緻的分類分析,考察不同類型文檔的表現。在9種文檔類型中,DeepSeek-OCR 2在閱讀順序指標上全面超越前作,沒有例外。不過,在某些特定類型上還存在改進空間,比如在新聞報紙類型上,文本識別的編輯距離略有上升(從0.131到0.139)。研究團隊分析認為,這可能是因為報紙通常文字密度很高,而視覺標記的上限有所下降導致資訊丟失;另外,訓練數據中的報紙樣本只有約25萬個,相對不足。這些發現為未來的改進指明了方向。

在生產環境中的表現同樣令人鼓舞。研究團隊將DeepSeek-OCR 2部署在兩個實際場景中:一個是為DeepSeek大語言模型提供圖像識別服務的在線OCR系統,另一個是處理PDF文檔生成訓練數據的批處理流水線。由於生產環境沒有標準答案可以比對,他們主要關注重複率這個指標,即輸出文本中重複內容的比例,這是OCR系統常見的問題。結果顯示,在在線用戶日誌圖像處理任務中,重複率從6.25%降低到4.17%;在PDF數據生產任務中,重複率從3.69%降低到2.88%。這些實打實的改進說明新架構的邏輯理解能力確實轉化為了實際效果。

至頂AI實驗室洞見

DeepSeek-OCR 2不僅是一個性能更優的OCR系統,更是一次對視覺理解基本範式的探索。研究團隊在論文中提出了兩個令人興奮的未來方向。

第一個方向是"真正的二維推理"。目前的DeepSeek-OCR 2使用了兩級級聯的一維因果推理結構:編碼器通過因果重排實現閱讀邏輯推理,解碼器通過自回歸生成實現視覺任務推理。研究團隊認為,把二維理解分解為兩個互補的一維推理子任務,可能是實現真正二維推理的突破口。當然,要達到這個目標還有很長的路要走,比如,要讓AI能夠多次回看和多跳重排視覺內容,可能需要比原始視覺標記序列更長的因果流標記。

第二個方向是"原生多模態"。DeepEncoder V2的成功初步驗證了用語言模型架構作為視覺編碼器的可行性。更重要的是,這種架構有潛力演變成一個統一的全模態編碼器,同一個編碼器,共享注意力機制和前饋網路,只需要針對不同模態(圖像、語音、文字)配置不同的可學習查詢嵌入,就能處理各種類型的輸入。這將為實現真正的多模態人工智慧奠定基礎。

回顧整個研究,DeepSeek-OCR 2最大的貢獻可能不在於具體的性能數字,而在於它開闢的新思路:與其強迫AI按照固定的空間順序處理圖像,不如讓AI學會自己根據語義內容來規劃處理順序。這種"先理解、再處理"的範式,比簡單地增大模型規模或堆疊更多數據,更接近人類智能的本質。

說到底,DeepSeek-OCR 2給我們帶來的啟示是:真正的智能不在於處理能力有多強,而在於能否像人一樣思考問題。當AI開始學會"看什麼"和"怎麼看"的時候,它就離理解這個世界更近了一步。這項研究雖然聚焦於文檔閱讀這個看似狹窄的領域,但它探索的問題,如何讓機器擁有人類般的感知和理解能力,卻是人工智慧研究的核心命題之一。我們有理由期待,這條道路上還會有更多令人驚喜的發現。

END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

Q&A

Q1:DeepSeek-OCR 2和普通OCR軟體有什麼區別? 

A:最大的區別在於"閱讀邏輯"。普通OCR只是機械地從左到右、從上到下識別文字,而DeepSeek-OCR 2能夠理解文檔的語義結構,自動判斷正確的閱讀順序。這意味著它在處理複雜排版(如多欄、表格、混合布局)時會更加準確。

Q2:這項技術會不會讓PDF處理變得更便宜? 

A:理論上會。DeepSeek-OCR 2隻需要約1120個視覺標記就能達到其他模型需要6000-7000個標記才能達到的效果,這意味著在相同的計算資源下可以處理更多文檔,或者用更少的資源達到同樣的效果,從而降低成本。

Q3:普通用戶什麼時候能用上這項技術? 

A:研究團隊已經將代碼和模型權重開源,開發者可以直接使用。對於普通用戶來說,這項技術可能會逐步集成到DeepSeek的各類產品中,比如AI助手的圖片理解功能或者文檔處理工具,但具體時間表需要關注官方公告。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新