宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

耶魯大學與浙江大學聯手攻克「PDF轉LaTeX」難題:AI終於能讀懂科學論文的「骨架」了?

2026年05月05日 首頁 » 熱門科技

這項由耶魯大學與浙江大學聯合開展的研究於2026年4月以預印本形式發布,論文編號為arXiv:2604.22880,題為《TEXOCR耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了: Advancing Document OCR Models for Compilable Page-to-LaTeX耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了 Reconstruction》。有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。

**科學論文的"外殼"與"骨架"**

每天,世界各地的科研人員都在發表數以千計的學術論文,這些論文絕大多數以PDF格式存在於網際網路上。PDF就像一張精美印刷的報紙——看起來漂亮,內容清晰,但如果你想把報紙上的一篇文章剪下來重新排版、修改或者引用其中某個公式,你會發現這件事出乎意料地麻煩。

科學論文的真正"骨架"不是PDF,而是LaTeX(讀作"拉泰赫")。LaTeX是一種專門用於撰寫科學論文的排版語言,它就像建築藍圖——PDF是建好的房子,LaTeX是設計圖紙。有了LaTeX源文件,你可以任意修改公式、調整表格、重新編譯生成新版本;而只有PDF的話,你能做的幾乎只有閱讀。

長期以來,科研界的一大痛點就是:絕大多數已發表的論文只有PDF,沒有LaTeX源碼。這意味著研究人員在引用公式、復用表格數據或者將論文內容整合進新工作時,不得不手動重新輸入每一個符號、每一行表格——這是極其耗時且容易出錯的體力勞動。

正是為了解決這個問題,來自耶魯大學和浙江大學的研究團隊開發了一套名為TEXOCR的系統,目標是讓AI自動"閱讀"PDF頁面,並將其還原為可以直接編譯運行的LaTeX代碼。這聽起來簡單,但其中的挑戰遠比想像中複雜得多。

---

**一、PDF轉LaTeX:為什麼比"看圖說話"難得多**

普通的文字識別技術(OCR,光學字符識別)已經相當成熟。你用手機掃描一張收據,軟體能準確識別出每一個數字和文字——這就是OCR在工作。但PDF轉LaTeX的難度,相當於不僅要識別出收據上的字,還要還原收據的整個會計系統:哪些數字屬於同一類別、它們之間的計算關係是什麼、哪些數字被打了折扣、哪些是稅費……

在科學論文中,這種複雜性體現在以下幾個層面。首先是數學公式的還原。一個簡單的求和公式,用LaTeX寫出來可能是十幾行代碼,裡面有各種括號、上下標、特殊符號,任何一個細節出錯,公式要麼無法顯示,要麼顯示成完全不同的含義。其次是表格結構的還原。科學論文中的表格往往有複雜的合併單元格、多行表頭、跨列數據,稍有偏差整個表格就會"垮掉"。再次是交叉引用的還原。論文中的"如圖3所示"、"見公式(5)"這類引用,在LaTeX中都是精確的代碼鏈接,如果某個引用指向了不存在的標籤,整個文檔就會報錯。

最關鍵的一點是:生成的LaTeX代碼不僅要"看起來正確",還必須能夠被LaTeX編譯器成功編譯,輸出真正的PDF。這個要求就像不僅要寫出看起來像程序的代碼,還要保證這段代碼能真正運行並輸出正確結果。現有的AI系統在這方面表現得相當糟糕——它們往往能生成"七八分像"的LaTeX代碼,但裡面隱藏著各種細微錯誤,導致整個文檔無法編譯。

研究團隊把這類問題稱為"文檔不變量耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了"的違反——也就是說,一個正確的LaTeX文檔必須滿足某些硬性規則,比如大括號必須成對出現、所有被引用的標籤必須存在、章節層級必須正確嵌套。這些規則在PDF里看不出來,但在LaTeX代碼層面是不可妥協的。

---

**二、造一把衡量尺:TEXOCR-Bench耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了評測基準**

在動手訓練AI之前,研究團隊面臨的第一個問題是:怎麼衡量AI做得好不好?

以前的評測方法大多只看"表面相似度"——把AI生成的文字和標準答案做對比,計算有多少字符是一樣的。這就像評判一道菜是否做好,只看顏色是否相似,而不管味道如何、能不能吃。對於LaTeX代碼而言,兩段代碼可以看起來非常相似,但其中一段能完美編譯,另一段卻因為一個漏掉的反斜槓而徹底崩潰。

為此,研究團隊構建了一個名為TEXOCR-Bench的評測基準,包含2135個經過人工標註的樣本,覆蓋多種文檔類型和技術領域。這些樣本來源相當多樣:既有arXiv上的當代科研論文,也有公共領域的數學教科書,還有美國國會圖書館數字檔案中的歷史信件、打字機文件,以及網際網路檔案館的政府報告和技術手冊。

更重要的是,TEXOCR-Bench設計了一套三維度、九指標的評測體系,從三個不同角度全面檢驗AI的還原能力。

第一個維度叫做"轉錄保真度",檢驗AI有沒有準確還原頁面上的實際內容。這個維度包含三個具體指標:複雜文本保留率(檢查每個章節中的代表性句子是否被完整還原,對大小寫、標點、每一個字符都嚴格匹配)、公式準確率(對數學表達式進行標準化處理後比對,看AI生成的公式是否和原文一致)、表格準確率(提取表格中的數字數據,檢查數字的重疊比例和命中率)。

第二個維度叫做"結構忠實度",檢驗AI有沒有正確還原文檔的骨架結構。這包括:章節準確率(驗證所有章節標題是否被正確還原,包括層級關係——比如二級標題不能被錯誤地識別為一級標題)、引文覆蓋率(檢查文中每一個"參考文獻引用"是否正確生成,引用鍵值是否對應正確的文獻)、引用有效性(檢查圖表引用是否符合LaTeX語法,以及那些"圖3"、"表2"的引用是否真的指向了定義好的標籤)。

第三個維度叫做"端到端可用性",檢驗生成的LaTeX代碼在實際使用中是否真的管用。這個維度包含:文檔級相似度(計算生成代碼與標準答案之間的字符級編輯距離,取值0到1之間,越高越好)、基線有效性檢查(快速篩查是否存在嚴重的生成失敗,比如大段截斷、亂碼或者無意義的重複內容)、編譯成功率(這是最嚴格的測試——把AI生成的所有LaTeX片段拼合成一個完整項目,在不進行任何手動修改的情況下直接編譯,看能不能成功生成PDF)。

編譯成功率這個指標尤為關鍵。它相當於給AI出了一道"只許成功不許失敗"的實戰考題——不是"看起來像不像LaTeX",而是"能不能真正跑起來"。

---

**三、打造訓練素材:TEXOCR-Train耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了數據集**

有了評測標準,下一步是給AI找"教材"。

研究團隊從arXiv上系統性地收集了2022年1月到2025年10月之間發表的論文,每篇論文同時獲取了PDF版本和LaTeX源碼。這樣一來,他們就擁有了大量"答案已知"的訓練樣本——給AI看PDF頁面圖片,告訴它對應的LaTeX代碼應該長什麼樣。

這個過程說起來容易,做起來卻暗藏玄機。最大的挑戰是"浮動元素"的處理問題。在LaTeX源碼里,圖片和表格的定義位置和它們在PDF中實際出現的頁面位置往往不一樣——這是LaTeX排版系統的特性,它會自動調整圖表的位置以保持版面美觀。這就好比一本書的目錄說第5章在第78頁,但書里章節結構的定義卻寫在第一章代碼里。如果直接按LaTeX代碼的順序來分割訓練數據,就會出現"這一頁的圖片代碼其實屬於下一頁"的混亂。

為了解決這個問題,研究團隊使用了一個名為pdf2figure的工具,它能夠自動檢測PDF中每個圖表的實際位置,然後將這些位置資訊與LaTeX源碼進行精確對齊,確保每一頁的訓練樣本都能正確匹配"這一頁圖像"與"這一頁對應的完整LaTeX代碼"。

參考文獻部分的處理也很有意思。論文末尾的參考文獻列表,在LaTeX項目中通常是以BibTeX格式儲存的(BibTeX是一種專門管理參考文獻的數據格式,就像圖書館的書目卡片系統)。研究團隊設計了一種"混合監督"策略:在參考文獻頁之前的正文部分,用標準LaTeX代碼作為訓練目標;在參考文獻頁,則用BibTeX格式作為訓練目標。這樣訓練出來的AI就能在正確的時機"切換模式",在文檔快結束時自動從"寫正文LaTeX"切換到"寫BibTeX參考文獻"。

最終,這套流程處理了57000篇論文,生成了404000個(頁面圖像,LaTeX代碼)配對訓練樣本,這就是TEXOCR-Train數據集。

---

**四、兩階段訓練:先臨摹,再精煉**

有了數據,研究團隊採用了兩階段訓練策略,就像培養一個書法家的方式——先臨摹名家字帖,再在實戰中打磨自己的風格。

第一階段是"監督微調"(SFT,Supervised Fine-Tuning)。他們選擇了阿里巴巴開發的Qwen3-VL-2B作為基礎模型——這是一個擁有20億參數、同時能理解圖像和文字的多模態大語言模型。在這個階段,AI就像一個努力臨摹字帖的學生:給它看一張PDF頁面圖片,它就嘗試生成對應的LaTeX代碼,然後和標準答案對比,哪裡寫錯了就調整。這個過程進行了整整一輪完整訓練,學習率設為十萬分之一。

第一階段訓練好的AI已經相當不錯,但仍然存在一個根本性的問題:它學到的是"如何讓生成的代碼儘可能像正確答案",而不是"如何讓生成的代碼真正能用"。這兩者的區別在於,前者是一種"像素級的相似性追求",後者是"功能性的正確追求"。一個公式可能在字符層面和答案相差不多,但關鍵的負號漏掉了,數學含義完全顛倒。

第二階段是"帶可驗證獎勵的強化學習"(RLVR耶魯大學與浙江大學聯手攻克PDF轉LaTeX難題AI終於能讀懂科學論文的骨架了,Reinforcement Learning with Verifiable Rewards)。這個階段的邏輯是:與其讓AI盲目模仿,不如讓它在實戰中接受真實的反饋。具體做法是,給AI看一張PDF頁面,讓它生成八個不同版本的LaTeX代碼,然後用一套自動化測試程序對每個版本評分——把TEXOCR-Bench中的九個評測指標都轉化成可自動計算的"通過/不通過"測試,每通過一個測試得一分,最終分數是通過測試數量與總測試數量的比值。

這就像給一個廚師學徒安排了一個苛刻的品鑑團:不僅要檢查菜的顏色和擺盤,還要驗證味道、檢查食材是否新鮮、確認烹飪溫度是否達標、看看客人吃完後有沒有不適……每一項都是獨立的、客觀的標準,不存在"差不多也算過"的情況。

強化學習算法根據這些評分,調整AI生成代碼的策略——讓得分高的生成方式出現得更頻繁,讓得分低的方式出現得更少。同時,為了防止AI在追求高分的過程中"走偏"太遠,忘記了第一階段學到的基本技能,訓練中加入了一個"KL懲罰項"——就像給學生規定"你可以發揮創意,但不能偏離基本筆法太遠"。

這種訓練方式的好處在於,獎勵信號來自真實的、可驗證的功能測試,而不是人類的主觀評判。這就是"可驗證獎勵"的精妙之處:電腦可以自動判斷一段LaTeX代碼是否能成功編譯,不需要人類專家逐一檢查。

---

**五、實戰檢驗:21個頂級AI模型同場競技**

研究團隊在TEXOCR-Bench上對21個當前最先進的AI模型進行了系統性測試,這些模型既包括GPT-5.3這樣的頂級商業AI,也包括各種開源模型。

測試結果揭示了一些發人深省的規律。

首先是商業AI的整體優勢。表現最好的是OpenAI的GPT-5.3,綜合得分78.5分(滿分100分)。它在複雜文本還原和公式識別方面表現最為穩健,但即便是這個目前最強的AI,仍然只答對了不到八成的題目。這說明PDF轉LaTeX這個任務對現有AI來說仍然相當有挑戰性。

其次是專業OCR系統的意外失落。兩個專門針對文檔識別任務開發的系統——olmOCR2和DeepSeek-OCR——在之前的PDF轉Markdown基準測試中表現出色,但在TEXOCR-Bench上卻大幅下滑。其中DeepSeek-OCR的情況尤為極端:無論研究團隊如何調整輸入提示,這個模型都堅持輸出Markdown格式的文字,而不是LaTeX代碼。這導致它在章節準確率方面只得到4.1分,引文覆蓋率僅0.3分,幾乎為零。這個案例很說明問題——能把PDF轉換成Markdown,和能把PDF轉換成可編譯LaTeX,是兩種需要本質不同能力的任務。

再來看TEXOCR自身的表現。經過兩階段訓練的TEXOCR(SFT+RLVR版本)以75分的綜合得分排在所有開源模型的首位,僅次於GPT-5.3。更有意思的是SFT和RLVR兩個階段各自貢獻了什麼。

從TEXOCR-SFT版本(只經過第一階段訓練)到TEXOCR-SFT+RLVR版本(經過兩階段訓練),綜合得分從70分提升到75分。但提升最顯著的不是文本轉錄的準確性,而是結構忠實度和端到端可用性——這兩個維度恰恰是強化學習階段的可驗證獎勵直接針對的。

具體數字上,結構忠實度從74.0分跳升到83.1分,提升了9.1分;章節準確率從73.5提升到76.7,引文覆蓋率從74.5大幅提升到85.9,參考文獻有效性從74.1飆升到86.8。這些數字背後的含義是:第二階段的強化學習訓練讓AI"真正理解"了LaTeX文檔必須滿足的結構規則,而不只是表面上模仿正確答案的樣子。

編譯成功率方面,SFT版本能成功編譯的文檔占44.3%,加上RLVR訓練後略微提升到45.2%。這個數字看起來不高,但要注意這個測試是在完全不進行任何手動修改的情況下直接編譯整篇文檔,其嚴苛程度遠超日常應用場景。

---

**六、消融實驗:每一塊拼圖都有其價值**

為了驗證設計思路的合理性,研究團隊還做了一系列"拆解實驗"——把某個設計要素去掉,看看性能會怎麼變化。

第一組實驗檢驗了RLVR中各類單元測試的貢獻。結果非常清晰:去掉轉錄保真度測試,對應的轉錄得分就會下降;去掉結構忠實度測試,對應的結構得分就會下降;去掉端到端可用性測試,對應的可用性得分就會下降。各個測試之間幾乎沒有"互相補償"的效果。這說明每一類獎勵信號都在針對性地優化一種特定能力,沒有哪個可以被其他測試替代。

第二組實驗研究了"組大小K"對訓練效果的影響。在強化學習中,每處理一張頁面,AI會生成K個不同版本的LaTeX代碼,然後對這K個版本評分並計算相對優劣。研究團隊測試了K=4、8、12、16、20、24這六種情況,發現K越大,訓練結果越穩定,得分越高。K=4時,訓練效果波動很大、不夠穩定;K=24時,得分最高且波動最小。原因在於K越大,AI每次都有更多"選項"可以比較,相對優劣的判斷就越準確,學習信號也就越可靠。

第三組實驗比較了不同的推理策略。研究團隊測試了三種方式:每次只給AI看一張頁面圖片(單圖模式)、把相鄰多張頁面圖片同時輸入給AI(多圖模式)、把多張頁面圖片拼接成一張大圖再輸入(合併模式)。結果顯示單圖模式效果最好。多圖模式會讓AI在處理不同頁面時產生"交叉干擾";合併模式則會因為圖片縮放導致解析度損失,細節文字和公式變得模糊。

---

**七、錯誤圖鑑:AI究竟在哪裡犯錯**

研究團隊對AI生成的錯誤進行了系統性分析,歸納出五種典型錯誤模式,並給出了具體案例。

最常見的錯誤是段落截斷與內容遺失。在頁面邊界處,尤其是章節過渡的地方,AI經常會漏掉一些句子,或者把"Scenarios generation"這樣的子標題和前一段文字混在一起,導致文檔結構錯誤。

數學公式錯誤是第二大問題來源。論文中展示了典型案例:原文中一個公式含有負號和特定的函數寫法,AI生成的版本把負號漏掉了,把函數表達式的結構也改變了。這種錯誤在視覺上可能並不明顯,但數學含義完全不同。

表格結構損壞是第三類錯誤。論文中展示了一個包含合併單元格的比較表格,原版有清晰的"Retr./TR/AR/AP/PP"五列,AI生成的版本列數錯誤,合併單元格的處理也出了問題,整個表格面目全非。

引用與交叉引用錯誤是第四類問題。最典型的情況是AI把帶有LaTeX語法的引用" ef{fig:motivation}"直接變成了普通文字"Fig.~1",失去了代碼層面的精確鏈接。

編譯失敗是所有錯誤的最終體現。原文中一個公式寫的是"$5 imes 10^6$",AI生成的版本變成了"5 10^6",這在LaTeX中是無效的數學表達式,會直接導致編譯報錯。另一個案例中,原文有" extbf{Implication #3:}",AI生成了"Implication #3:",未轉義的井號"#"在LaTeX中有特殊含義,直接出現在正文中會導致編譯失敗。

---

**說到底,這項研究意味著什麼**

歸根結底,這支來自耶魯大學和浙江大學的團隊做了一件很有價值的事:他們不滿足於讓AI"看起來會轉換LaTeX",而是要求AI"真正能轉換LaTeX"——生成的代碼必須能編譯、結構必須完整、引用必須有效。

這個區別聽起來微妙,實際上影響深遠。科研人員使用LaTeX的核心需求不是"要一段看起來像LaTeX的文字",而是"要一份真正能用的LaTeX項目"。研究團隊構建的評測體系、訓練數據集和訓練方法,為這個方向提供了系統性的基礎設施。

這項研究目前最明顯的局限在於,AI的處理方式是"逐頁獨立處理"——每次只看一張PDF頁面,最後把所有頁面的LaTeX代碼拼在一起。這意味著AI無法"記住"上一頁寫了什麼,也無法預知下一頁會出現什麼。對於需要跨頁保持一致性的內容(比如一個圖表在第3頁定義但在第7頁被引用),這種局部處理方式天然存在局限。研究團隊坦承,未來的重要方向是開發真正的"文檔級"處理方法,讓AI能夠理解和維護整篇文檔的全局結構。

從更宏觀的視角來看,這項研究觸及了AI輔助科研的一個核心問題:如何讓AI不只是生成"形似正確"的輸出,而是生成"功能正確"的輸出。可驗證獎勵的訓練思路——用客觀、自動化的測試作為獎勵信號——可能是未來AI訓練的一個重要方向,不僅適用於LaTeX生成,也適用於代碼編寫、數據處理、邏輯推理等各種需要"功能正確性"的任務。

如果你對這項研究感興趣,可以在arXiv上通過編號2604.22880找到完整論文,研究團隊也開放了數據集和代碼供學術使用。

---

Q&A

Q1:TEXOCR-Bench和其他OCR評測基準有什麼不同?

A:TEXOCR-Bench的核心區別在於它要求AI生成的LaTeX代碼必須真正可以編譯運行,而不只是在文字上與標準答案相似。它設計了九個指標,從文本準確性、文檔結構到能否成功編譯,三個維度全面評測,其中"編譯成功率"這個指標是之前同類基準沒有的硬性功能測試。

Q2:為什麼DeepSeek-OCR在PDF轉Markdown任務上表現好,但在TEXOCR-Bench上幾乎得了零分?

A:DeepSeek-OCR的模型被訓練為輸出Markdown格式文字,這是一種比LaTeX簡單得多的格式,沒有編譯要求、沒有精確的交叉引用、沒有複雜的數學環境。無論提示詞怎麼修改,模型都堅持輸出Markdown,導致它生成的內容里幾乎沒有任何有效的LaTeX結構命令,在章節識別、引文覆蓋、參考引用等方面的得分都接近於零。

Q3:兩階段訓練中強化學習具體提升了哪些能力?

A:強化學習階段主要提升了結構忠實度和文檔可用性,而不是基礎文字轉錄準確性。具體來說,章節準確率從73.5提升到76.7,引文覆蓋率從74.5提升到85.9,參考文獻有效性從74.1提升到86.8。這是因為強化學習的獎勵信號直接針對這些結構性規則的遵守情況,迫使模型真正內化LaTeX文檔的"不可違反規則",而不只是在表面上模仿正確答案。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新