谷歌研究院打造「論文助手工具」，AI審稿時代正在悄然開啟

這項由谷歌研究院（Google Research）與卡內基梅隆大學聯合開展的研究，於2026年6月26日以預印本形式發布在arXiv平台，論文編號為arXiv:2606.28277。研究團隊橫跨谷歌研究院多個方向，涵蓋理論電腦科學、機器學習系統與人工智慧基礎設施等領域。

贊助商廣告

每年秋天，全球數以萬計的研究者會把自己熬夜寫就的論文投向幾個頂級學術會議——NeurIPS、ICML、ICLR。這些會議相當於人工智慧領域的"奧運會"，能被錄用意味著巨大的聲譽與職業機會。然而，這場奧運會正面臨一個越來越荒誕的困境：參賽選手的數量以火箭速度增長，而裁判員的數量幾乎紋絲不動。論文該怎麼審？誰來審？審得過來嗎？

谷歌的這篇研究正是為了正面回答這個問題。他們開發了一款名為"論文助手工具"（Paper Assistant Tool，簡稱PAT）的人工智慧系統，並已經在兩個頂級電腦科學會議中真實部署測試。這不僅僅是一個實驗室里的演示，而是一次切實影響了數千篇真實學術論文的實踐。

**一、一場正在失控的洪水：學術界的審稿危機**

先來感受一下這場"洪水"的規模。研究團隊整理了2020年到2026年間，三大頂級人工智慧會議（ICLR、ICML、NeurIPS）的投稿數量變化。2020年，這三個會議合計收到約1.7萬篇投稿。到了2024年，這個數字跳升至約3.3萬篇。2025年進一步攀升到約4.5萬篇。而根據已知數據推算，2026年這個數字可能逼近7.4萬篇，年增長率高達約63%。

這種增長速度意味著什麼？以ICML為例，2026年僅這一個會議就收到了超過2.4萬篇論文投稿。如果每篇論文平均需要三位審稿人各花10個小時認真審閱，那麼這一屆ICML就需要消耗超過70萬個人工審稿小時——相當於一個人連續工作80年不間斷。

是什麼推動了這場投稿洪流？研究團隊給出了一個有說服力的線索：早在2024年，arXiv平台上至少有17.5%的電腦科學摘要帶有明顯的AI生成痕跡，在某些生物醫學子領域這個比例甚至高達40%。換句話說，AI不僅在幫助科學家更快地做研究，也在幫助他們更快地寫出論文。產出端加速了，驗證端卻還停留在手工作坊階段。

贊助商廣告

在數學和理論電腦科學這類領域，情況尤為棘手。審稿人需要逐行核實密密麻麻的數學證明，一篇論文可能就要花幾天時間。這種認知勞動無法簡單地通過招募更多志願者來解決，因為合格的審稿人本身就是稀缺資源，而且他們自己也要參與這場投稿競賽。

**二、PAT是什麼：一個會"深度思考"的自動審稿員**

面對這場危機，谷歌團隊的解題思路是：既然AI加速了論文產出，就也應該讓AI來幫助論文驗證。PAT正是這一思路的產物。

要理解PAT的工作方式，先得理解為什麼簡單地"讓AI讀論文"行不通。最直接的想法是把整篇論文扔給一個大語言模型，讓它一口氣給出評審意見。但這有個根本問題：驗證複雜的數學證明需要模型進行大量深度推理，這種推理會消耗大量的"思考空間"（專業上叫做上下文窗口）。一篇20頁密集證明的論文，光是認真核實一個關鍵引理，就可能把模型的思考容量消耗殆盡，更遑論審閱整篇論文。

另一種看似聰明的方案是"多次嘗試取最好"（業界稱之為Pass@k）：把同一篇論文反覆餵給模型十次，看哪一次能發現問題。這種方式確實能提高發現問題的概率，但代價是產生大量"噪音"。如果模型每次嘗試都列出10條疑似問題，而其中真正的關鍵錯誤只有一條，那麼人工審核者就要在100條候選意見中大海撈針。更麻煩的是，多次獨立運行的模型沒有協調機制，可能十次都盯著論文的同一段落反覆分析，而其他章節則完全沒人理會。

PAT的設計正是為了繞開這兩個陷阱。整個系統由四個依次運行的階段構成，像是一條精心設計的流水線。

第一階段是"文檔分割"。PAT配備了一個專門的"分割代理"，負責把輸入的論文拆解成若干語義完整的片段，比如引言、理論證明、實驗設計、結論等。這些片段可以有重疊，也可以是不連續的頁面組合，關鍵是每個片段在邏輯上是一個自洽的整體。這一步的作用類似於把一本厚厚的教材拆分成章節，讓每位老師專門負責批改一章的作業，而不是讓所有老師同時翻閱整本書。

贊助商廣告

第二階段是"自適應預算分配"。分割代理在識別各片段的同時，還會評估每個片段的資訊密度和複雜程度，並據此動態分配計算資源。直白來說，就是"難的地方多花時間，簡單的地方省著點"。包含密集數學證明的理論章節會被分配最高等級的思考算力，實驗描述部分分配中等算力，而引言和結論這類敘述性章節則只需較輕量的處理。這種分配機制讓有限的計算預算能花在刀刃上。

第三階段是"深度審閱"。針對每個片段，PAT會調用專門的"深度審閱代理"進行精細分析。這些代理由谷歌最新的Gemini Deep Think模型驅動，能夠進行大量深度推理。雖然每個代理只負責審查論文的一個片段，但它在分析時仍然能夠訪問整篇論文的內容作為背景參考，確保不會因為局部聚焦而失去整體視角。

第四階段是"全局綜合"。各片段的審閱報告匯總到一個"綜合代理"手中。綜合代理的工作不只是簡單拼接各份報告，它還會藉助谷歌搜索來核驗報告中涉及的引用文獻、定理或工具是否真實存在（因為AI有時會編造看起來合理的引用），同時對重複出現的問題進行去重，並根據嚴重程度對所有發現進行排序，最終輸出一份條理清晰的綜合評審報告。

整個流水線的設計哲學是：讓每個環節只做自己最擅長的事，通過協調合作來實現單個模型無法達到的深度和廣度。

**三、考試時間：在真實錯誤案例庫上的測試成績**

光說不練假把式。研究團隊把PAT拿去接受了一次嚴格的實戰檢驗，測試素材是一個名為SPOT的基準數據集。這個數據集收集的是真實發表過、後來因為存在錯誤而被撤稿或更正的論文——也就是說，每篇論文裡都藏著一個已經被人類專家確認過的真實錯誤，是名副其實的"答案已知的考題"。

為了聚焦於PAT最核心的能力——數學和邏輯推理——研究團隊從SPOT中篩選出數學和電腦科學領域裡涉及"方程/證明"類錯誤的論文，最終得到26篇論文、29個錯誤的評測子集。

贊助商廣告

測試方法是：把每篇論文餵給系統，讓它生成一份錯誤報告，然後檢查報告裡有沒有發現那個已知的真實錯誤。為了避免評分本身的主觀性，團隊使用了一個專門設計的自動評分模型來判斷系統的報告是否在邏輯上等價於已知錯誤，而且還讓團隊內的人工審核員對每一道評分結果進行了覆核，確保評分可靠。

結果如何？SPOT數據集本身記錄的原有最高水平（當時最好的自動化系統）只能檢測到約21%的錯誤。谷歌最新的基礎模型Gemini 3.1 Pro在不做任何特殊處理、直接單次調用的情況下，檢測率躍升到了55.2%——這本身已經是一個驚人的進步，說明新一代基礎模型的推理能力已經遠超過去的專門系統。

而PAT在Gemini 3.1 Pro的驅動下，檢測率進一步提升到89.7%，相比單次調用基線提升了整整34個百分點。這意味著近九成已知錯誤都被成功識別，只有一成左右漏網。

研究團隊舉了一個具體例子來說明PAT的深度推理能力：在一篇關於對偶Banach空間（一類抽象數學結構）的論文中，有一個關於複數算子空間中實線性映射的收縮性聲明是錯誤的。當單次調用模型讀到這個聲明時，它接受了這個說法——畢竟這個聲明的措辭看起來合情合理，表面上沒有明顯破綻。但PAT不滿足於"看起來合理"，它調動深度推理能力主動構造了一個具體的反例，證明這個聲明在某些情況下是假的，從而揭露了論文主定理中的致命漏洞。這種"主動構造反例"的行為，才是真正的數學推理，而不只是模式匹配。

**四、走出實驗室：在真實學術會議中的部署實踐**

測試成績固然重要，但更能說明問題的是真實世界中的應用效果。谷歌團隊選擇了兩個截然不同的頂級電腦科學會議來檢驗PAT的實戰價值。

第一個是STOC（計算理論研討會），這是理論電腦科學領域最頂尖的會議之一，投稿的論文充滿了高密度的數學證明。PAT為這個會議定製的版本專注於數學嚴謹性，使用深度並行思考來尋找證明中的邏輯漏洞。第二個是ICML（國際機器學習會議），這裡的論文類型遠比STOC多樣，既有理論分析，也有大量實驗設計和數據對比。為了適應ICML的需求，團隊對PAT進行了擴展，使其能夠審查實驗框架的合理性、識別混淆因素、指出缺失的對比實驗等。這個擴展版本就是前文介紹的完整PAT系統。兩次部署都使用了當時最先進的Gemini 2.5 Deep Think作為底層引擎。

贊助商廣告

具體的部署方式是：在最終投稿截止日期的數天至數周之前，為每位作者免費提供一次PAT評審服務。作者可以根據PAT的意見修改論文，然後再提交正式版本。這裡有一個重要的設計原則：PAT的服務對象只是作者，不參與正式的同行評審流程。換句話說，PAT是作者手中的自查工具，而不是替代人類審稿人的決策機器。

兩次部署合計覆蓋了超過4700篇投稿論文，規模相當可觀。

在定量反饋方面，團隊向參與項目的作者發放了調查問卷。STOC收回124份有效反饋，ICML收回733份。兩個群體的滿意度均處於高位：STOC有97%的作者表示願意再次使用PAT，ICML這一比例也有92.1%。超過90%的作者認為反饋"非常有幫助"或"基本有幫助"。超過85%的作者表示PAT改善了論文的清晰度和可讀性。在對AI系統來說至關重要的"幻覺"問題上，超過半數的STOC作者和約65%的ICML作者認為PAT的反饋基本或完全符合事實，這被研究團隊視為一個積極信號。

最引人注目的數據來自兩個問題的回答。研究團隊問作者：PAT有沒有找到需要花費超過一小時修復的實質性理論錯誤？在STOC，有11.6%的作者回答"有"。這個比例乍聽不高，但考慮到STOC投稿的論文都是專業研究者精心打磨過的，而且通常沒有人會對整篇證明進行逐行核查，這意味著大量本來會悄悄溜進同行評審環節的錯誤，被提前攔截了。在ICML，這個比例更高，達到35.4%——超過三分之一的受訪作者表示PAT發現了需要認真修改的理論問題。研究團隊分析認為，這是因為ICML不是專門的理論會議，作者們在數學嚴謹性上的自查意識相對不那麼強。

對於機器學習會議來說另一個關鍵數據是：31%的ICML受訪者表示，他們因為PAT的評審意見而重新設計並運行了全新的實驗。考慮到實驗本身可能需要耗費大量計算資源和時間，這個比例說明PAT的影響已經超越了"挑錯"的層面，能夠真正推動研究內容的實質性改進。

贊助商廣告

在定性反饋方面，作者們的親身描述更加生動。一位作者描述了PAT發現的一個"致命算法漏洞"——一個團隊在代碼中應用某個工具時犯下的錯誤，這個錯誤困擾了他們數月都沒發現，而PAT一眼就指出了問題所在，迫使他們重寫了整整七八頁技術內容。另一位作者描述了一個無界時間區間分析中的邏輯矛盾——證明本身是錯的，他們修正之後才發現引理本身其實是成立的，只是此前的證明方法不對。

加州大學歐文分校的Vijay Vazirani教授在反饋中寫道，PAT指出了他算法中一個"微妙但致命的漏洞"，他趕在截止日期前成功修復，形容那一套意見"令人嘆為觀止"。卡內基梅隆大學的Jason Li助理教授則提到PAT發現了一個技術錯誤，雖然修起來不難，但仍然花了他兩個小時寫清楚。

當然，試點過程中也暴露了若干問題。最常被提到的挑戰包括三類：第一，關於文獻和事件的日期出錯，以及知識截止日期帶來的資訊滯後；第二，PDF文檔解析出現錯誤，導致部分內容無法被正確識別；第三，偶爾錯誤地宣稱一個實際上正確的證明存在問題，即"誤報"。研究團隊表示前兩類問題已經通過改進工具和解析方案得到緩解，第三類則是所有基於語言模型的系統固有的局限，正在通過提升推理能力持續改善。

**五、AI在同行評審中扮演什麼角色：一張從輔助到自主的路線圖**

PAT的實踐讓研究團隊深感有必要把"AI參與學術審稿"這件事系統化地談清楚。事實上，根據第三方機構Pangram Labs的研究，在2026年的ICLR會議評審中，已經有約21%的審稿意見是完全由AI生成的——儘管這違反了會議規定。既然AI參與審稿已經是一個不可忽視的現實，不如制定明確的框架來規範和引導這種參與。

研究團隊提出了一個由四個層級構成的分類體系，借鑑了汽車行業廣為人知的"SAE自動駕駛分級"體系，用來描述AI在學術審稿中不同程度的參與模式。

贊助商廣告

第一個層級叫做"作者輔助工具"，也就是PAT在STOC和ICML部署中所扮演的角色。在這個層級，AI只服務於論文作者本人，在提交之前幫助發現錯誤、改進質量。作者對論文的全部內容和結論負全部責任，AI只是一個更聰明的自查助手。這個層級的風險最小，因為AI的影響在進入正式評審之前就已經被人類過濾過了。不過它也帶來一個值得警惕的副作用：如果所有作者都用AI把論文磨光了表面的瑕疵，人類審稿人就更難通過快速掃描來區分真正的好工作和被AI"美化"過的平庸研究，需要付出更多精力才能看穿表象。

第二個層級叫做"審稿人輔助工具"。在這個層級，人類審稿人自己調用AI工具來幫助理解論文、發現問題、起草審稿意見。最終提交的審稿意見仍由人類審稿人負全責。這個層級在實踐中已經廣泛存在，只是大多數情況下處於灰色地帶。它的風險在於：AI可能產生幻覺式的批評，而審稿人如果不仔細核驗就照單全收，就可能誤傷無辜的論文；另一方面，如果審稿人沒有明確披露AI使用情況，他們在反駁階段可能會為了維護"專業權威"而固執地堅持AI錯誤生成的批評點。研究團隊認為，要讓這個層級健康運行，需要會議方制定清晰的AI使用披露政策，並建立允許作者標記"疑似AI幻覺批評"的反駁機制。

第三個層級叫做"支持性審稿人"，情況開始變得更為敏感。在這裡，AI會完整地生成一份審稿意見，參與方式與人類審稿人相當，且不會預先看到其他人類審稿人的意見，反之亦然。在這個層級的基本版本中，AI只提供客觀評估（比如證明驗證或實驗設計核查），不給出接受或拒絕的主觀建議，最終由人類決策者（比如領域主席）綜合所有意見作出判斷。研究團隊還定義了一個"3.5級"變體：AI不僅提供客觀評估，還給出評分或接受/拒絕建議，但依然需要人類領域主席最終審核和決定。使用這個層級能夠顯著降低對人類審稿工時的需求，比如在四份審稿意見中讓兩份由AI生成。但隨之而來的是幻覺影響接受決策的風險大幅上升，AI審稿人的質量需要有充分的基準對比才能信任。

贊助商廣告

第四個層級是最激進的"完全自動化同行評審"。這個層級意味著AI系統獨立完成全部評審工作，人類的角色從評審者變成了維護者和監督者。研究團隊引用了一個有說服力的背景數據：NeurIPS 2021年的一個實驗將10%的投稿隨機分配給兩個獨立的評審委員會，結果發現兩個委員會對同一篇論文的接受/拒絕決定有23%的不一致率。考慮到當年的總體錄取率約為22.7%，如果完全隨機決策，理論上的不一致率應該是35%左右。也就是說，人類評審的不一致程度其實更接近隨機，而不是接近完美一致。這個發現為"AI評審可能不比人類更差"提供了一定的邏輯支撐。

研究團隊還描述了一種可能的第四層級落地場景：建立一個類似arXiv的自動化預印本庫（他們戲稱為"AIrXiv"），專門收錄通過AI多輪審核的論文。論文經過多輪自動審查、作者反駁、逐條解決，最終獲得某種"置信度評級"。這種系統不會完全取代傳統同行評審，而是形成一個新的發表層級——比普通預印本更有信任基礎，但不聲稱達到頂級期刊的標準。

當然，完全自動化帶來的問題也不容忽視。最直接的擔憂是AI審稿人可能會形成同質化偏見，因為它們本質上是相似的模型，訓練數據和價值體系相近，很可能系統性地偏好某類風格或方向的研究，而抑制真正的思想多元。這種多樣性的喪失對人文學科來說尤為危險，因為這些領域本來就沒有統一的正確答案，思想碰撞本身就是學術價值的一部分。

**六、一個更大的圖景：科學驗證的未來**

歸根結底，這項研究所揭示的，是一場還在進行中的歷史性變遷。AI加速了科學產出，這一點已經無法逆轉。問題不是"要不要用AI"，而是"如何負責任地用AI"。

PAT代表的是一種相對保守但腳踏實地的路徑：讓AI成為人類研究者的工具，而不是替代者。通過在論文提交前提供深度自查，PAT幫助作者提高了論文質量，也間接減輕了人類審稿人的負擔。在近五千篇論文的實際測試中，這種方式已經展現出切實的價值。

贊助商廣告

但研究團隊同時也清醒地指出，隨著AI能力持續提升，學術界將面臨越來越多關於權責邊界的艱難抉擇：當一篇論文被AI拒絕、影響了一位年輕學者的職業發展，責任算在誰頭上？當所有人都使用相同的AI工具來寫作和審稿，科學界的思想生態會不會走向單調？當AI評審系統變成了一個可以被"攻關"的目標，會不會出現專門針對AI弱點設計的論文？這些問題沒有簡單答案，但討論必須提前開始。

對於普通讀者來說，這項研究的現實意義在於：未來幾年，學術界的論文質量管控方式很可能會發生你沒有察覺但確實深刻的變化。你讀到的研究報告、科學新聞引用的論文，背後的把關機制可能已經有AI的深度參與。理解這一變化如何發生、有哪些保障、存在哪些局限，是每個關心科學公信力的人都應該了解的事。

有興趣深入了解的讀者，可以通過arXiv編號2606.28277查閱這篇論文的完整內容，題目為《Towards Automating Scientific Review with Google's Paper Assistant Tool》。

---

Q&A

Q1：PAT是如何避免像普通AI一樣漏掉複雜數學錯誤的？

A：PAT的核心設計是把論文拆成多個語義片段，讓不同的深度推理代理分別專注審查各自負責的部分，而不是讓一個模型一口氣處理整篇論文。對於高密度的理論證明章節，系統會分配更多的計算資源和推理步驟，讓模型有足夠的"思考空間"來主動構造反例或驗證邏輯鏈條，最後再通過綜合代理去重和核驗，才輸出最終結果。

Q2：PAT在SPOT測試中89.7%的檢測率，是不是意味著可以直接代替人類審稿人？

A：這個數字說明PAT在發現已知類型的數學錯誤上非常有效，但直接代替人類審稿人還為時尚早。審稿不只是找錯誤，還涉及判斷研究是否有足夠的創新價值、實驗設計是否合理、結論是否過度聲明等主觀判斷。目前PAT的定位是"作者提交前的自查工具"，幫助作者在論文進入正式評審之前發現和修復問題，人類審稿人依然掌握最終評判權。

贊助商廣告

Q3：PAT審稿會不會泄露論文內容，存在學術資訊安全風險？

A：這是部署PAT過程中確實需要認真對待的問題。根據論文描述，STOC和ICML的試點項目是與會議方正式合作、面向作者免費提供的服務，屬於作者主動申請使用的工具。不過論文本身並沒有詳細討論數據隱私保護的技術細節，對於擔心論文保密性的讀者來說，這一點確實值得在使用前向服務提供方進一步確認。