這項由卡內基梅隆大學、韓國科學技術院(KAIST)、NEC歐洲實驗室等全球二十餘所高校和研究機構聯合開展的研究,以預印本形式於2026年5月20日發布在arXiv平台,編號為arXiv:2605.20668。研究團隊橫跨物理學、生物學、健康科學等多個領域,匯聚了45位一線領域科學家,歷時數月完成了迄今為止規模最大的AI審稿質量評估研究。
科學界每年產出的論文數量正在以前所未有的速度膨脹。在著名的NeurIPS、ICLR等頂級AI學術會議上,投稿數量幾乎每年都在翻倍,而願意認真審稿的專家數量卻沒有同步增長。與此同時,《Nature》《Science》這樣的頂級期刊,從論文投遞到最終發表,平均要等上100到160天。這種"審稿人荒"已經成為整個學術界公認的危機。
於是,AI審稿員登場了。AAAI-26已經把AI審稿系統部署到所有22977篇主會論文的初審環節;《NEJM AI》期刊也推出了"快速通道"流程,引入AI輔助審稿。全球超過50%的研究人員已經在悄悄用AI工具幫自己寫審稿意見,有時甚至違反了所在期刊的規定。
然而,AI審稿員到底好不好用?過去的研究評估方式相當粗糙:把AI打的分和人類打的分做比較,或者看AI的"接受/拒絕"建議與人類決定是否一致。這就好比評價一位餐廳評論家,只看他最後給幾顆星,而完全不管他在評論里寫了什麼、說的對不對、重不重要。這種評估方式的根本缺陷在於,兩份審稿可以給出一模一樣的分數,但一份充滿真知灼見,另一份不過是廢話連篇。
這支研究團隊決定換一種方式。他們把每一條審稿意見拆解成最小的獨立批評單元——他們稱之為"審稿條目"——然後請與論文研究方向高度匹配的領域專家,逐條評判每個審稿條目是否正確、是否重要、是否有足夠的證據支撐。這套方法就像是請專業食評家不只給餐廳評分,而是對菜單上每道菜逐一品評:這道菜的食材新不新鮮?這道菜的烹飪手法對不對?擺盤是否達到應有水準?
**一、評判的尺子是如何製造的**
研究團隊面臨的第一個挑戰是:評判一條審稿意見,用什麼標準?
他們設計了一套三層遞進的評價體系,就像一道有三關的篩選流程。第一關問的是"這條批評是否正確"——也就是說,審稿人指出的問題,在論文裡是否真實存在,而不是審稿人看錯了或者理解偏了?第二關是在第一關通過的前提下,追問"這個問題重要嗎"——分成三檔:非常重要(改了能讓論文質量大幅提升)、略有意義(比如錯別字或格式問題)、無關緊要(寫在審稿里反而是噪音)。第三關則在前兩關都通過的情況下,繼續追問"這條批評有沒有拿出足夠的證據"——審稿人是否引用了論文原文、代碼片段或者相關文獻來支撐自己的論點?
這三關是環環相扣的:只有先判定正確,才評重要性;只有判定至少有一定意義,才評證據是否充分。這種設計避免了"一個籠統分數掩蓋所有細節"的問題。
為了驗證這套標準的可靠性,研究團隊讓27篇論文的審稿條目各被兩位獨立專家同時評判,產生908個"雙重評判"數據點。結果顯示,在"是否正確"和"證據是否充分"這兩個維度上,兩位專家的一致性接近完美;在"是否重要"這個維度上,一致性處於中等水平——畢竟,重不重要這件事本來就帶有一定主觀色彩,專家之間也會有合理分歧。
這項研究總共選取了82篇發表在《Nature》及其系列子刊(主要是《Nature Communications》)上的論文,覆蓋物理、生物、健康三大科學領域的27個細分方向。每篇論文都附有官方公開的人類審稿意見(Nature系列期刊有透明審稿政策),同時在Research Square平台上有可獲取的投稿前版本——這意味著AI審稿員和人類審稿員看到的是同一份稿件。
三位AI審稿員——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——各自被部署為能夠訪問論文全文、補充材料、圖片和提交源代碼的智能體,每篇論文最多產出5條審稿條目,並且被要求為每條批評提供詳細的引用證據。
**二、AI到底有多准,又有多深刻**
現在進入正題:當研究團隊把所有審稿條目都交給專家評分之後,AI和人類各自表現如何?
先說正確率。人類審稿員中評分最高的那位(研究團隊稱之為"頂級人類審稿員"),平均正確率高達92.3%。也就是說,他提出的批評中,超過九成都確實命中了論文存在的真實問題。相比之下,GPT-5.2的正確率是86.2%,Claude Opus 4.5是83.7%,Gemini 3.0 Pro是81.9%。三位AI都比頂級人類審稿員低了六到十個百分點,差距不算小,但也絕非不堪入目。
然而故事在這裡出現了戲劇性轉折。當研究者把目光從"正確率"轉向"重要性"時,結果完全顛倒了。在那些被判定為正確的批評中,AI提出的問題往往比人類更重要。頂級人類審稿員的平均重要性評分是1.39分(滿分2分),而GPT-5.2達到了1.61分,Claude Opus 4.5是1.53分,Gemini 3.0 Pro是1.56分——三位AI全部顯著超越了最優秀的人類審稿員。換句話說,AI雖然偶爾會"指錯地方",但它一旦指對了,指出的往往是更要緊的問題。
在證據充分性方面,GPT-5.2和Claude Opus 4.5都略高於頂級人類審稿員,分別達到97.1%和96.5%,而Gemini 3.0 Pro(89.5%)與頂級人類審稿員(92.2%)相比沒有統計意義上的顯著差異。
這三個維度單獨看都有意義,但真正讓人信服的是研究團隊設計的一個綜合指標——"完全優質"(fully positive):一條審稿條目必須同時滿足正確、重要、證據充分,才算完全優質。這個指標模擬的是現實情況:一條審稿意見就算寫得正確,但如果只是雞毛蒜皮,或者沒有任何證據支撐,作者讀完也不知道該怎麼改。
在"完全優質"比率上,頂級人類審稿員的平均值是48.2%,最差人類審稿員是36.2%。GPT-5.2達到了60.0%,以統計顯著性超越了最優秀的人類審稿員(p值為0.009,這在統計學上意味著這個差距不是偶然)。Claude Opus 4.5是53.1%,Gemini 3.0 Pro是50.2%,兩者與頂級人類審稿員沒有統計意義上的顯著差異,但都顯著高於最差人類審稿員。
為了進一步驗證這些數字,研究團隊還請每位專家做了一個整體判斷:讀完一篇論文的所有審稿意見後,你認為哪位AI審稿員的整體質量達到或超過了最優秀的人類審稿員?結果是,專家們認為GPT-5.2在48.6%的論文裡達到或超過了頂級人類審稿員;而從另一個角度看,所有三位AI在超過半數的論文裡都超越了最差的人類審稿員。
**三、AI審稿員究竟在看什麼,人類又在看什麼**
知道AI和人類各自的分數高低還不夠,更重要的問題是:他們是否在關注同樣的問題?如果AI只是用不同的方式複述了人類已經說過的話,那麼把AI加入評審團,本質上沒有任何增益。
研究團隊為此設計了一套精細的"相似度判斷"框架。他們把每條審稿條目拆解為三個成分:目標(論文哪個部分被批評)、批評內容(對這部分提出了什麼問題)、支撐證據(用什麼來支持這個批評)。兩條審稿條目只有在目標相同且批評內容也相同的情況下,才被認定為"相似"——只是碰巧都批評了同一個圖,但一個說誤差棒缺失,另一個說配色方案不友好,這不算相似。
為了處理總計65704對交叉比較,研究團隊使用GPT-5.4作為自動判斷工具,並在164對人工標註樣本上驗證其準確性,達到了92.7%的二元分類準確率。
結果相當出人意料。兩位不同的人類審稿員,審同一篇論文,他們提出的批評只有3.4%是相似的。換句話說,人類審稿員彼此之間的觀點幾乎完全不重疊,每個人都帶來了獨特的視角。這驗證了一個古老的學術共識:多人評審之所以有價值,正是因為每個人看問題的角度不同。
AI審稿員與人類審稿員之間的重疊率是5.1%——略高於人與人之間的3.4%,但差距不大,置信區間還有大量重疊。這意味著,把一位人類審稿員替換成一位AI審稿員,評審團整體的多樣性損失非常有限。
然而,當三位AI審稿員被放在一起比較時,情況就大不相同了。不同AI模型之間的重疊率高達20.9%——比人與人之間高出整整六倍。三位AI各自審同一篇論文,很可能同時指出同一個問題,只是措辭不同。這意味著,如果一個評審團由三位AI組成,那麼它提供的視角多樣性會遠遠不如三位人類。
從覆蓋率的角度看,一位AI審稿員能覆蓋另一位人類審稿員27.1%的審稿條目,而另一位人類審稿員覆蓋前者的比例是25.8%——兩者幾乎持平。但如果用三位AI同時審稿,他們的批評在"目標"層面能覆蓋三位人類83%的關注點,但在"具體批評內容"層面只有46.3%。換句話說,AI和人類常常在盯著同一個地方,但對於那個地方存在什麼問題,雙方的判斷有很大分歧。
更有意思的是,AI單獨發現、沒有任何人類指出的問題,占所有AI批評的26%。專家評估顯示,這26%中有81.8%是正確的,有93.5%有充分證據支撐——這些問題並不是AI在胡說八道,而是真實的、有據可查的問題,只是人類審稿員沒有注意到。不過,與人類也指出的那些問題相比,這些"獨家發現"的重要性評分略低一些。
**四、AI最擅長什麼,又最常在哪裡翻車**
研究團隊從45位專家的自由評論中,系統整理出了AI審稿員的16類典型失誤和6類典型優勢。這是本研究中最具實用價值的部分,因為它直接回答了一個問題:如果要改進AI審稿系統,應該從哪裡下手。
最常見的失誤,研究團隊將其稱為"不懂社區規範",共出現54次。這類問題的模式是:AI提出的批評,在通用科研標準下完全合理,但在該論文所屬的特定細分領域裡,被批評的做法其實是約定俗成的慣例。
舉一個具體例子:GPT-5.2在評審一篇粒子物理論文時,批評說論文的分析過程沒有記錄足夠的細節,無法讓外部研究者獨立復現實驗結果。這個批評聽起來完全正確——開放科學的基本要求嘛。但該領域的專家解釋說,在CERN(歐洲核子研究中心)發表的論文裡,相關的校準數據和擬合參數是由實驗協作組內部維護和使用的,從來不會作為論文附件公開發布;只有在特別重要的情況下才會例外。AI不了解這個慣例,於是把一個"正常的學科邊界"誤讀成了"可重複性缺陷"。
第二類常見失誤是"論文明明寫了,AI說沒有",出現37次。這類錯誤的根源是AI的長上下文管理能力不足。AI審稿員在工作時需要同時處理論文正文、補充材料、圖片說明、代碼文件以及從網路檢索到的參考文獻,當這些內容累積超過一定限度,AI會對早期讀過的內容進行壓縮摘要,導致遺忘。一個典型例子是:Claude Opus 4.5在審一篇關於中國未來PM2.5濃度預測的論文時,批評說論文沒有對CMIP6模型的系統性低估偏差進行校正。但專家直接指出,論文第489到496行明確描述了一套針對基準期觀測數據的校準流程(方程5),AI完全漏讀了。
第三類失誤是"要求過於苛刻或超出範圍",出現46次。AI常常提出一些技術上正確但在現實中根本無法執行的修改要求。比如,在評審一篇神經影像學研究時,Claude Opus 4.5批評說,論文使用來自健康人的分子圖譜來解釋患者的大腦異常,存在方法論問題。專家表示這在邏輯上沒錯,但在現實中,精神疾病患者的全腦基因表達圖譜根本不存在,研究者不可能提供這樣的數據——這個批評把不可能完成的任務當成了修改建議。
第四類失誤是"三位AI重複說同樣的話",出現28次。當GPT-5.2、Claude Opus 4.5和Gemini 3.0 Pro同時審一篇關於機器學習分子間勢的論文時,三位AI不約而同地批評了同一個數據效率比較方案——只是GPT-5.2說這是"訓練測試集相關性問題",Claude Opus 4.5說這是"缺少學習曲線對比",Gemini 3.0 Pro說這是"缺少直接控制實驗"。三個批評的核心擔憂完全一致,只是包裝不同。
第五類失誤是"說了一大堆但沒有任何可操作建議",出現24次。有位專家對GPT-5.2的一篇評審評價說,"太冗長了,這是一篇磁共振成像方法論的論文,第一條評論不應該用六段篇幅談生物效應。"
相比之下,AI的優勢集中在幾個人類審稿員往往力不從心的地方。最突出的是"檢查提交的源代碼",共出現28次。這件事人類審稿員幾乎不做,原因很簡單:太費時間。但AI會打開代碼倉庫,逐行檢查,有時能發現論文正文裡完全看不出來的問題。
一個堪稱經典的案例:Gemini 3.0 Pro在審一篇無線健康監測貼片的論文時,發現論文聲稱的採樣頻率是800赫茲(這是分析0到400赫茲頻率信號的必要條件),但提交的Arduino代碼里有一行`delay(500);`——這意味著實際採樣頻率大約是每秒2次,與800赫茲相差了整整400倍。更有意思的是,代碼注釋里作者自己寫道"It appears that delay is needed in order not to clog the port",也就是說,數據無法通過無線方式高頻傳輸,那麼論文裡展示的高頻頻譜數據,很可能是用有線方式採集的,而論文卻聲稱系統是無線的。專家表示,"人類審稿員不會去打開源代碼看這些,如果這段代碼是正確的,那這篇論文的核心數據就是錯的。"
另一個代碼檢查的案例:GPT-5.2在審一篇蛋白質相互作用預測論文時,發現訓練集評估中有一個變量明明叫`best_valid_f1`,暗示應該在驗證集上選擇最優模型,但實際代碼里用的是測試集指標。這意味著模型選擇過程直接接觸了測試數據,導致報告的性能指標可能存在數據泄露,是嚴重的評估方法論問題。
AI的另一個顯著優勢是"統計和方法論嚴謹性",出現45次。AI會系統性地檢查獨立性假設是否滿足、驗證集劃分是否規範、不確定性報告是否完整——這些是人類審稿員在時間壓力下經常跳過的審查點。還有一類優勢是"領域特定技術深度",共出現27次,說明AI並不只會泛泛而談,在某些細分領域它能識別出只有專家才會注意到的技術承諾。比如,GPT-5.2在評審一篇關於多模光纖圖像傳輸的論文時,指出摘要里"任意光學場傳輸"這個表述有技術上的過度承諾——"任意光學場"在該領域意味著包含相位資訊的復值場,而論文實際只做到了振幅傳輸,難度要低得多。專家對此表示高度認可。
**五、自動評測基準台與AI審稿助手**
因為每次做這樣的人工評估都需要45位專家花費469小時,研究團隊想找到一種更省力的替代方法——用AI來模擬專家的判斷。他們測試發現,Claude-Opus-4.7在三個維度上的準確率分別為87.9%、56.7%、85.6%,與人與人之間的一致性(85.8%、59.9%、88.0%)非常接近。這意味著,用AI作為"元審稿員"(對審稿意見進行評判的評判者),在統計意義上接近於再請一位人類專家。
基於這一發現,研究團隊構建了一個名為PEERREVIEW BENCH的自動化評測基準,覆蓋78篇論文。它的"召回率"衡量AI能找回多少人類專家認定的優質批評,"精準率"衡量AI自己的批評中有多大比例是高質量的,F1分數則是二者的綜合。
目前,在這個基準上成績最好的模型是Claude-Opus-4.5,F1分數為50.89。GPT-5.4的精準率最高,達到93.81%,但召回率只有26.55%;Gemini-3.0-Pro-Preview的召回率(37.65%)相對更高,但精準率只有53.35%。即便是最好的模型,F1也只有約50分——意味著與人類專家確定的標準相比,仍然有相當大的提升空間。
研究團隊還基於這套系統開發並開源了"CMU PAPER REVIEWER"平台,允許研究者在投稿前獲取預審反饋。在PEERREVIEW BENCH上,使用GPT-5.4且每篇最多生成15條審稿條目時,該平台的F1分數達到58.64,高於Stanford Agentic Reviewer的51.65和OpenAIReview的47.88。
有一個值得單獨拿出來說的有趣現象:提高每篇論文的審稿條目上限(從5條增加到15條),並沒有讓AI胡亂堆砌數量——GPT-5.4在上限15條時平均只產出7.35條,因為它在內部會篩選,只有確信質量達標才會輸出。更反直覺的是,精準率反而從93.81%略升至95.46%,召回率也從26.55%大幅提升到42.32%。
**六、如果你是期刊編輯,該怎麼搭配審稿團隊**
最後,研究團隊利用這套數據做了一個對期刊和會議編輯頗具實用價值的模擬分析:不同人機比例的評審團,各有什麼優劣?
他們模擬了四種配置:三位人類、兩位人類加一位AI、一位人類加兩位AI、三位AI。衡量標準包括總審稿條目數、獨特條目數(不被其他審稿員重複的條目)、非優質條目數(編輯需要篩除的噪音)、優質且獨特條目數(真正有價值的非冗餘反饋),以及作者讀到一條有價值反饋前需要閱讀的"噪音"數量。
結論是清晰的。"兩人類加一AI"在幾乎所有指標上都與"三人類"持平,甚至更好:產出的有價值且不重複的條目數量相同(每篇論文3.9條),總條目數減少了17%,非優質條目數減少了21%。換句話說,加入一位AI並減少一位人類,在質量不變的前提下降低了噪音——這是一個明顯的帕累托改進。
當人類審稿員進一步減少到只剩一位時,有價值且獨特的條目數量開始下降(3.5條),但統計上的置信區間與"三人類"仍有一定重疊,差距尚在可接受範圍內。
然而,"三位AI"組合則顯示出明顯的缺陷:每篇論文只產出3.1個獨特條目,有價值且獨特的條目平均只有1.8個,與三人類組合的3.9個差距顯著。這個崩塌的根源正是之前發現的AI之間重疊率過高的問題——三位AI審同一篇論文,很可能在叫嚷同一個問題。
如果在每種配置基礎上加入一個"元審稿員過濾器",讓AI在輸出前自動篩除質量不達標的條目,效果是效率提升但總量下降。過濾後的"一人類加兩AI"組合產出的有價值且獨特條目下降到2.1條,但讀到這些條目前需要跳過的噪音降至最低——每遇到一條有價值的批評,只需要讀不到兩條無用批評。
研究團隊對此提出了三個針對不同優先級的推薦方案。如果期刊編輯的首要目標是維持現有審稿質量並減輕審稿人負擔,那麼"兩位人類加一位AI"是最自然的選擇,有價值反饋數量不變,噪音減少,審稿成本降低。如果首要目標是減少作者和編輯的篩選時間,那麼"一位人類加兩位AI,再加元審稿員過濾"能將每條有價值反饋前的噪音降低48%。如果編輯只需要一份簡短的高可信批評清單用於初篩,那麼"三位AI加元審稿員過濾"的組合能讓獨特批評的命中率高達63.2%,是三位人類的近兩倍——代價是絕對數量大幅下降。
說到底,這項研究給出的結論是既令人意外又頗為合理的。當前最先進的AI審稿員,在綜合質量指標上已經與人類頂級審稿員不相上下,GPT-5.2甚至在統計意義上超越了它。AI有真正的優勢:它會讀代碼,會檢查統計假設,不會因為太忙就跳過方法論細節,偶爾還能指出那26%的人類沒有注意到的真實問題。
但AI也有難以迴避的短板:它會把領域內的慣例當成缺陷,會因為上下文太長而遺忘已經讀過的內容,三位AI審同一篇論文時往往在異口同聲地說同一件事。這些弱點都不是無法解決的,但在被解決之前,它們是AI無法單獨替代人類的根本原因。
最恰當的定位,是把AI審稿員理解為一位特別勤快的同事:它願意花時間檢查代碼,願意核查每一個統計方法,但它對某些領域的潛規則一無所知,有時還會記性不好,三個AI放在一起容易互相抄作業。所以,最合理的安排是:讓它加入團隊,但別讓它獨挑大樑。
對這項研究感興趣的讀者,可以通過arXiv編號2605.20668查詢完整論文,所有數據集和代碼均已公開。
Q&A
Q1:AI審稿員的"完全優質"比率是什麼意思?
A:這是研究團隊設計的綜合指標,指一條審稿意見同時滿足"內容正確""問題重要""證據充分"三個條件。GPT-5.2在這個指標上達到60%,而人類最優秀審稿員是48.2%,這說明AI雖然正確率略低,但命中的批評往往更重要、更有支撐。
Q2:AI審稿員為什麼經常重複說同樣的問題?
A:三位不同AI模型審同一篇論文時,彼此之間的批評重疊率高達20.9%,是人與人之間重疊率(3.4%)的六倍。這是因為AI模型都傾向於識別最顯著的方法論問題,訓練方向相似,導致它們"撞車",而人類專家因背景不同,關注點各異。
Q3:PEERREVIEW BENCH和普通審稿評分有什麼區別?
A:普通評分直接比較AI和人類的分數或接受/拒絕決定,而PEERREVIEW BENCH把每條審稿意見拆解為"正確性""重要性""證據充分性"三個維度逐條評判,能識別出那些總分相似但內容差異懸殊的審稿意見,是目前粒度最細的AI審稿評測框架之一。






