上交大等聯合團隊發布PRL-BENCH：AI能做物理學家嗎？一場頂級期刊論文出題的極限測試

這項由上海交通大學人工智慧學院、物理與天文學院、李政道研究所、中國科學院理論物理研究所、浙江實驗室及DP Technology等多家機構聯合開展的研究，以預印本形式發布於2026年4月，編號為arXiv:2604.15411，感興趣的讀者可通過該編號檢索完整論文。

贊助商廣告

**當AI遇上諾貝爾獎級別的物理難題**

物理學家的日常工作是什麼樣的？不是坐在黑板前抄公式，也不是把書上的題目做一遍。真正的物理研究更像是在一片陌生的森林裡探險——沒有地圖，沒有現成的路，只有一個模糊的目的地。研究者需要自己判斷從哪裡出發，選什麼工具，走哪條路，還要隨時準備推翻自己剛走出來的一段路，重新規劃方向。

現在的人工智慧，尤其是那些能寫文章、解數學題、回答各種問題的大型語言模型，已經在很多任務上表現出驚人的能力。但這些AI真的能勝任物理學家的工作嗎？不是做做填空題那種，而是真正意義上的科學探索？

為了回答這個問題，來自上交大及多家合作機構的研究團隊設計了一套考題，題目直接來源於物理學領域頂尖期刊《物理評論快報》（Physical Review Letters，簡稱PRL）上剛剛發表的真實論文。這套考題被命名為PRL-BENCH，專門用來測試AI在真實物理研究場景中的能力邊界。

**一、為什麼現有的AI考題已經不夠用了**

在說PRL-BENCH之前，先要理解一個問題：現在已經有很多測試AI能力的考題集，為什麼還需要一套新的？

現有的那些頂級AI測試題，大多數走的是"奧林匹克競賽"路線，比如各種數學和理科競賽題，甚至還有一套被稱為"人類最後考試"（Humanity's Last Exam）的超難題集，把全球各大學科里最難的題目匯集在一起。這些題目確實越來越難，但它們本質上都有一個共同特點：題目有明確的出發點，解題路徑基本上是固定的，答案是唯一的，對不對一目了然。

可以用烹飪來類比：競賽題就像是給你一份食譜，告訴你用什麼食材、什麼步驟、煮多少分鐘，你的任務是嚴格按照食譜做出菜來，做得越精準越好。而真正的物理研究更像是讓你進入一個廚房，告訴你"做一道能讓人吃了精神振奮的菜"，至於用什麼食材、什麼方法、什麼火候，全靠你自己判斷。

贊助商廣告

這個區別至關重要。真實的科研需要研究者在沒有明確指引的情況下，自主選擇理論框架，自己規劃研究路徑，在探索過程中不斷調整方向，最終得出可以被驗證的結論。現有的AI測試題，即便再難，也只是在考察"按圖索驥"的能力，而不是"自主探索"的能力。

物理領域已有的一些專項測試，比如TPBench和PHYBench，雖然專門針對物理學，但同樣依賴短小精悍、路徑清晰的問題，沒有觸及真實研究的長鏈條、多步驟、開放性探索這些核心特徵。還有一套叫FrontierScience的測試嘗試向真實研究靠攏，但其中涉及物理的題目只有20道，覆蓋面太窄，尤其缺少凝聚態物理和高能物理這兩個現代物理的核心領域。

PRL-BENCH正是為了填補這個空白而誕生的。

**二、出題來源：直接從頂刊最新論文裡取材**

PRL-BENCH的題目來源非常直接：研究團隊從《物理評論快報》2025年8月至2026年3月間發表的最新論文中，精心挑選了100篇，作為題目的素材庫。

《物理評論快報》在物理學界的地位相當於武俠小說里的"武林盟主"——能在上面發表論文，意味著研究質量經過了頂尖同行的嚴格評審，代表著當前物理研究的最前沿水平。選擇最新期次的論文，還有一個額外的好處：這些內容很可能沒有被用來訓練現有的AI模型，可以最大程度避免AI"背答案"的情況。

在篩選論文時，研究團隊有一條明確的原則：只選理論推導和數值計算為主的工作，排除以實驗為主的研究，也排除那些需要海量數據集、大規模計算資源或專門仿真軟體才能完成的工作。這樣做的原因是，測試AI解決理論和計算問題的能力，需要有一個客觀、可驗證的標準，而實驗性工作的結果往往受到太多外部條件影響，難以公平評判。

100篇論文覆蓋了現代物理的五個主要方向：天體物理學、凝聚態物理學、高能物理學、量子資訊與基礎物理，以及統計物理與複雜系統。這五個方向各有特色，既有依賴嚴格數學結構的理論框架，也有需要構建物理模型進行近似估算的方法，還有以數值計算和現象描述為主的研究，可以全面檢驗AI在不同物理思維模式下的表現。

贊助商廣告

從題目分布來看，量子資訊方向占比最大，達到36%，凝聚態物理以31%居次，天體物理占16%，高能物理占10%，統計物理占8%。這個分布大致反映了當前物理前沿研究的熱點分布。

**三、題目長什麼樣：像真實科研任務的極簡版**

PRL-BENCH的每道題都有四個組成部分，就像一個精心設計的探險任務說明書。

第一部分是"研究動機"，用幾句話交代這道題的科學背景和研究目標，讓解題者明白為什麼要研究這個問題，但不會告訴你應該怎麼做。第二部分是"核心任務"，給出一個具體的研究目標，但解題路徑完全開放，需要自己規劃。第三部分是"答案與評分標準"，包含可以客觀驗證的最終答案，比如具體的數值、解析公式或判斷結論，以及一套結構化的中間評分標準，用來檢查解題過程中的關鍵推理步驟是否正確。第四部分是"詳細解答"，提供專家給出的完整解題過程，作為評判的參考基準。

更重要的是，每道大題通常包含若干個相對獨立的小問題，這些小問題雖然共享同一個科學背景，但並不形成嚴格的線性依賴鏈——也就是說，前一個小問題答錯了，不會導致後面所有問題都無法完成。這個設計非常聰明：在真實科研中，一個推導步驟出錯不代表整個研究全盤皆輸，研究者可以從不同角度切入同一個問題。將這種結構引入測試，既能減少誤差傳播對評分的影響，也能更準確地反映AI在不同類型子任務上的真實能力。

以題目集中展示的一個典型例子來說明。這道題關于格規範理論的張量網路模擬，背景是一種用來研究格點規範場的計算方法。題目給出了物理系統的基本哈密頓量形式，以及採用了"規範不變的PEPS擬設"這一特定方法框架，然後讓解題者完成四個小任務：計算特定參數下基態能量對耦合常數的一階和二階導數；在有靜態電荷的情況下計算某些可觀測量的平方期望值，並判斷它們的對稱性關係；計算混合系統中哈密頓量在中心格點區域的期望值；以及模擬實時動力學演化，追蹤特定激發態在不同時刻的傳播。

贊助商廣告

每個小任務都有精確到小數點後幾位的數值答案，比如能量對耦合常數的一階導數等於29.2609913710，二階導數等於-179.0345184105。這種精度要求讓評判結果具有高度客觀性，不存在模糊的"部分正確"灰色地帶。

**四、參加考試的選手：六支頂尖AI隊伍**

研究團隊選擇了六個當前最強大的大型語言模型來參加這場測試，分別是GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、豆包Seed-2.0-Pro、Qwen-3.5-Plus和Kimi-K2.5。這些模型代表了目前AI技術的最高水平，來自不同的研究機構，覆蓋了全球主要的AI研究團隊。

考試規則經過精心設計。每道題，每個模型獨立作答五次，取平均分，這樣可以減少AI輸出隨機性帶來的干擾。所有模型都可以使用代碼解釋器這個工具，也就是說AI可以編寫代碼來完成數值計算任務。但為了防止作弊——確切地說是防止AI直接搜索到原論文的答案——所有與網路檢索相關的工具全部被禁用。

評分採用"AI當裁判"的方式，用GPT-5作為評判模型，嚴格對照標準答案和評分標準，給出每道題的得分。最終分數被標準化到0到100分的範圍內進行報告。

**五、成績單揭曉：最強選手也沒能過半**

考試結果可以用一個詞來概括：全線告急。

六個模型中表現最好的是Gemini-3.1-Pro，總分44.27分。排在第二的是Qwen-3.5-Plus，得了40.05分。GPT-5.4得了37.38分，Claude-Opus-4.6得了37.40分，豆包Seed-2.0-Pro得了37.83分，這三個模型形成了成績接近的中間梯隊。Kimi-K2.5以33.89分墊底。

換句話說，在這套滿分100分的題目面前，最強的AI只拿到了44分出頭，連及格線都沒過。更值得注意的是，六個模型之間的差距並不大，大約在10分的範圍內，這說明它們在面對真實科研任務時遇到的困難具有相當的共性，不是某一個模型的特殊問題，而是當前AI技術普遍面臨的瓶頸。

從各物理子領域來看，Gemini-3.1-Pro和GPT-5.4在不同方向的表現相對均衡，而其他模型在不同子領域之間的成績波動更大。一個規律性的現象是：大多數模型在天體物理和統計物理方向的得分低於凝聚態物理、高能物理和量子資訊方向。研究團隊推測，天體物理和統計物理的問題往往更加異質化，缺乏標準化的套路，在AI的訓練數據中覆蓋相對較少，可供直接復用的推理模板也更少。

贊助商廣告

**六、錯誤解剖：AI到底在哪裡摔跤**

光知道成績不夠，更重要的是搞清楚AI為什麼答錯。研究團隊對所有模型的完整作答過程進行了細緻分析，把錯誤歸納為四種類型。

第一種是"公式或概念錯誤"，指AI選錯了理論模型或者用了不適用的公式，本質上反映的是對物理領域知識的掌握不足。第二種是"推導錯誤"，指在推理鏈條的某個環節出現了問題，比如引入了不真實存在的公式，或者做出了沒有依據的假設，這主要反映推理能力的缺陷以及AI的"幻覺"問題。第三種是"計算錯誤"，包括代數運算失誤和數值計算錯誤，反映的是數學運算層面的不可靠性。第四種是"不完整"，指AI的回答遺漏了問題、只回答了一部分，或者沒能滿足題目的完整要求，主要反映AI在處理長時程任務時的上下文管理能力不足。

統計結果顯示，"公式或概念錯誤"是所有模型最主要的失敗原因，在大多數模型的錯誤中占比大約在45%到55%之間。GPT-5.4的這一比例是46.97%，Gemini-3.1-Pro是50.79%，豆包Seed-2.0-Pro更高達55.62%。這意味著，即便是當前最強大的AI，對高級理論物理知識的掌握仍然存在明顯的欠缺，經常在選擇理論框架的第一步就走錯了方向。凝聚態物理領域這個問題尤為突出，AI往往會拿出一個看起來相關但實際上並不適用的理論框架來套用。

"推導錯誤"和"計算錯誤"在總體錯誤中扮演次要但不可忽視的角色。推導錯誤通常保持在一個中等水平，大約占所有錯誤的8%到13%，但在理論密集的高能物理方向會明顯升高，GPT-5.4在高能物理方向的推導錯誤率達到17.24%，豆包Seed-2.0-Pro更高達23.33%，反映出AI在進行多步符號推導時容易引入無效的中間步驟。計算錯誤則相對穩定，大約占20%到30%，說明代數運算和數值計算是有難度的，但不是最根本的瓶頸。

Claude-Opus-4.6的失敗模式與其他模型截然不同，格外引人注目。這個模型的"不完整"類錯誤在全部子領域中都占據主導地位，全局比例高達63.93%。但研究團隊特別指出，這並不是Claude-Opus-4.6謹慎保守、不敢作答，而是另一種更深層的問題：這個模型在作答過程中會反覆嘗試推導，不斷自我糾正，在這個過程中引入越來越多沒有依據的假設，試圖維持表面上的邏輯一致性，最終導致整個推理鏈條崩潰，給出不完整或無法支撐的答案。這個現象揭示了一種"越掙扎越陷越深"的困境，根本原因在於缺乏對長時程任務的全局規劃能力——模型沒有能力在解題一開始就制定清晰的總體策略，而是陷入局部的反覆修正之中。

贊助商廣告

**七、這些發現告訴我們什麼**

PRL-BENCH揭示的問題可以用一句話概括：當前的AI在應對真實物理研究時，面臨的不是單一瓶頸，而是多重能力缺口同時存在的複合性困難。

具體來說，這些能力缺口體現在四個方面。其一是領域知識的深度不足，AI對高級理論物理的掌握尚未達到能夠可靠選擇正確理論框架的程度。其二是推導的穩定性不夠，在進行多步驟的符號推理時，AI容易在中間步驟引入錯誤，而且往往意識不到自己已經出錯。其三是數值計算的可靠性有待提升，雖然可以使用代碼工具，但數學運算層面仍然存在明顯的錯誤率。其四是長時程任務的適應能力欠缺，這或許是最核心的問題：AI目前缺乏在面對一個複雜、開放性研究任務時進行全局戰略規劃的能力，無法像真正的研究者那樣，在探索過程中始終保持對整體目標的清醒把握，並根據中間結果動態調整策略。

歸根結底，現在的AI更像是一個擁有大量知識儲備、能夠快速檢索和運用已有公式的"超級百科全書"，但還不是一個能夠在陌生領域自主規劃、持續探索、靈活應對未知挑戰的"科學家"。這兩者之間的差距，不僅僅是知識量的差距，更是思維方式的本質差異。

這並不意味著AI走進死胡同了。PRL-BENCH的價值恰恰在於，它精確地標定了這個差距在哪裡、有多大，從而為AI研究者指明了努力的方向。當我們知道AI在"選對理論框架"這個環節上失敗率超過一半，就知道下一步需要專門強化這方面的訓練和能力；當我們看到長時程任務的全局規劃能力是最薄弱的環節，就知道這是未來突破的關鍵著力點。

說到底，這場測試的意義不在於讓AI難堪，而在於誠實地回答"AI現在能做什麼、還不能做什麼"這個對整個科學界都至關重要的問題。畢竟，如果我們對AI的能力有過高的期待，就可能在錯誤的時機把關鍵的科研任務交給它；而如果我們低估了AI，又可能錯過真正有價值的應用場景。

贊助商廣告

PRL-BENCH提供的這份成績單，是目前為止最接近真實答案的一份。感興趣深入研究這一課題的讀者，可以通過arXiv編號2604.15411查閱完整論文，數據集也已在Hugging Face平台上公開發布。

Q&A

Q1：PRL-BENCH和其他物理AI測試有什麼本質區別？

A：PRL-BENCH的題目直接來源於頂級期刊《物理評論快報》的最新論文，要求AI自主規劃解題路徑，沒有現成的解題套路可以套用，並且需要完成多步驟的長鏈條研究任務。而TPBench、PHYBench等現有測試依賴短小精悍、路徑明確的問題，本質上考的是"按圖索驥"，不涉及真實科研中的自主探索能力，兩者的難度和測試目標都有本質區別。

Q2：Gemini-3.1-Pro得了44分算高還是低？

A：在PRL-BENCH的評分體系里，44分是六個參賽模型中的最高分，但這個分數連及格線都沒達到。這意味著即便是當前全球最強大的AI模型，在面對真實物理研究任務時，仍有超過一半以上的內容無法正確完成。這個結果明確說明，現有AI距離能夠獨立開展前沿物理研究還有相當大的差距。

Q3：AI在物理研究里最常犯什麼錯誤？

A：根據PRL-BENCH的錯誤分析，最主要的失敗原因是選錯了理論模型或公式，占所有錯誤的45%到55%。簡單來說，AI經常在解題的第一步就走錯了方向，用了一個看起來相關但實際上並不適用的物理框架。其次是推導過程中出現失誤，在高能物理等理論密集領域尤為明顯。此外，部分模型還表現出長時程任務管理能力的不足，在反覆自我糾正中越陷越深，最終給出不完整的答案。