宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

上交大等聯合團隊發布PRL-BENCH:AI能做物理學家嗎?一場頂級期刊論文出題的極限測試

2026年04月27日 首頁 » 熱門科技

這項由上海交通大學人工智慧學院、物理與天文學院、李政道研究所、中國科學院理論物理研究所、浙江實驗室及DP Technology等多家機構聯合開展的研究,以預印本形式發布於2026年4月,編號為arXiv:2604.15411,感興趣的讀者可通過該編號檢索完整論文。

**當AI遇上諾貝爾獎級別的物理難題**

物理學家的日常工作是什麼樣的?不是坐在黑板前抄公式,也不是把書上的題目做一遍。真正的物理研究更像是在一片陌生的森林裡探險——沒有地圖,沒有現成的路,只有一個模糊的目的地。研究者需要自己判斷從哪裡出發,選什麼工具,走哪條路,還要隨時準備推翻自己剛走出來的一段路,重新規劃方向。

現在的人工智慧,尤其是那些能寫文章、解數學題、回答各種問題的大型語言模型,已經在很多任務上表現出驚人的能力。但這些AI真的能勝任物理學家的工作嗎?不是做做填空題那種,而是真正意義上的科學探索?

為了回答這個問題,來自上交大及多家合作機構的研究團隊設計了一套考題,題目直接來源於物理學領域頂尖期刊《物理評論快報》(Physical Review Letters,簡稱PRL)上剛剛發表的真實論文。這套考題被命名為PRL-BENCH,專門用來測試AI在真實物理研究場景中的能力邊界。

**一、為什麼現有的AI考題已經不夠用了**

在說PRL-BENCH之前,先要理解一個問題:現在已經有很多測試AI能力的考題集,為什麼還需要一套新的?

現有的那些頂級AI測試題,大多數走的是"奧林匹克競賽"路線,比如各種數學和理科競賽題,甚至還有一套被稱為"人類最後考試"(Humanity's Last Exam)的超難題集,把全球各大學科里最難的題目匯集在一起。這些題目確實越來越難,但它們本質上都有一個共同特點:題目有明確的出發點,解題路徑基本上是固定的,答案是唯一的,對不對一目了然。

可以用烹飪來類比:競賽題就像是給你一份食譜,告訴你用什麼食材、什麼步驟、煮多少分鐘,你的任務是嚴格按照食譜做出菜來,做得越精準越好。而真正的物理研究更像是讓你進入一個廚房,告訴你"做一道能讓人吃了精神振奮的菜",至於用什麼食材、什麼方法、什麼火候,全靠你自己判斷。

這個區別至關重要。真實的科研需要研究者在沒有明確指引的情況下,自主選擇理論框架,自己規劃研究路徑,在探索過程中不斷調整方向,最終得出可以被驗證的結論。現有的AI測試題,即便再難,也只是在考察"按圖索驥"的能力,而不是"自主探索"的能力。

物理領域已有的一些專項測試,比如TPBench和PHYBench,雖然專門針對物理學,但同樣依賴短小精悍、路徑清晰的問題,沒有觸及真實研究的長鏈條、多步驟、開放性探索這些核心特徵。還有一套叫FrontierScience的測試嘗試向真實研究靠攏,但其中涉及物理的題目只有20道,覆蓋面太窄,尤其缺少凝聚態物理和高能物理這兩個現代物理的核心領域。

PRL-BENCH正是為了填補這個空白而誕生的。

**二、出題來源:直接從頂刊最新論文裡取材**

PRL-BENCH的題目來源非常直接:研究團隊從《物理評論快報》2025年8月至2026年3月間發表的最新論文中,精心挑選了100篇,作為題目的素材庫。

《物理評論快報》在物理學界的地位相當於武俠小說里的"武林盟主"——能在上面發表論文,意味著研究質量經過了頂尖同行的嚴格評審,代表著當前物理研究的最前沿水平。選擇最新期次的論文,還有一個額外的好處:這些內容很可能沒有被用來訓練現有的AI模型,可以最大程度避免AI"背答案"的情況。

在篩選論文時,研究團隊有一條明確的原則:只選理論推導和數值計算為主的工作,排除以實驗為主的研究,也排除那些需要海量數據集、大規模計算資源或專門仿真軟體才能完成的工作。這樣做的原因是,測試AI解決理論和計算問題的能力,需要有一個客觀、可驗證的標準,而實驗性工作的結果往往受到太多外部條件影響,難以公平評判。

100篇論文覆蓋了現代物理的五個主要方向:天體物理學、凝聚態物理學、高能物理學、量子資訊與基礎物理,以及統計物理與複雜系統。這五個方向各有特色,既有依賴嚴格數學結構的理論框架,也有需要構建物理模型進行近似估算的方法,還有以數值計算和現象描述為主的研究,可以全面檢驗AI在不同物理思維模式下的表現。

從題目分布來看,量子資訊方向占比最大,達到36%,凝聚態物理以31%居次,天體物理占16%,高能物理占10%,統計物理占8%。這個分布大致反映了當前物理前沿研究的熱點分布。

**三、題目長什麼樣:像真實科研任務的極簡版**

PRL-BENCH的每道題都有四個組成部分,就像一個精心設計的探險任務說明書。

第一部分是"研究動機",用幾句話交代這道題的科學背景和研究目標,讓解題者明白為什麼要研究這個問題,但不會告訴你應該怎麼做。第二部分是"核心任務",給出一個具體的研究目標,但解題路徑完全開放,需要自己規劃。第三部分是"答案與評分標準",包含可以客觀驗證的最終答案,比如具體的數值、解析公式或判斷結論,以及一套結構化的中間評分標準,用來檢查解題過程中的關鍵推理步驟是否正確。第四部分是"詳細解答",提供專家給出的完整解題過程,作為評判的參考基準。

更重要的是,每道大題通常包含若干個相對獨立的小問題,這些小問題雖然共享同一個科學背景,但並不形成嚴格的線性依賴鏈——也就是說,前一個小問題答錯了,不會導致後面所有問題都無法完成。這個設計非常聰明:在真實科研中,一個推導步驟出錯不代表整個研究全盤皆輸,研究者可以從不同角度切入同一個問題。將這種結構引入測試,既能減少誤差傳播對評分的影響,也能更準確地反映AI在不同類型子任務上的真實能力。

以題目集中展示的一個典型例子來說明。這道題關于格規範理論的張量網路模擬,背景是一種用來研究格點規範場的計算方法。題目給出了物理系統的基本哈密頓量形式,以及採用了"規範不變的PEPS擬設"這一特定方法框架,然後讓解題者完成四個小任務:計算特定參數下基態能量對耦合常數的一階和二階導數;在有靜態電荷的情況下計算某些可觀測量的平方期望值,並判斷它們的對稱性關係;計算混合系統中哈密頓量在中心格點區域的期望值;以及模擬實時動力學演化,追蹤特定激發態在不同時刻的傳播。

每個小任務都有精確到小數點後幾位的數值答案,比如能量對耦合常數的一階導數等於29.2609913710,二階導數等於-179.0345184105。這種精度要求讓評判結果具有高度客觀性,不存在模糊的"部分正確"灰色地帶。

**四、參加考試的選手:六支頂尖AI隊伍**

研究團隊選擇了六個當前最強大的大型語言模型來參加這場測試,分別是GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、豆包Seed-2.0-Pro、Qwen-3.5-Plus和Kimi-K2.5。這些模型代表了目前AI技術的最高水平,來自不同的研究機構,覆蓋了全球主要的AI研究團隊。

考試規則經過精心設計。每道題,每個模型獨立作答五次,取平均分,這樣可以減少AI輸出隨機性帶來的干擾。所有模型都可以使用代碼解釋器這個工具,也就是說AI可以編寫代碼來完成數值計算任務。但為了防止作弊——確切地說是防止AI直接搜索到原論文的答案——所有與網路檢索相關的工具全部被禁用。

評分採用"AI當裁判"的方式,用GPT-5作為評判模型,嚴格對照標準答案和評分標準,給出每道題的得分。最終分數被標準化到0到100分的範圍內進行報告。

**五、成績單揭曉:最強選手也沒能過半**

考試結果可以用一個詞來概括:全線告急。

六個模型中表現最好的是Gemini-3.1-Pro,總分44.27分。排在第二的是Qwen-3.5-Plus,得了40.05分。GPT-5.4得了37.38分,Claude-Opus-4.6得了37.40分,豆包Seed-2.0-Pro得了37.83分,這三個模型形成了成績接近的中間梯隊。Kimi-K2.5以33.89分墊底。

換句話說,在這套滿分100分的題目面前,最強的AI只拿到了44分出頭,連及格線都沒過。更值得注意的是,六個模型之間的差距並不大,大約在10分的範圍內,這說明它們在面對真實科研任務時遇到的困難具有相當的共性,不是某一個模型的特殊問題,而是當前AI技術普遍面臨的瓶頸。

從各物理子領域來看,Gemini-3.1-Pro和GPT-5.4在不同方向的表現相對均衡,而其他模型在不同子領域之間的成績波動更大。一個規律性的現象是:大多數模型在天體物理和統計物理方向的得分低於凝聚態物理、高能物理和量子資訊方向。研究團隊推測,天體物理和統計物理的問題往往更加異質化,缺乏標準化的套路,在AI的訓練數據中覆蓋相對較少,可供直接復用的推理模板也更少。

**六、錯誤解剖:AI到底在哪裡摔跤**

光知道成績不夠,更重要的是搞清楚AI為什麼答錯。研究團隊對所有模型的完整作答過程進行了細緻分析,把錯誤歸納為四種類型。

第一種是"公式或概念錯誤",指AI選錯了理論模型或者用了不適用的公式,本質上反映的是對物理領域知識的掌握不足。第二種是"推導錯誤",指在推理鏈條的某個環節出現了問題,比如引入了不真實存在的公式,或者做出了沒有依據的假設,這主要反映推理能力的缺陷以及AI的"幻覺"問題。第三種是"計算錯誤",包括代數運算失誤和數值計算錯誤,反映的是數學運算層面的不可靠性。第四種是"不完整",指AI的回答遺漏了問題、只回答了一部分,或者沒能滿足題目的完整要求,主要反映AI在處理長時程任務時的上下文管理能力不足。

統計結果顯示,"公式或概念錯誤"是所有模型最主要的失敗原因,在大多數模型的錯誤中占比大約在45%到55%之間。GPT-5.4的這一比例是46.97%,Gemini-3.1-Pro是50.79%,豆包Seed-2.0-Pro更高達55.62%。這意味著,即便是當前最強大的AI,對高級理論物理知識的掌握仍然存在明顯的欠缺,經常在選擇理論框架的第一步就走錯了方向。凝聚態物理領域這個問題尤為突出,AI往往會拿出一個看起來相關但實際上並不適用的理論框架來套用。

"推導錯誤"和"計算錯誤"在總體錯誤中扮演次要但不可忽視的角色。推導錯誤通常保持在一個中等水平,大約占所有錯誤的8%到13%,但在理論密集的高能物理方向會明顯升高,GPT-5.4在高能物理方向的推導錯誤率達到17.24%,豆包Seed-2.0-Pro更高達23.33%,反映出AI在進行多步符號推導時容易引入無效的中間步驟。計算錯誤則相對穩定,大約占20%到30%,說明代數運算和數值計算是有難度的,但不是最根本的瓶頸。

Claude-Opus-4.6的失敗模式與其他模型截然不同,格外引人注目。這個模型的"不完整"類錯誤在全部子領域中都占據主導地位,全局比例高達63.93%。但研究團隊特別指出,這並不是Claude-Opus-4.6謹慎保守、不敢作答,而是另一種更深層的問題:這個模型在作答過程中會反覆嘗試推導,不斷自我糾正,在這個過程中引入越來越多沒有依據的假設,試圖維持表面上的邏輯一致性,最終導致整個推理鏈條崩潰,給出不完整或無法支撐的答案。這個現象揭示了一種"越掙扎越陷越深"的困境,根本原因在於缺乏對長時程任務的全局規劃能力——模型沒有能力在解題一開始就制定清晰的總體策略,而是陷入局部的反覆修正之中。

**七、這些發現告訴我們什麼**

PRL-BENCH揭示的問題可以用一句話概括:當前的AI在應對真實物理研究時,面臨的不是單一瓶頸,而是多重能力缺口同時存在的複合性困難。

具體來說,這些能力缺口體現在四個方面。其一是領域知識的深度不足,AI對高級理論物理的掌握尚未達到能夠可靠選擇正確理論框架的程度。其二是推導的穩定性不夠,在進行多步驟的符號推理時,AI容易在中間步驟引入錯誤,而且往往意識不到自己已經出錯。其三是數值計算的可靠性有待提升,雖然可以使用代碼工具,但數學運算層面仍然存在明顯的錯誤率。其四是長時程任務的適應能力欠缺,這或許是最核心的問題:AI目前缺乏在面對一個複雜、開放性研究任務時進行全局戰略規劃的能力,無法像真正的研究者那樣,在探索過程中始終保持對整體目標的清醒把握,並根據中間結果動態調整策略。

歸根結底,現在的AI更像是一個擁有大量知識儲備、能夠快速檢索和運用已有公式的"超級百科全書",但還不是一個能夠在陌生領域自主規劃、持續探索、靈活應對未知挑戰的"科學家"。這兩者之間的差距,不僅僅是知識量的差距,更是思維方式的本質差異。

這並不意味著AI走進死胡同了。PRL-BENCH的價值恰恰在於,它精確地標定了這個差距在哪裡、有多大,從而為AI研究者指明了努力的方向。當我們知道AI在"選對理論框架"這個環節上失敗率超過一半,就知道下一步需要專門強化這方面的訓練和能力;當我們看到長時程任務的全局規劃能力是最薄弱的環節,就知道這是未來突破的關鍵著力點。

說到底,這場測試的意義不在於讓AI難堪,而在於誠實地回答"AI現在能做什麼、還不能做什麼"這個對整個科學界都至關重要的問題。畢竟,如果我們對AI的能力有過高的期待,就可能在錯誤的時機把關鍵的科研任務交給它;而如果我們低估了AI,又可能錯過真正有價值的應用場景。

PRL-BENCH提供的這份成績單,是目前為止最接近真實答案的一份。感興趣深入研究這一課題的讀者,可以通過arXiv編號2604.15411查閱完整論文,數據集也已在Hugging Face平台上公開發布。

Q&A

Q1:PRL-BENCH和其他物理AI測試有什麼本質區別?

A:PRL-BENCH的題目直接來源於頂級期刊《物理評論快報》的最新論文,要求AI自主規劃解題路徑,沒有現成的解題套路可以套用,並且需要完成多步驟的長鏈條研究任務。而TPBench、PHYBench等現有測試依賴短小精悍、路徑明確的問題,本質上考的是"按圖索驥",不涉及真實科研中的自主探索能力,兩者的難度和測試目標都有本質區別。

Q2:Gemini-3.1-Pro得了44分算高還是低?

A:在PRL-BENCH的評分體系里,44分是六個參賽模型中的最高分,但這個分數連及格線都沒達到。這意味著即便是當前全球最強大的AI模型,在面對真實物理研究任務時,仍有超過一半以上的內容無法正確完成。這個結果明確說明,現有AI距離能夠獨立開展前沿物理研究還有相當大的差距。

Q3:AI在物理研究里最常犯什麼錯誤?

A:根據PRL-BENCH的錯誤分析,最主要的失敗原因是選錯了理論模型或公式,占所有錯誤的45%到55%。簡單來說,AI經常在解題的第一步就走錯了方向,用了一個看起來相關但實際上並不適用的物理框架。其次是推導過程中出現失誤,在高能物理等理論密集領域尤為明顯。此外,部分模型還表現出長時程任務管理能力的不足,在反覆自我糾正中越陷越深,最終給出不完整的答案。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新