這項由Scale AI主導、聯合加州大學洛杉磯分校、馬里蘭大學、普林斯頓大學以及Human Frontier Collective共同完成的研究,以預印本形式發布於2026年4月12日,論文編號為arXiv:2604.10718v1,有興趣深入探究的讀者可通過該編號檢索完整論文。
科學研究從來都不便宜。在濕實驗室里,一次蛋白質結晶實驗可能耗費研究團隊數月時間和大量資金,結果卻可能什麼都得不到。在材料科學領域,找到合適的合成參數往往意味著無數次昂貴的試錯。即便是基礎物理學,決定把稀缺的粒子加速器機時用在哪個參數範圍,本身就是一個代價高昂的賭注。正因為如此,科學家們在動手做實驗之前,總是會先在腦子裡推演:如果這樣做,會發生什麼?
這種"先預測、再實驗"的思維方式貫穿了人類科學史的始終。而如今,人工智慧的快速崛起讓很多人開始期待:能不能讓AI來替代科學家做這件事?AI掌握了海量的科學文獻,能夠推理複雜系統,在各類科學問答測試中也表現出色——理論上,它似乎是預測實驗結果的理想工具。
然而,這項來自Scale AI的研究給出了一個讓人清醒的答案:目前的AI在這件事上,做得相當糟糕。
研究團隊構建了一個名為SciPredict的評測基準,專門用于衡量大型語言模型(也就是GPT、Claude這類AI)預測真實科學實驗結果的能力。這個基準涵蓋了物理、生物、化學三大領域中33個專業子領域,共包含405道來自2025年3月31日之後發表的最新研究論文的實驗預測題目。選擇這個時間節點非常關鍵——它確保了這些題目超出了當前所有主流AI模型的訓練數據範圍,徹底堵死了"背答案"的可能性。為了建立這個基準,研究團隊耗費了7380個專家工時,花費了33.6萬美元,可見其嚴苛程度。
---
一、當科學預測變成一場考試:SciPredict是什麼,為什麼重要
要理解這項研究的價值,不妨把整個科學研究過程想像成一條流水線。第一步是頭腦風暴:科學家通過文獻調研和假設設計,確定想探索的方向。第二步是關鍵決策:在真正動手做實驗之前,先評估"這個方向值不值得試"。第三步才是真正昂貴的部分:採購設備、準備材料、執行實驗、收集數據。最後是分析結果、發表論文。
在這條流水線中,第二步——也就是"預測實驗結果"——是最被忽視但潛在價值最大的環節。如果AI能在這一步發揮作用,替科學家篩掉那些註定失敗的方向,優先推薦最有希望的實驗設計,整個科研效率將會大幅提升。
SciPredict的研究團隊把AI的這一能力分解為兩個核心問題:第一,AI能不能以足夠高的準確率預測實驗結果?第二,即便AI能做到一定程度的預測,它能不能告訴我們"哪些預測是可信的、哪些不可信"?這兩個問題,前者關乎能力,後者關乎可靠性。正如研究者指出的,一個準確率60%但無法區分可靠預測和不可靠預測的AI,在實際科研中幾乎沒有用處——因為你不知道該相信它的哪句話。
為了全面考察AI的表現,SciPredict設計了三種題目形式。多項選擇題(MCQ)給出幾個選項,讓AI選出最可能的實驗結果;自由作答題(FF)要求AI用自己的語言描述預期結果;數值預測題(NUM)要求AI給出具體的數字。這三種形式分別測試了AI識別正確答案、生成解釋以及定量預測的不同能力維度。
物理學部分涵蓋凝聚態物理、量子與原子物理、高能粒子物理、光學與雷射物理等9個子領域;生物學覆蓋了微生物學、癌症生物學、神經科學、生態學、免疫學等14個子領域;化學則包括有機化學、催化、物理化學、納米化學等10個子領域。整體分布是生物占50%、物理25%、化學25%,題目格式分布為多選40%、自由作答32%、數值預測28%。
---
二、成績揭曉:AI的表現讓人大跌眼鏡
現在來看看這場考試的成績單。
研究團隊在關閉網路搜索功能的條件下(這一點至關重要,否則AI可能直接檢索到原論文答案,把預測題變成查找題),對15款當前最先進的AI模型進行了零樣本測試。這15款模型包括OpenAI的o3、o3-mini、o4-mini、GPT-5.2;Anthropic的Claude Sonnet 4.5、Opus 4.1、Opus 4.5;Google的Gemini 2.5 Pro、3 Flash、3 Pro;Meta的Llama 3.1 8B、Llama 3.3 70B;阿里巴巴的Qwen 3 32B、Qwen 3 235B;以及DeepSeek v3。
整體準確率在14%到26%之間。
表現最好的是Gemini 3 Pro,平均準確率約25.3%。排名靠前的還有Claude Opus 4.5(約23%)、Claude Sonnet 4.5(約22.6%)和Gemini 3 Flash(約22.2%)。表現墊底的是Llama 3.1 8B,準確率僅約14.7%。
同期,研究團隊還招募了一批真正的領域專家作為人類基準線。這些專家中74.4%持有博士學位,17.9%持有碩士學位,每位專家只回答與其專業方向嚴格對應的題目。人類專家的平均準確率大約是20%。
換句話說,最頂尖的AI模型(Gemini 3 Pro)勉強比人類專家高出幾個百分點,而大多數模型的表現與人類專家大體相當,甚至更差。
這個數字本身已經令人深思。一個隨機在4個選項中猜答案的策略,期望準確率是25%——而許多AI模型的表現與瞎猜相差無幾。對於號稱掌握了人類絕大多數科學知識的AI系統來說,這個成績相當難看。
但研究者們強調,準確率只是這張成績單的一半。另一半,才是真正讓人擔憂的地方。
---
三、比答錯更可怕的問題:AI不知道自己哪裡錯了
回到流水線的比喻。假設你雇了一個助理幫你篩選實驗方案。這個助理答對的概率只有兩成,但他非常清楚自己什麼時候把握大、什麼時候沒把握——每當他說"我有把握",他答對的概率是八成;每當他說"我沒把握",他答對的概率只有一兩成。這樣的助理依然很有價值,因為你知道什麼時候可以信任他的判斷。
但如果這個助理無論對錯,都用同樣自信的語氣說話,完全無法區分自己什麼時候對、什麼時候錯——那他的價值就大打折扣了,甚至比沒有這個助理還要危險,因為他的錯誤判斷會以可信的面目出現,引導你走上彎路。
SciPredict的研究者們專門設計了三個維度來衡量AI的這種"自我認知"能力,分別稱為置信度(Confidence)、難度(Difficulty)和可行性(Feasibility)。置信度是讓AI評估自己對當前預測的把握程度,1到5分,分數越高表示越有把握。難度是讓AI判斷這道題有多難預測,1到5分,分數越高表示越難。可行性是讓AI判斷這個實驗結果能不能在不親自做實驗的情況下通過推理預測出來,1到5分,分數越高表示越可以通過推理得出。
一個校準良好的AI應該表現出這樣的規律:當它給自己打高置信度時,實際答題準確率也應該更高;當它認為題目難度很大時,準確率應該更低;當它認為可行性高時,準確率也應該更高。
然而,實驗結果顯示,AI完全沒有這種自我認知。無論AI給自己打出多高的置信度(哪怕是最高分5分),它的實際準確率依然穩定在約20%左右,和它給自己打低置信度時沒有任何差別。難度評分和可行性評分同樣如此,與實際準確率之間幾乎看不出任何規律性的關聯。
更具體地說,當AI把某道題的可行性打為5分(最容易通過推理得出答案)時,它的準確率並不比把可行性打為1分(必須做實驗才能知道答案)時高出多少,兩種情況下的準確率都在約20%上下。
人類專家的表現與此形成了鮮明對比。當專家們認為某道題幾乎不可能在不做實驗的情況下預測出來(可行性1分)時,他們的準確率僅約5%,說明他們對自己的局限有清醒認知。但當專家們認為某道題可以通過已有知識推理得出(可行性5分)時,他們的準確率驟然攀升至約80%。這種從5%到80%的跨越,正是真正的自我認知能力的體現。
AI缺乏這種能力,意味著它的預測結果無法被可靠地"過濾"——你無法根據AI的自我評估來判斷哪些預測值得信任。
---
四、背景知識的秘密:給AI"補課"有沒有用
既然AI的基礎表現不盡如人意,研究者們進一步探究了一個關鍵問題:如果給AI提供更多背景知識,情況會不會改善?
這個問題在實際應用中非常重要。在真實的科研場景里,研究人員可以為AI提供相關領域的文獻摘要、已知實驗結論等背景資訊,幫助AI更好地推理。但這種"補課"到底有多大用?
研究團隊設計了五種不同的資訊提供條件進行對比。第一種是"無背景知識"(NBK),只給AI實驗設置描述和測量方法,沒有任何額外的領域背景。第二種是"專家背景知識"(BK),在實驗描述的基礎上額外提供由領域專家從相關文獻中精心篩選的關鍵背景知識條目。第三種是"AI自生成背景"(SBK),要求AI在回答問題之前先自己生成相關背景知識,然後再據此作答。第四種是"組合背景"(SABK),把專家背景知識和AI自生成背景疊加在一起提供給AI。第五種是"過濾背景"(FBK),從專家背景知識中去掉AI已經知道的那些條目,只提供AI實際不熟悉的新資訊。
結果顯示,提供專家精選的背景知識確實有幫助,平均提升約3%的準確率,個別模型最多提升約5.8%。然而,這點提升雖然穩定,但依然無法將AI的整體表現提升到實用閾值。
更有趣的發現是:讓AI自己生成背景知識,往往會讓表現變得更差,而不是更好。研究者們發現,當AI自行生成背景知識時,它經常引入不相關的資訊、錯誤的假設,或者乾脆捏造一些聽起來合理但實際上並不適用於當前情境的"事實"。這些噪音資訊把AI原本還算正確的直覺干擾掉了。
更耐人尋味的是:即便把專家背景知識和AI自生成的背景知識疊加在一起(SABK條件),大多數模型的表現也沒有比單獨使用專家背景知識(BK條件)更好——有時甚至更差。這說明AI自己生成的資訊不僅沒有提供額外價值,反而污染了已有的優質資訊。
還有一個細節值得關註:研究者們把背景知識條目轉化成問題,測試AI是否"已經知道"這些知識。結果發現,所有模型對背景知識條目的掌握率均超過70%——也就是說,AI其實已經"知道"大部分背景知識了,只是在預測具體實驗結果時沒能有效調用這些知識。但有趣的是,即便把AI已經知道的背景知識重新以文字形式呈現在上下文中,也仍然能輕微提升其準確率。這說明"知道"某件事和"在預測中有效使用"某件事,是兩種不同的能力。
---
五、AI究竟在哪裡犯錯:一份詳細的錯誤診斷報告
研究團隊不滿足於僅僅知道AI答錯了,他們還想搞清楚AI是怎麼答錯的。為此,他們讓另一個AI充當"評審法官",對所有錯誤答案進行分類分析,按照五大錯誤類別和16個具體子類型逐一標註。
這五大錯誤類別構成了一幅層層遞進的"錯誤圖譜"。最淺層的是理解與範圍錯誤,包括誤解題意、違反題目約束、回答過於籠統、或者加入了無關資訊。平均而言,約10%的錯誤答案存在此類問題——這意味著AI基本上能理解題目在問什麼,這並不是主要瓶頸。
更深一層是事實提取錯誤,包括忽略實驗描述中明確給出的關鍵資訊、與實驗材料中的事實相矛盾、憑空捏造數據或結論,以及在自己的推理過程中遺漏關鍵證據。這一類是AI最常犯的錯誤,約80.1%的錯誤答案至少存在一個此類問題。具體來看,"事實矛盾"(Factual Contradiction)的發生率約52.3%,"資訊捏造"(Information Fabrication)的發生率約54%。換句話說,AI非常頻繁地在推理中引入了與實驗描述相矛盾的內容,或者直接發明了實驗材料中不存在的資訊。
第三層是邏輯推理錯誤,約87.4%的錯誤答案存在此類問題。這包括循環論證(用結論來證明結論)、推理依賴未經證明的假設、正確的事實之間缺乏邏輯連接、以及把次要原因誤認為主要原因。其中"無根據假設"(Unsupported Assumption)的發生率高達86%,是最主要的邏輯錯誤類型。
第四層是科學嚴謹性缺陷,約47.9%的錯誤答案存在此類問題。其中最典型的是"虛假確定性"(False Certainty)——AI在錯誤的情況下依然用斬釘截鐵的口吻給出答案,發生率約43.6%。這直接解釋了為什麼AI的置信度評分與實際準確率之間毫無關聯:AI會對著一個錯誤的答案說"我非常確定"。此外,約19.4%的錯誤答案中,AI沒有承認自己知識的局限性。
第五層是格式錯誤,發生率極低,不足0.6%,說明AI在理解題目格式方面基本沒有問題。
一個值得注意的規律是:規模較小的模型(如Llama 3.1 8B)在"推理斷裂"(Disconnected Reasoning)方面的發生率高達28%,而頂級模型這一比例僅約9.6%。這說明模型規模確實與推理連貫性相關,更大的模型在把證據串聯成結論方面做得更好,只是它們仍然會捏造資訊和做出無根據的假設。
---
六、題目格式的巨大影響:多選題和自由作答差距有多大
如果你曾經參加過標準化考試,你大概知道多項選擇題和填空題之間的感受差別有多大。前者至少給你一些提示,讓你有機會通過排除法找到正確答案;後者則要求你真的"知道"答案。
SciPredict的研究發現,這種差距在AI身上同樣顯著,而且幅度相當驚人。
在多選題(MCQ)格式下,頂級模型的準確率通常在30%到40%之間,部分模型超過40%。但當研究者把同樣的內容改寫成自由作答格式時,準確率會明顯下滑。而數值預測題的準確率最低,通常在10%到16%之間徘徊。
為了進一步驗證格式本身的影響,研究者做了一個精妙的對照實驗:把多選題逐字改寫成自由作答題(MCQ→FF),保持題目內容完全一致,只是去掉了選項。結果發現,幾乎所有模型在這種轉換後準確率都出現了明顯下降,即便題目內容沒有任何改變。
這揭示了一個重要問題:AI的多選題表現,在一定程度上依賴於"看到選項後比對最相近的那個"這種模式識別策略,而不是真正理解實驗會產生什麼結果。當必須自己給出答案時,這種策略就失效了。
這意味著,通常用來評估AI科學能力的多選題基準測試,可能系統性地高估了AI在真實科研場景中的實際能力——因為真實科研中的預測通常是開放式的,而不是從幾個選項中選一個。
---
七、化學最難,不同領域的差異說明了什麼
按學科領域來看,三個大類的難度存在明顯差異。化學是最難的領域,平均準確率在13%到26%之間,最難的模型勉強超過13%。這種差距在人類專家身上體現得尤為明顯:專家在化學題上的準確率僅約8.82%,而在生物學上約23.15%,在物理學上約26%。
化學領域的低表現可能反映了一個深層問題:化學實驗的結果往往高度依賴非常具體的實驗條件,細微的參數變化可能導致截然不同的結果,這種"蝴蝶效應"使得在沒有親自操作的情況下預測結果尤為困難。無論是AI還是人類專家,面對高度情境依賴的化學實驗結果,都很難僅憑文字描述做出準確預測。
研究者們還發現了一個關於模型能力的有趣規律:SciPredict的得分與一個名為HLE(Humanity's Last Exam)的通用硬推理基準存在正相關關係,Pearson相關係數約為0.46。也就是說,通用推理能力越強的模型,在實驗預測上通常也表現得稍好一些。但這種相關性並不強——不同模型在HLE上得分相近,但在SciPredict上的得分可能相差好幾個百分點。
具體來看,DeepSeek v3在HLE上得分非常低,但在SciPredict上的表現超出了其HLE分數所預期的水平。而Gemini 2.5 Pro和GPT-5.2在HLE上得分較高,卻在SciPredict上低於預期。這種"偏差"說明,除了通用推理能力,實驗預測還依賴於對具體科學領域的先驗知識和實驗直覺——即能識別哪些實驗細節與結果因果相關、能把觀測值映射到合理機制上,這些是通用推理能力之外的東西。
---
八、這一切意味著什麼:AI科學助手的門檻在哪裡
歸根結底,這篇論文用嚴格的數據告訴我們一件事:AI目前的實驗預測能力,還遠遠達不到能夠可靠指導科學研究的程度。
準確率14%到26%的絕對數值已經夠低了。但更根本的問題在於,AI無法告訴你它的哪些預測是可信的。這種缺乏自我認知的狀態,意味著即便AI偶爾預測正確,研究者也沒有可靠的方法從一堆預測中把正確的那個挑出來。
研究者們用了一個非常精準的說法來描述這個問題:AI不僅缺乏預測的準確性,更缺乏"預測可靠性的自我意識"(metacognitive awareness)。人類專家擁有這種意識——他們知道自己什麼時候是在踩實地、什麼時候是在走鋼絲。AI目前還沒有這個能力。
這並不意味著AI在科學研究中沒有價值。事實上,AI在文獻綜述、假設生成、代碼編寫和數據分析方面已經展現出了實實在在的輔助價值,這些領域的進展都有大量實證研究支撐。SciPredict聚焦的是一項更難的能力——預測未知的實驗結果——而這件事本身對人類專家來說也很難,20%的專家準確率就是最好的證明。
研究團隊在結論中指出,要實現AI在實驗科學中的真正價值,需要兩方面的同步進步:一方面是提升預測準確率本身,這需要更好的科學事實基礎和更強的因果推理能力;另一方面是發展可靠的不確定性量化能力,讓AI能夠對自己的預測誠實地標註"我不知道"或"這個我沒把握"。後一點可能比前一點更難,也更重要。
研究者們還展望了未來的方向:把AI與真實的實驗流程結合起來,讓它在看到實驗結果後能更新自己的推理——把預測從一次性的猜測變成一個疊代的對話過程。此外,跨領域知識遷移也是值得探索的方向,即讓AI學會識別不同科學領域之間的類比關係,就像頂尖的跨學科科學家那樣,把一個領域的洞察帶到另一個領域。
SciPredict的數據和代碼已經完整開放在GitHub上,供研究社區自由使用和改進。這個基準本身將成為衡量未來AI在這一能力維度上進步的標尺。
下次當你看到某個關於"AI將革命性地加速科學發現"的新聞標題時,不妨想起這組數字:在最新發表的科學實驗面前,即便是最頂尖的AI,它的預測能力也只比專業領域的博士專家高出幾個百分點。這條路還很長。
---
Q&A
Q1:SciPredict基準測試和普通AI科學問答測試有什麼本質區別?
A:SciPredict專門測試AI預測真實實驗結果的能力,而不是測試AI的科學知識儲量。所有題目都來自2025年3月31日之後發表的最新論文,確保超出所有AI的訓練數據範圍,徹底杜絕"背答案"的可能。更重要的是,SciPredict同時評估AI是否知道自己哪些預測是可信的——這是普通知識問答測試完全忽略的維度。
Q2:為什麼給AI提供背景知識只能提升約3%的準確率,而不是大幅提升?
A:研究發現,AI對大多數背景知識條目的掌握率超過70%,也就是說它"知道"這些知識,但無法有效用於預測具體實驗結果。這說明"知道知識"和"用知識預測未知實驗結果"是兩種截然不同的能力。預測實驗結果需要理解細微的實驗條件依賴關係,以及做出有根據的因果推斷,而不只是調用已儲存的知識。
Q3:SciPredict研究中的人類專家準確率只有20%,是不是說明這些題目太難了,AI表現差情有可原?
A:人類專家20%的整體準確率的確反映了這些題目的高難度,但關鍵不在於絕對準確率,而在於校準能力。當專家認為某題可以通過推理預測時,他們的準確率高達約80%;而認為必須做實驗才能知道時,準確率僅約5%。這種從5%到80%的跨越說明專家知道自己的邊界。AI則無論對錯都維持約20%的準確率,缺乏這種自我認知,這才是核心問題。






