宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI「科學家」會做實驗,但不會真正地進行科學思考——來自弗里德里希·席勒大學耶拿等機構的聯合研究

2026年05月01日 首頁 » 熱門科技

這項由德國弗里德里希·席勒大學耶拿有機與高分子化學實驗室、印度理工學院德里土木工程系、印度理工學院德里跨學科研究學院及人工智慧學院聯合完成的研究,於2026年4月20日發布於預印本平台arXiv,編號為arXiv:2604.18805v1。感興趣的讀者可通過該編號查閱完整論文。

**研究背景:當AI"科學家"走進實驗室**

科學發展史上,有一種工具改變了人類探索世界的方式——那就是科學方法本身。科學方法的核心不是"得到正確答案",而是"用可靠的方式追問問題"。提出假設、設計實驗、收集證據、根據結果修正想法——這套流程讓科學具有了自我糾錯的能力,哪怕今天的結論是錯的,明天也能被發現和修正。

近年來,越來越多基於大型語言模型(簡稱LLM,也就是像ChatGPT這類AI的底層技術)的"AI科學家"系統被開發出來,聲稱能夠自主完成從提出假設到撰寫論文的完整科研過程。這股熱潮正在快速升溫——在化學和材料科學領域,專門研究AI科學家的論文數量從2018年的約十幾篇,增長到2025年已接近數百篇,而且增速還在加快。

那麼問題來了:這些AI系統真的在"做科學"嗎?還是說它們只是在模仿科學的外殼,卻缺乏科學思維的核心?這正是這項研究想要回答的問題。

研究團隊沒有僅僅看AI能不能得到正確答案,而是深入追問:這些AI是如何推理的?它們的思考過程符合科學規範嗎?這種追問,就像不只是檢查一名學生的考卷答案,而是去看他的演算草稿,判斷他究竟是真的懂了,還是靠運氣猜對了。

**一、研究團隊構建了怎樣的"考場"**

為了公平、系統地評估AI科學家的能力,研究團隊搭建了一個名為"Corral"的評估框架,並在八個不同的科學領域設計了專門的測試環境。這八個領域涵蓋了從相對簡單直接的操作性任務,到需要深度推理的假設驅動型研究任務。

在相對簡單的一端,有"分子動力學模擬"任務,要求AI使用LAMMPS軟體包模擬材料的物理性質;有"催化劑表面構建"任務,要求AI從晶體結構出發搭建適合催化研究的表面模型;有"機器學習性能預測"任務,要求AI搭建完整的機器學習流程來預測材料的形成能;還有"原子力顯微鏡實驗執行"任務,AI需要操控一台真實的顯微鏡完成納米級表面表徵。這類任務的特點是"解題路徑明確"——只要按正確步驟操作,就能得到正確答案,就像按照說明書組裝一件家具。

在難度更高的另一端,有"光譜結構解析"任務,要求AI從多種光譜數據推斷未知分子的結構;有"無機定性分析"任務,要求AI通過模擬化學實驗識別溶液中存在的離子種類;還有"電路推斷"任務,要求AI通過測量節點間電阻來反推出整個電路的拓撲結構。這類任務的特點是"答案不直接給出"——AI必須自己提出猜測,設計實驗來驗證,再根據結果調整想法,就像一個偵探從零碎線索中拼湊出完整真相。介於兩者之間的是"逆合成規劃"任務,要求AI在成本和原料可獲得性的約束下,為目標分子規劃出可行的合成路線。

每個領域內還設置了不同難度等級,比如在電路推斷任務中,從只有六七個電阻的簡單網路,到包含十三個以上電阻的複雜拓撲結構;在定性分析任務中,從只包含三到五種常見離子的簡單樣品,到包含十五種以上、部分化學性質高度相似離子的複雜混合物。這種分級設計讓研究團隊能夠精確觀察AI在什麼條件下開始"力不從心"。

整套框架總共包含了超過25000次AI運行記錄,涉及15個以上的不同難度場景和90多種工具,堪稱迄今最大規模的AI科學推理評估研究之一。

**二、三個AI模型,兩種搭載方式**

研究團隊選取了三款當下最先進的AI模型進行評估。第一款是OpenAI的GPT-4o(版本gpt-4o-2024-08-06),第二款是Anthropic的Claude Sonnet 4.5(版本claude-sonnet-4-5-20250929),第三款是一個開源模型GPT-OSS-120B(通過Blablador接口調用)。前兩款是商業閉源模型,第三款是開源模型,三者共同代表了當前AI技術的前沿水平。

在"搭載方式"上,研究團隊測試了兩種常見的AI"腳手架"(scaffold)——這個詞描述的是把AI模型包裝起來、讓它能與外部工具互動的那層外殼。第一種叫"ReAct",這種方式讓AI以文字流的形式一邊思考一邊行動,就像把自己的思考過程和操作步驟都大聲說出來;第二種叫"結構化工具調用",AI通過標準化的接口調用各種工具,不需要把思考過程全部展示出來。這兩種方式在實際應用中都很常見,通過對比它們的表現,研究團隊可以判斷究竟是AI本身的能力決定了結果,還是外層的"包裝方式"更重要。

所有測試都在溫度設置為0(意味著AI輸出最為確定和一致)的條件下進行,每個任務固定運行次數,工具描述的詳細程度也作為一個變量被系統地測試——從只提供簡短說明,到提供詳細工作流程說明,再到提供完整的使用示例,以觀察資訊量對AI表現的影響。

**三、AI是如何被"評分"的:不只看答案,還要看推理**

評估體系分為兩個互補的維度,這正是這項研究與以往研究的核心區別所在。

第一個維度是"性能分析",看AI有沒有給出正確答案。研究團隊為每個任務設計了自動評分函數,同時還準備了一套專門的知識測驗和推理測驗——前者考察AI是否掌握了完成任務所需的領域知識,後者考察AI是否具備完成任務所需的推理能力。這些測驗通過一種叫做"項目反應理論"(IRT)的方法來分析,這是教育測量領域的成熟方法,能夠把題目本身的難度和被測者的真實能力分開估算。就像一份試卷,有的題本來就難,有的題本來就簡單,IRT能幫助研究者更準確地判斷AI的"真實實力"而非"運氣成分"。

第二個維度是"行為分析",看AI是如何推理的。研究團隊對AI的完整對話記錄進行了詳細標註,把每一步操作歸類為以下幾種認知操作之一:提出假設(H)、收集證據(E)、設計測試(T)、形成判斷(J)、更新信念(U)或作出承諾(C)。然後,研究者把這些操作之間的關係繪製成一張有向圖,通過分析圖的結構來判斷AI的推理是否符合科學規範。

這就像偵探破案的流程圖:好的偵探會提出嫌疑人(H),設計調查方案(T),收集證據(E),根據證據排除或保留嫌疑人(U),形成最終判斷(J)。而如果一個偵探只是提出了嫌疑人就直接宣布破案(C),既沒有調查也沒有根據新證據修正想法,那就是糟糕的推理方式。

兩位領域專家還手動標註了773份AI運行記錄,採用一套專門為這項研究開發的行為標記分類體系,以確保自動化分析的準確性。

**四、最重要的發現:是AI本身決定了一切,而非"包裝"**

研究團隊用一個叫做"貝葉斯廣義線性模型"的統計方法來拆解不同因素對AI表現的貢獻比例,結論非常清晰。AI模型本身的推理能力解釋了41.4%的性能差異,任務環境和難度等級的組合解釋了30.1%,而腳手架(包裝方式)只解釋了1.5%,工具描述的詳細程度只解釋了0.1%。

用更直觀的說法:決定一個AI科學家表現好不好的,主要是這個AI本身有多聰明(特別是推理能力有多強),以及任務本身有多難。至於你用哪種方式把AI包裝起來、給它多詳細的工具說明,影響微乎其微。

這個結論對整個AI科學家領域的工程實踐有重要含義。很多研究者和開發者把大量精力花在設計更精妙的提示詞、更複雜的工作流程、更詳細的工具文檔上,但這項研究告訴我們:這些努力頂多提升1-2%的性能,真正的天花板是AI模型本身。

從性能數字上看,在"工作流執行"類任務(比如分子模擬和表面構建)中,最強配置接近滿分;但在需要假設驅動推理的任務(比如定性分析和光譜解析)最難難度下,即使最強配置也低於60%。兩位獨立專家手動標註773份記錄的結果也與這個自動分析完全一致:模型之間的差異,遠大於不同包裝方式之間的差異。

**五、AI的推理方式:像一個不願改變想法的人**

這是整項研究最令人深思的發現。研究團隊仔細分析了AI的"偵探日記"——也就是它在解題過程中留下的完整推理軌跡,並總結出一系列"好的推理模式"和"壞的推理模式"。

好的推理模式包括:由證據引導生成新假設、對多個競爭假設進行排名和對比、在受到反駁證據後修正信念、先探索後聚焦、用多種獨立測試匯聚到同一個假設上。這些都是優秀偵探的特徵——保持開放心態,讓證據說話,隨時準備推翻之前的想法。

壞的推理模式則恰恰相反。"未經測試的斷言"——提出假設後根本不設計實驗去驗證,在68%的AI運行記錄中,AI收集了證據卻根本沒有利用這些證據(稱為"證據不被攝取")。71%的運行記錄中,AI的信念從頭到尾沒有發生任何更新(稱為"固定信念軌跡")。只有26%的運行記錄中,AI在遇到反駁證據後真的修正了自己的假設(稱為"反駁驅動的信念修正")。多條獨立證據線索匯聚到同一假設的情況則極為罕見,只在7%的記錄中出現。

換句話說,AI科學家更像是一個"認死理"的人:一旦形成了某個想法,就傾向于堅持下去,不管後來收集到的證據說了什麼。這與真正的科學精神背道而馳。

更值得注意的是,即使AI會根據證據提出假設(這在65%的記錄中都有發生),但提出假設之後的測試和根據測試結果修正想法這兩步,大多數時候都沒有發生。換句話說,AI能做到推理的開頭,卻做不到推理的結尾。

**六、無論什麼任務,AI的推理方式都一個樣**

這個發現從另一個角度揭示了問題的深度。一個有經驗的科學家面對不同性質的任務,會自然地調整自己的思維策略:識別離子需要假設-測試循環,逆合成規劃需要組合樹搜索,分子動力學模擬需要模擬-驗證-調整的循環。但AI不會這樣做。

在工作流類任務中,"證據不被攝取"的比例是82%;在戰略推理類任務中是66%;在假設驅動類任務中是60%。雖然假設驅動類任務的這個數字略低,但改善幅度非常有限。同樣,多測試匯聚證據的比例在所有類型任務中都不超過10%。而當任務難度從最簡單升級到最難時,AI推理模式的這些比例幾乎沒有變化——就像不管是解一道簡單的加法題還是一道複雜的微積分題,AI用的都是同一套方法。

對AI的運行記錄做圖結構分析也證實了這一點:能力更強的模型會產生更多的假設節點(H)和證據節點(E),但這些節點之間的連接關係——也就是推理圖的"形狀"——與能力較弱的模型幾乎相同。更強的模型記住了更多知識,執行操作也更準確,但它們的思維方式並不更"科學"。

**七、給AI餵"成功案例"能解決問題嗎**

研究團隊還做了一個非常有創意的實驗:如果在AI開始解題之前,先給它看一份已經成功解題的過程記錄,會不會讓它學著用更好的方式推理?

實驗設計分為兩個變量。一是注入記錄的來源,要麼來自成功的歷史運行,要麼來自失敗的歷史運行;二是注入的步驟數量,要麼只注入最開始的一兩步,要麼注入幾乎全部步驟(只留最後一兩步讓AI自己完成)。

在工作流類任務中,結果相當樂觀——只要注入一兩步成功案例,AI的表現就能超過不注入任何背景的基線水平。這說明對於程序性強、路徑明確的任務,給AI一點"提示"就很有幫助。

但在假設驅動類任務(光譜解析、定性分析、逆合成規劃)中,情況截然不同。注入少量成功步驟對AI的表現幾乎沒有幫助,甚至有時還不如不注入。只有當注入了倒數第二步或最後一步的成功記錄——也就是幾乎把整個答案都告訴AI了——AI的表現才會顯著提升。更令人擔憂的是,注入失敗案例記錄則會對假設驅動類任務造成顯著損害,AI被錯誤的推理方式"錨定"後,成功率幾乎跌到接近零。

這個結果說明,對於真正需要科學推理的任務,AI的問題不是"缺少背景資訊",而是根本性的推理能力缺失。即使給它看幾乎完整的成功路徑,它也只是在機械跟隨,而不是真正理解了如何推理。

研究團隊還測量了AI對自己輸出的"詞元級置信度"(可以理解為AI對自己每一個詞的把握程度)。結果顯示,在工作流類任務中,AI的平均置信度較高(對數概率約為-0.20);而在假設驅動和戰略推理類任務中,AI的置信度明顯更低(對數概率約為-0.27)。這個數字差異與"注入成功案例能否改善表現"完全對應——AI自己對輸出沒把握的領域,恰好就是注入少量背景資訊也幫不上忙的領域。

**八、可靠性的問題:在需要科學推理的領域,AI會反覆失敗**

研究團隊用一個叫做"Pass∧k"的指標來衡量可靠性,這個指標衡量的是"連續做k次,每一次都成功的概率"。在工程實踐中,我們往往希望AI不只是"偶爾能做對",而是"穩定可靠地做對"。

在工作流類任務中,這個指標的表現還算可以接受。但在光譜解析和定性分析等假設驅動類任務中,Pass∧k在k等於4到6次時就降到了0.05以下——換句話說,連續做四到六次、每次都成功的概率不到5%。即使給AI注入了早期成功步驟,這個衰減趨勢也基本沒有改變。

這意味著,如果你把AI科學家部署在一個需要反覆進行假設-檢驗-修正循環的真實科研場景中,它的表現會極不穩定。偶爾的成功不代表可靠,而科學研究需要的正是可靠。

**九、為什麼這件事很重要:科學知識的合法性問題**

科學哲學中有一個重要概念叫做"得到辯護的真信念"(justified true belief),意思是:一個科學結論不只要求"是正確的",還要求"是通過可靠方式得到的"。如果一個答案是靠猜測得到的,那麼即使它恰好是對的,它也不算是可靠的科學知識,因為我們無法預測這個方法在新問題上還能不能用。

這項研究揭示的問題正在於此:AI科學家可能在68%的時間裡忽略了自己收集到的證據,可能在71%的時間裡從未修正過自己的信念,但它仍然可能偶然得到正確答案——而現有的評估方法,如果只看"答案對不對",是完全發現不了這個問題的。

研究團隊還發現,一個工具的作用會影響它所服務的科學的走向。加州大學伯克利分校的Evans等人就發現,機器學習的普遍應用正在讓科學家們追問的問題範圍變得越來越窄。而AI科學家直接主導了科研探索的方向,如果它們推理不可靠,產生的影響就更加深遠。

**十、這個問題,換個"包裝"解決不了**

研究團隊在討論部分非常明確地指出:解決這個問題,必須從AI模型本身的訓練方式入手,僅僅改進腳手架是沒有用的。所有已測試的腳手架配置,包括最極端的"幾乎把答案都告訴它"的注入實驗,都沒有改變AI推理模式的根本問題。

要讓AI真正具備科學推理能力,"推理過程本身"必須成為訓練目標的一部分。現有的訓練方式主要是讓AI預測下一個詞,或者根據人類反饋調整答案的好壞——這兩種方式都不直接優化推理過程的質量。研究團隊提出,他們開發的這套評估框架——包括各種環境、工具、評分函數——為建立推理過程導向的訓練信號提供了基礎設施,因為每個環境都提供了可重複的任務和針對推理軌跡的評分函數。

研究團隊還指出,人類科學家生活在一個強制執行認識論規範的制度環境中:同行評審、可重複性要求、聲譽懲罰。而AI科學家完全不受這些約束,這讓問題更加突出。有證據顯示,過度依賴AI輔助本身就可能削弱人類獨立解決問題的能力,這兩個問題疊加在一起,構成了一個值得認真對待的風險。

**十一、這項研究的邊界與局限**

研究團隊在論文末尾坦誠地列舉了自己的局限之處,這本身也是科學誠實的體現。

每個任務被視為獨立情節,AI在任務之間不保留任何知識或策略積累,而真正的科研工作恰恰依賴於長期的經驗積累。研究團隊只測試了兩種相對簡單的腳手架(ReAct和結構化工具調用),沒有涉及更複雜的多智能體協作、層級規劃或顯式記憶檢索等架構——這意味著報告的性能數字代表的是"最低限度腳手架下的表現下界",而非所有可能工程努力的上界。

模型測試範圍覆蓋了三款前沿模型,但仍有很多重要的AI家族沒有被包含。整套基準測試消耗了約30億個詞元,估計商業API費用約為7500美元(不含開源模型的基礎設施成本),這種規模對於重複性研究是個不小的門檻。

置信度分析(詞元對數概率)只能在GPT-OSS開源模型上進行,因為商業API提供商不開放這個數據,這限制了跨模型比較的完整性。

研究團隊還觀察到GPT-OSS-120B有較高的格式錯誤率(41%的運行記錄受影響,平均每次運行1.26個錯誤),GPT-4o次之(6.2%的記錄受影響),Claude Sonnet 4.5最低(0.5%),但研究沒有針對各模型做專項工程優化,因此這些數字反映的是在統一基準下的原始表現,而非各模型調優後的最佳狀態。

歸根結底,這項研究傳遞的資訊是:AI科學家正在成為科學研究的重要工具,但我們現在評估它們的方式存在根本性盲點。只看答案對不對,就像只看偵探有沒有說出兇手的名字,而不管他的推理過程是嚴密的還是隨意猜測的。如果AI給出了正確答案,卻是通過忽略證據、不修正假設的方式得到的,那麼這個答案在新問題上能否重複,完全是個謎。

科學的價值不只在於產出正確的結論,更在於建立一套可信賴的知識生產過程。現有的AI科學家能夠執行科學工作流,但還不具備讓科學知識可被信賴的那套認識論行為。這不是說AI科學家沒有價值,而是說我們需要在使用它們之前,更清楚地知道它們的能力邊界在哪裡,以及如何去改進。

對於想深入了解這項研究的讀者,可以通過arXiv編號2604.18805查閱完整論文,Corral框架的代碼也已在GitHub上公開,相關數據集發布在Hugging Face平台上,完整的AI推理軌跡和標註結果都可以在線瀏覽和交互探索。

---

Q&A

Q1:AI科學家在哪類科研任務上表現好,在哪類任務上表現差?

A:在程序性強、解題路徑明確的工作流類任務(比如分子模擬、機器學習管道搭建)上,AI科學家的表現相當不錯,最強配置接近滿分。但在需要反覆提出假設、設計實驗、根據證據修正想法的假設驅動類任務(比如光譜結構解析、無機定性分析)上,即使最強配置也低於60%正確率,而且推理過程存在系統性缺陷。簡單說,AI擅長"按菜譜炒菜",不擅長"自己研究出新菜譜"。

Q2:改變AI的"腳手架"或給更詳細的工具說明,能讓AI科學家表現更好嗎?

A:效果極其有限。這項研究發現,腳手架(包裝方式)只解釋了1.5%的性能差異,工具描述的詳細程度只解釋了0.1%。決定AI表現的主要是AI模型本身的推理能力(貢獻41.4%的差異)以及任務本身的難度。換句話說,花大量精力優化提示詞或工作流設計,對提升AI科學家的科學推理能力收效甚微,根本問題在於AI模型本身的訓練方式。

Q3:Corral評估框架與以往的AI科學能力評估有什麼不同?

A:以往的評估主要只看AI有沒有給出正確答案,而Corral在此基礎上增加了對推理過程本身的系統性評估。它把AI的每一步推理操作標註為假設、測試、證據、判斷、更新等類型,並分析這些操作之間的連接關係,從而判斷AI是否真的在進行科學規範的推理,還是只是恰好猜對了答案。此外,Corral還通過項目反應理論把AI的知識能力和推理能力分開測量,並設計了專門的"注入成功/失敗案例"實驗來測試AI的可恢復性和可靠性。整個框架代碼開源,可供社區擴展和復現。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新