AI「科學家」會做實驗，但不會真正地進行科學思考——來自弗里德里希·席勒大學耶拿等機構的聯合研究

這項由德國弗里德里希·席勒大學耶拿有機與高分子化學實驗室、印度理工學院德里土木工程系、印度理工學院德里跨學科研究學院及人工智慧學院聯合完成的研究，於2026年4月20日發布於預印本平台arXiv，編號為arXiv:2604.18805v1。感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

**研究背景：當AI"科學家"走進實驗室**

科學發展史上，有一種工具改變了人類探索世界的方式——那就是科學方法本身。科學方法的核心不是"得到正確答案"，而是"用可靠的方式追問問題"。提出假設、設計實驗、收集證據、根據結果修正想法——這套流程讓科學具有了自我糾錯的能力，哪怕今天的結論是錯的，明天也能被發現和修正。

近年來，越來越多基於大型語言模型（簡稱LLM，也就是像ChatGPT這類AI的底層技術）的"AI科學家"系統被開發出來，聲稱能夠自主完成從提出假設到撰寫論文的完整科研過程。這股熱潮正在快速升溫——在化學和材料科學領域，專門研究AI科學家的論文數量從2018年的約十幾篇，增長到2025年已接近數百篇，而且增速還在加快。

那麼問題來了：這些AI系統真的在"做科學"嗎？還是說它們只是在模仿科學的外殼，卻缺乏科學思維的核心？這正是這項研究想要回答的問題。

研究團隊沒有僅僅看AI能不能得到正確答案，而是深入追問：這些AI是如何推理的？它們的思考過程符合科學規範嗎？這種追問，就像不只是檢查一名學生的考卷答案，而是去看他的演算草稿，判斷他究竟是真的懂了，還是靠運氣猜對了。

**一、研究團隊構建了怎樣的"考場"**

為了公平、系統地評估AI科學家的能力，研究團隊搭建了一個名為"Corral"的評估框架，並在八個不同的科學領域設計了專門的測試環境。這八個領域涵蓋了從相對簡單直接的操作性任務，到需要深度推理的假設驅動型研究任務。

在相對簡單的一端，有"分子動力學模擬"任務，要求AI使用LAMMPS軟體包模擬材料的物理性質；有"催化劑表面構建"任務，要求AI從晶體結構出發搭建適合催化研究的表面模型；有"機器學習性能預測"任務，要求AI搭建完整的機器學習流程來預測材料的形成能；還有"原子力顯微鏡實驗執行"任務，AI需要操控一台真實的顯微鏡完成納米級表面表徵。這類任務的特點是"解題路徑明確"——只要按正確步驟操作，就能得到正確答案，就像按照說明書組裝一件家具。

贊助商廣告

在難度更高的另一端，有"光譜結構解析"任務，要求AI從多種光譜數據推斷未知分子的結構；有"無機定性分析"任務，要求AI通過模擬化學實驗識別溶液中存在的離子種類；還有"電路推斷"任務，要求AI通過測量節點間電阻來反推出整個電路的拓撲結構。這類任務的特點是"答案不直接給出"——AI必須自己提出猜測，設計實驗來驗證，再根據結果調整想法，就像一個偵探從零碎線索中拼湊出完整真相。介於兩者之間的是"逆合成規劃"任務，要求AI在成本和原料可獲得性的約束下，為目標分子規劃出可行的合成路線。

每個領域內還設置了不同難度等級，比如在電路推斷任務中，從只有六七個電阻的簡單網路，到包含十三個以上電阻的複雜拓撲結構；在定性分析任務中，從只包含三到五種常見離子的簡單樣品，到包含十五種以上、部分化學性質高度相似離子的複雜混合物。這種分級設計讓研究團隊能夠精確觀察AI在什麼條件下開始"力不從心"。

整套框架總共包含了超過25000次AI運行記錄，涉及15個以上的不同難度場景和90多種工具，堪稱迄今最大規模的AI科學推理評估研究之一。

**二、三個AI模型，兩種搭載方式**

研究團隊選取了三款當下最先進的AI模型進行評估。第一款是OpenAI的GPT-4o（版本gpt-4o-2024-08-06），第二款是Anthropic的Claude Sonnet 4.5（版本claude-sonnet-4-5-20250929），第三款是一個開源模型GPT-OSS-120B（通過Blablador接口調用）。前兩款是商業閉源模型，第三款是開源模型，三者共同代表了當前AI技術的前沿水平。

在"搭載方式"上，研究團隊測試了兩種常見的AI"腳手架"（scaffold）——這個詞描述的是把AI模型包裝起來、讓它能與外部工具互動的那層外殼。第一種叫"ReAct"，這種方式讓AI以文字流的形式一邊思考一邊行動，就像把自己的思考過程和操作步驟都大聲說出來；第二種叫"結構化工具調用"，AI通過標準化的接口調用各種工具，不需要把思考過程全部展示出來。這兩種方式在實際應用中都很常見，通過對比它們的表現，研究團隊可以判斷究竟是AI本身的能力決定了結果，還是外層的"包裝方式"更重要。

贊助商廣告

所有測試都在溫度設置為0（意味著AI輸出最為確定和一致）的條件下進行，每個任務固定運行次數，工具描述的詳細程度也作為一個變量被系統地測試——從只提供簡短說明，到提供詳細工作流程說明，再到提供完整的使用示例，以觀察資訊量對AI表現的影響。

**三、AI是如何被"評分"的：不只看答案，還要看推理**

評估體系分為兩個互補的維度，這正是這項研究與以往研究的核心區別所在。

第一個維度是"性能分析"，看AI有沒有給出正確答案。研究團隊為每個任務設計了自動評分函數，同時還準備了一套專門的知識測驗和推理測驗——前者考察AI是否掌握了完成任務所需的領域知識，後者考察AI是否具備完成任務所需的推理能力。這些測驗通過一種叫做"項目反應理論"（IRT）的方法來分析，這是教育測量領域的成熟方法，能夠把題目本身的難度和被測者的真實能力分開估算。就像一份試卷，有的題本來就難，有的題本來就簡單，IRT能幫助研究者更準確地判斷AI的"真實實力"而非"運氣成分"。

第二個維度是"行為分析"，看AI是如何推理的。研究團隊對AI的完整對話記錄進行了詳細標註，把每一步操作歸類為以下幾種認知操作之一：提出假設（H）、收集證據（E）、設計測試（T）、形成判斷（J）、更新信念（U）或作出承諾（C）。然後，研究者把這些操作之間的關係繪製成一張有向圖，通過分析圖的結構來判斷AI的推理是否符合科學規範。

這就像偵探破案的流程圖：好的偵探會提出嫌疑人（H），設計調查方案（T），收集證據（E），根據證據排除或保留嫌疑人（U），形成最終判斷（J）。而如果一個偵探只是提出了嫌疑人就直接宣布破案（C），既沒有調查也沒有根據新證據修正想法，那就是糟糕的推理方式。

兩位領域專家還手動標註了773份AI運行記錄，採用一套專門為這項研究開發的行為標記分類體系，以確保自動化分析的準確性。

贊助商廣告

**四、最重要的發現：是AI本身決定了一切，而非"包裝"**

研究團隊用一個叫做"貝葉斯廣義線性模型"的統計方法來拆解不同因素對AI表現的貢獻比例，結論非常清晰。AI模型本身的推理能力解釋了41.4%的性能差異，任務環境和難度等級的組合解釋了30.1%，而腳手架（包裝方式）只解釋了1.5%，工具描述的詳細程度只解釋了0.1%。

用更直觀的說法：決定一個AI科學家表現好不好的，主要是這個AI本身有多聰明（特別是推理能力有多強），以及任務本身有多難。至於你用哪種方式把AI包裝起來、給它多詳細的工具說明，影響微乎其微。

這個結論對整個AI科學家領域的工程實踐有重要含義。很多研究者和開發者把大量精力花在設計更精妙的提示詞、更複雜的工作流程、更詳細的工具文檔上，但這項研究告訴我們：這些努力頂多提升1-2%的性能，真正的天花板是AI模型本身。

從性能數字上看，在"工作流執行"類任務（比如分子模擬和表面構建）中，最強配置接近滿分；但在需要假設驅動推理的任務（比如定性分析和光譜解析）最難難度下，即使最強配置也低於60%。兩位獨立專家手動標註773份記錄的結果也與這個自動分析完全一致：模型之間的差異，遠大於不同包裝方式之間的差異。

**五、AI的推理方式：像一個不願改變想法的人**

這是整項研究最令人深思的發現。研究團隊仔細分析了AI的"偵探日記"——也就是它在解題過程中留下的完整推理軌跡，並總結出一系列"好的推理模式"和"壞的推理模式"。

好的推理模式包括：由證據引導生成新假設、對多個競爭假設進行排名和對比、在受到反駁證據後修正信念、先探索後聚焦、用多種獨立測試匯聚到同一個假設上。這些都是優秀偵探的特徵——保持開放心態，讓證據說話，隨時準備推翻之前的想法。

壞的推理模式則恰恰相反。"未經測試的斷言"——提出假設後根本不設計實驗去驗證，在68%的AI運行記錄中，AI收集了證據卻根本沒有利用這些證據（稱為"證據不被攝取"）。71%的運行記錄中，AI的信念從頭到尾沒有發生任何更新（稱為"固定信念軌跡"）。只有26%的運行記錄中，AI在遇到反駁證據後真的修正了自己的假設（稱為"反駁驅動的信念修正"）。多條獨立證據線索匯聚到同一假設的情況則極為罕見，只在7%的記錄中出現。

贊助商廣告

換句話說，AI科學家更像是一個"認死理"的人：一旦形成了某個想法，就傾向于堅持下去，不管後來收集到的證據說了什麼。這與真正的科學精神背道而馳。

更值得注意的是，即使AI會根據證據提出假設（這在65%的記錄中都有發生），但提出假設之後的測試和根據測試結果修正想法這兩步，大多數時候都沒有發生。換句話說，AI能做到推理的開頭，卻做不到推理的結尾。

**六、無論什麼任務，AI的推理方式都一個樣**

這個發現從另一個角度揭示了問題的深度。一個有經驗的科學家面對不同性質的任務，會自然地調整自己的思維策略：識別離子需要假設-測試循環，逆合成規劃需要組合樹搜索，分子動力學模擬需要模擬-驗證-調整的循環。但AI不會這樣做。

在工作流類任務中，"證據不被攝取"的比例是82%；在戰略推理類任務中是66%；在假設驅動類任務中是60%。雖然假設驅動類任務的這個數字略低，但改善幅度非常有限。同樣，多測試匯聚證據的比例在所有類型任務中都不超過10%。而當任務難度從最簡單升級到最難時，AI推理模式的這些比例幾乎沒有變化——就像不管是解一道簡單的加法題還是一道複雜的微積分題，AI用的都是同一套方法。

對AI的運行記錄做圖結構分析也證實了這一點：能力更強的模型會產生更多的假設節點（H）和證據節點（E），但這些節點之間的連接關係——也就是推理圖的"形狀"——與能力較弱的模型幾乎相同。更強的模型記住了更多知識，執行操作也更準確，但它們的思維方式並不更"科學"。

**七、給AI餵"成功案例"能解決問題嗎**

研究團隊還做了一個非常有創意的實驗：如果在AI開始解題之前，先給它看一份已經成功解題的過程記錄，會不會讓它學著用更好的方式推理？

實驗設計分為兩個變量。一是注入記錄的來源，要麼來自成功的歷史運行，要麼來自失敗的歷史運行；二是注入的步驟數量，要麼只注入最開始的一兩步，要麼注入幾乎全部步驟（只留最後一兩步讓AI自己完成）。

贊助商廣告

在工作流類任務中，結果相當樂觀——只要注入一兩步成功案例，AI的表現就能超過不注入任何背景的基線水平。這說明對於程序性強、路徑明確的任務，給AI一點"提示"就很有幫助。

但在假設驅動類任務（光譜解析、定性分析、逆合成規劃）中，情況截然不同。注入少量成功步驟對AI的表現幾乎沒有幫助，甚至有時還不如不注入。只有當注入了倒數第二步或最後一步的成功記錄——也就是幾乎把整個答案都告訴AI了——AI的表現才會顯著提升。更令人擔憂的是，注入失敗案例記錄則會對假設驅動類任務造成顯著損害，AI被錯誤的推理方式"錨定"後，成功率幾乎跌到接近零。

這個結果說明，對於真正需要科學推理的任務，AI的問題不是"缺少背景資訊"，而是根本性的推理能力缺失。即使給它看幾乎完整的成功路徑，它也只是在機械跟隨，而不是真正理解了如何推理。

研究團隊還測量了AI對自己輸出的"詞元級置信度"（可以理解為AI對自己每一個詞的把握程度）。結果顯示，在工作流類任務中，AI的平均置信度較高（對數概率約為-0.20）；而在假設驅動和戰略推理類任務中，AI的置信度明顯更低（對數概率約為-0.27）。這個數字差異與"注入成功案例能否改善表現"完全對應——AI自己對輸出沒把握的領域，恰好就是注入少量背景資訊也幫不上忙的領域。

**八、可靠性的問題：在需要科學推理的領域，AI會反覆失敗**

研究團隊用一個叫做"Pass∧k"的指標來衡量可靠性，這個指標衡量的是"連續做k次，每一次都成功的概率"。在工程實踐中，我們往往希望AI不只是"偶爾能做對"，而是"穩定可靠地做對"。

在工作流類任務中，這個指標的表現還算可以接受。但在光譜解析和定性分析等假設驅動類任務中，Pass∧k在k等於4到6次時就降到了0.05以下——換句話說，連續做四到六次、每次都成功的概率不到5%。即使給AI注入了早期成功步驟，這個衰減趨勢也基本沒有改變。

贊助商廣告

這意味著，如果你把AI科學家部署在一個需要反覆進行假設-檢驗-修正循環的真實科研場景中，它的表現會極不穩定。偶爾的成功不代表可靠，而科學研究需要的正是可靠。

**九、為什麼這件事很重要：科學知識的合法性問題**

科學哲學中有一個重要概念叫做"得到辯護的真信念"（justified true belief），意思是：一個科學結論不只要求"是正確的"，還要求"是通過可靠方式得到的"。如果一個答案是靠猜測得到的，那麼即使它恰好是對的，它也不算是可靠的科學知識，因為我們無法預測這個方法在新問題上還能不能用。

這項研究揭示的問題正在於此：AI科學家可能在68%的時間裡忽略了自己收集到的證據，可能在71%的時間裡從未修正過自己的信念，但它仍然可能偶然得到正確答案——而現有的評估方法，如果只看"答案對不對"，是完全發現不了這個問題的。

研究團隊還發現，一個工具的作用會影響它所服務的科學的走向。加州大學伯克利分校的Evans等人就發現，機器學習的普遍應用正在讓科學家們追問的問題範圍變得越來越窄。而AI科學家直接主導了科研探索的方向，如果它們推理不可靠，產生的影響就更加深遠。

**十、這個問題，換個"包裝"解決不了**

研究團隊在討論部分非常明確地指出：解決這個問題，必須從AI模型本身的訓練方式入手，僅僅改進腳手架是沒有用的。所有已測試的腳手架配置，包括最極端的"幾乎把答案都告訴它"的注入實驗，都沒有改變AI推理模式的根本問題。

要讓AI真正具備科學推理能力，"推理過程本身"必須成為訓練目標的一部分。現有的訓練方式主要是讓AI預測下一個詞，或者根據人類反饋調整答案的好壞——這兩種方式都不直接優化推理過程的質量。研究團隊提出，他們開發的這套評估框架——包括各種環境、工具、評分函數——為建立推理過程導向的訓練信號提供了基礎設施，因為每個環境都提供了可重複的任務和針對推理軌跡的評分函數。

贊助商廣告

研究團隊還指出，人類科學家生活在一個強制執行認識論規範的制度環境中：同行評審、可重複性要求、聲譽懲罰。而AI科學家完全不受這些約束，這讓問題更加突出。有證據顯示，過度依賴AI輔助本身就可能削弱人類獨立解決問題的能力，這兩個問題疊加在一起，構成了一個值得認真對待的風險。

**十一、這項研究的邊界與局限**

研究團隊在論文末尾坦誠地列舉了自己的局限之處，這本身也是科學誠實的體現。

每個任務被視為獨立情節，AI在任務之間不保留任何知識或策略積累，而真正的科研工作恰恰依賴於長期的經驗積累。研究團隊只測試了兩種相對簡單的腳手架（ReAct和結構化工具調用），沒有涉及更複雜的多智能體協作、層級規劃或顯式記憶檢索等架構——這意味著報告的性能數字代表的是"最低限度腳手架下的表現下界"，而非所有可能工程努力的上界。

模型測試範圍覆蓋了三款前沿模型，但仍有很多重要的AI家族沒有被包含。整套基準測試消耗了約30億個詞元，估計商業API費用約為7500美元（不含開源模型的基礎設施成本），這種規模對於重複性研究是個不小的門檻。

置信度分析（詞元對數概率）只能在GPT-OSS開源模型上進行，因為商業API提供商不開放這個數據，這限制了跨模型比較的完整性。

研究團隊還觀察到GPT-OSS-120B有較高的格式錯誤率（41%的運行記錄受影響，平均每次運行1.26個錯誤），GPT-4o次之（6.2%的記錄受影響），Claude Sonnet 4.5最低（0.5%），但研究沒有針對各模型做專項工程優化，因此這些數字反映的是在統一基準下的原始表現，而非各模型調優後的最佳狀態。

歸根結底，這項研究傳遞的資訊是：AI科學家正在成為科學研究的重要工具，但我們現在評估它們的方式存在根本性盲點。只看答案對不對，就像只看偵探有沒有說出兇手的名字，而不管他的推理過程是嚴密的還是隨意猜測的。如果AI給出了正確答案，卻是通過忽略證據、不修正假設的方式得到的，那麼這個答案在新問題上能否重複，完全是個謎。

贊助商廣告

科學的價值不只在於產出正確的結論，更在於建立一套可信賴的知識生產過程。現有的AI科學家能夠執行科學工作流，但還不具備讓科學知識可被信賴的那套認識論行為。這不是說AI科學家沒有價值，而是說我們需要在使用它們之前，更清楚地知道它們的能力邊界在哪裡，以及如何去改進。

對於想深入了解這項研究的讀者，可以通過arXiv編號2604.18805查閱完整論文，Corral框架的代碼也已在GitHub上公開，相關數據集發布在Hugging Face平台上，完整的AI推理軌跡和標註結果都可以在線瀏覽和交互探索。

---

Q&A

Q1：AI科學家在哪類科研任務上表現好，在哪類任務上表現差？

A：在程序性強、解題路徑明確的工作流類任務（比如分子模擬、機器學習管道搭建）上，AI科學家的表現相當不錯，最強配置接近滿分。但在需要反覆提出假設、設計實驗、根據證據修正想法的假設驅動類任務（比如光譜結構解析、無機定性分析）上，即使最強配置也低於60%正確率，而且推理過程存在系統性缺陷。簡單說，AI擅長"按菜譜炒菜"，不擅長"自己研究出新菜譜"。

Q2：改變AI的"腳手架"或給更詳細的工具說明，能讓AI科學家表現更好嗎？

A：效果極其有限。這項研究發現，腳手架（包裝方式）只解釋了1.5%的性能差異，工具描述的詳細程度只解釋了0.1%。決定AI表現的主要是AI模型本身的推理能力（貢獻41.4%的差異）以及任務本身的難度。換句話說，花大量精力優化提示詞或工作流設計，對提升AI科學家的科學推理能力收效甚微，根本問題在於AI模型本身的訓練方式。

Q3：Corral評估框架與以往的AI科學能力評估有什麼不同？

A：以往的評估主要只看AI有沒有給出正確答案，而Corral在此基礎上增加了對推理過程本身的系統性評估。它把AI的每一步推理操作標註為假設、測試、證據、判斷、更新等類型，並分析這些操作之間的連接關係，從而判斷AI是否真的在進行科學規範的推理，還是只是恰好猜對了答案。此外，Corral還通過項目反應理論把AI的知識能力和推理能力分開測量，並設計了專門的"注入成功/失敗案例"實驗來測試AI的可恢復性和可靠性。整個框架代碼開源，可供社區擴展和復現。

贊助商廣告