這項由美國猶他大學卡爾特計算學院主導的研究,以預印本形式於2026年4月14日發布在arXiv平台,編號為arXiv:2604.13201v1,分類為計算語言學(cs.CL)方向。有興趣深入了解的讀者可通過該編號在arXiv網站上查閱完整論文。
研究背景與核心問題並不陌生。近年來,越來越多的科學家開始使用AI工具輔助日常科研工作——整理數據、分析實驗結果、回答關於數據集的問題。這些"AI科學助手"能不能真正勝任這份工作?更關鍵的是,當手頭的數據根本不夠用來回答某個問題時,AI會不會老老實實說"我不知道",還是硬編一個看似合理的答案矇混過關?猶他大學的研究團隊針對這兩個問題,設計了一套全新的評測系統,命名為InfiniteScienceGym,中文可以理解為"無限科學健身房"——一個專門訓練和測試AI科學推理能力的場所。
一、為什麼現有的評測工具不夠用
要理解這套新工具的價值,得先搞清楚原有工具的缺陷在哪。以往評測AI科學能力,最常見的做法是從已發表的論文或真實實驗數據集中挑選題目,然後讓AI作答。這個路子看起來很自然,但實際上藏著幾個難以迴避的坑。
第一個坑叫做"發表偏倚"。科學界有個公開的秘密:只有得到正面結果、數據漂亮的實驗才容易發表,那些結論模糊、數據不足、甚至發現"什麼都沒有"的研究往往被壓在抽屜里。於是,從已發表論文裡挑題目,幾乎總是在問"這個實驗發現了什麼",而很少模擬"這個數據根本不夠回答這個問題"的場景。但後者在真實科研中極為常見,甚至可以說是常態。
第二個坑叫做"先驗知識污染"。現有的大語言模型在訓練時見過大量的科學文獻,當你給它看一個來自真實研究的數據集並提問時,模型很可能是在憑記憶作答,而不是真的"看懂了數據"。就像考試時偷看過標準答案,測出的不是真實能力。
第三個坑叫做"標註噪聲"。真實數據集需要人工標註答案,人總會犯錯,也會對模糊問題產生分歧,這讓評測結果本身就不那麼可靠。
第四個坑則很現實:儲存和分發大規模科學數據集,成本高、法律風險大,也很難做到無限擴展。
正是為了繞開這四個坑,研究團隊提出了一個完全不同的思路——與其收集真實數據,不如從零開始造數據。
二、"種一粒種子,長出一個實驗室"
InfiniteScienceGym的核心機制可以用一個園藝比喻來理解:給系統一粒"種子"(一個隨機數字),它就能確定地長出一整套完整的科學實驗室,包括目錄結構、實驗文件、數據表格,以及與之配套的問題和答案。同一粒種子每次種下,長出的都是一模一樣的實驗室,不差毫釐。這意味著評測是完全可重複的,不需要儲存任何真實數據,只需記住種子編號即可隨時重現。
這套系統由三個核心模組組成,它們像流水線一樣依次工作。
第一個模組叫做"模擬器"。它的工作是從一粒種子出發,生成一個完整的虛擬科學項目倉庫。這個生成過程是自頂向下的,就像建房子先定地基再建牆,最後裝修。系統首先從一個涵蓋22個科學領域、244個分支方向、780個細分子方向的分類樹中隨機抽取一個科學領域。這個分類樹覆蓋了從電腦科學、生物醫學、物理化學到社會學、統計學幾乎所有的實證科學方向。
確定領域後,系統使用一個叫做Qwen3 4B Instruct的小型語言模型,根據該領域生成一個具體的科研項目構想,包括項目標題、詳細的研究描述(含假設、自變量、因變量、潛在干擾因素)以及一段模擬學術摘要。這個項目描述是整個倉庫的"設計藍圖",但永遠不會直接暴露給被測試的AI。
有了項目藍圖,系統再生成一套符合真實科研習慣的目錄結構,用文件夾名稱和文件名來編碼實驗變量。以論文中的示例為例,種子編號118對應的是一個關於釀酒酵母菌株優化的生物工程項目,其目錄結構是"/生長階段/基因型_日期/時間點/序號-pH值.jsonl"這樣的形式,光從路徑名就能讀出大量實驗資訊。
最後,系統為每個文件生成具體的表格數據。自變量按照各自類型(分類變量、離散整數變量、連續變量)採用對應的概率分布採樣生成,而因變量則由AI寫出的Python函數來計算——這些函數可以包含線性關係、非線性關係、噪聲過程,甚至部分可觀測性。論文附錄中展示了一個完整的函數例子:模擬葡萄糖消耗率,同時考慮了生長階段、溫度、葡萄糖濃度、氧氣水平、pH值和基因型等多個因素,每個因素都有對應的效應曲線,最後還疊加了隨機噪聲項,整個函數寫了將近五十行Python代碼,相當逼真。
第二個模組叫做"問答生成器"。它擁有對模擬器底層數據生成過程的完全知情權——也就是說,它知道每一個數據點是怎麼算出來的。憑藉這種"上帝視角",它能為每個倉庫生成兩類問題:有答案的問題和沒有答案的問題,並且每道有答案的題都有精確的標準答案,每道無答案的題的"無法回答"性質也是由系統邏輯嚴格保證的,而不是靠人工判斷。
無法回答的情形包括幾種典型案例:按條件篩選後沒有任何文件或數據行滿足要求(空集上沒法算中位數);問題要求計算某個變量的統計量,但該變量的類型根本不支持這種計算(比如對分類變量求中位數);或者問題涉及的變量根本不存在於數據中。這種"構造性無答案"是這套系統最重要的特性之一,後文的實驗結果也證明,這正是現有AI模型的最大軟肋。
第三個模組叫做"改寫模組"。它把格式化的模板問題轉化為研究者在實際工作中可能說出的自然語言提問,保留核心語義的同時讓問題更自然、更多樣。論文展示了一個具體例子:模板問題問的是"只考慮seq_number為4、date為2025-05-28、pH為4.0或5.0或6.0的文件,且只考慮temp為35、biomass在0.17到0.465範圍內的行,residual_glucose變量的中位數是多少";經過Gemma 20B模型改寫後變成了:"對於2025年5月28日第四次實驗輪次,在發酵介質酸度為4.0至6.0且發酵溫度為35攝氏度的條件下,當生物量濃度在每升0.17至0.465克之間時,發酵後殘餘葡萄糖的中位數是多少?"兩個問題問的是完全相同的事,但後者讀起來就像一位真正的生物工程師在提問。
三、實驗設計:給AI配備真實工具,模擬真實工作場景
在評測階段,研究團隊評測了五個模型:兩個商業閉源模型(OpenAI的GPT-5.4和Anthropic的Claude Opus 4.6)以及三個開源模型(GPT-OSS 20B、Qwen3 4B Instruct和Gemma 3 27B it)。評測方式特意還原了真實的科研助手使用場景——模型不是直接閱讀數據,而是可以主動使用一套工具來探索倉庫。
這套工具包含四個核心功能。第一個是目錄列舉功能,類似於在電腦里打開文件夾、查看裡面有什麼,支持通配符匹配。第二個是文本文件讀取功能,支持只讀取文件開頭或結尾幾行,避免一次性加載太多內容。第三個是二進制文件讀取功能,用於處理Excel等格式。第四個也是最關鍵的:Python代碼執行功能,模型可以在沙盒環境中編寫和運行數據分析代碼,調用numpy、pandas、scikit-learn等常用數據科學庫,運行時間限制60秒、內存限制512MB。值得注意的是,文件讀取工具也可以在Python代碼內部調用,這意味著模型完全可以在不把整個文件加載進對話窗口的情況下,用代碼處理數據。
每道題的評分是完全自動化的。數值型答案要求精確匹配(允許一定的有效數字誤差),分類答案要求包含正確選項且不含其他錯誤選項,"無法回答"的判斷則直接檢查模型是否回復了"not possible"。
研究團隊從前500個隨機種子生成的15988道題中抽取了500道,涵蓋五大題目類別,從易到難依次是:倉庫元數據(讀README文件)、文件元數據(了解單個文件的屬性)、目錄遍歷(統計滿足條件的文件數量)、單變量統計(計算特定篩選條件下某列的統計量)以及雙變量統計(計算兩列之間的相關性或假設檢驗結果)。500道題中361道(72.2%)有答案,139道(27.8%)無答案。對每道題,模型需要分別回答原始模板版本和三個不同模型生成的改寫版本,共四個變體。
四、實驗結果:沒有一個模型及格,"不知道"是最難說的話
最直觀的結論是:所有被測模型的整體準確率都相當低,最好的GPT-5.4也只達到44.8%,Claude Opus 4.6得到35.5%,而三個開源模型分別是GPT-OSS 20B的29.1%、Qwen3 4B Instruct的24.6%和Gemma 3 27B it的23.1%。商業模型整體顯著優於開源模型,差距至少6.4個百分點,這種差異經過統計檢驗(雙側配對t檢驗,p≤0.001)是可信的,不是隨機波動。
值得一提的是,Qwen3 4B Instruct模型正是用來生成這些虛擬倉庫的模型本身——也許有人會猜它因此有"主場優勢",但事實證明完全沒有,它的得分排在倒數第二,說明生成這些數據和理解這些數據完全是兩回事。
按題目類別看,差異非常明顯。倉庫元數據類題目(讀README)是所有模型表現最好的類別,GPT-5.4達到72.6%,Claude Opus 4.6甚至達到77.9%,這說明所有模型都能讀懂基礎文檔,沒有障礙。雙變量統計類也相對較好(各模型大約在43%至45%之間),原因在於這類題目的答案只有三個選項(是/否/不可能),本身是個三選一的問題,難度相對降低。
真正讓商業模型和開源模型拉開差距的是文件元數據、目錄遍歷和單變量統計這三類。以"文件元數據-行數統計"為例,GPT-5.4得到51.4%,Claude Opus 4.6得到53.6%,而三個開源模型分別只有14.7%、8.1%和6.1%。這些題目需要模型做到以下幾步:讀懂問題中的篩選條件、把條件映射到目錄結構和文件變量、寫出正確的過濾代碼、執行計算、最後判斷結果是否有意義。任何一步出錯都會導致最終答案錯誤,錯誤會像滾雪球一樣在步驟間累積放大。
關於識別"無法回答"問題的能力,結果更加令人擔憂。論文用精確率(Precision,當模型說"不可能"時,這個判斷有多大比例是正確的)和召回率(Recall,真正無法回答的題目中,模型識別出了多大比例)來衡量這種能力。GPT-5.4和Claude Opus 4.6在這兩個指標上都達到了80%以上,但沒有一個超過83%,仍有明顯的提升空間。它們的錯誤類型較為平衡,即該說"不知道"時說了答案,和不該說"不知道"時說了"不知道",兩類錯誤大致相當。
開源模型則呈現出完全不同的失敗模式:精確率很高(超過80%),召回率極低(低至40%左右)。這意味著當開源模型選擇說"不知道"時,通常是對的;但問題是它們太少說"不知道"了——遇到根本無法回答的問題,它們也會絞盡腦汁編出一個答案來。這種"寧可答錯也不認輸"的行為模式,在真實科研場景中相當危險:一個錯誤但自信的結論,可能把整個研究方向引偏。
五、更多工具調用反而更好,更多token卻未必
研究團隊還分析了模型的解題策略,發現了一個頗為反直覺的規律:消耗更多token的模型,準確率並不更高。GPT-5.4平均每道題只用了約24000個token,是所有模型中最節省的,但準確率最高。相比之下,開源模型有時會使用多達80000個token,準確率卻低得多。
這個現象的背後邏輯並不複雜。開源模型傾向於把整個數據文件直接讀入對話窗口——相當於把一本厚厚的數據手冊完整地抄在草稿紙上,然後憑肉眼逐行查找答案。這種方式效率極低,而且超長的文本輸入本身就會干擾模型的推理質量。GPT-5.4則不同,它通常只讀取文件的前幾十行來了解數據結構,隨後直接調用Python代碼工具來處理數據,讓程序精確地完成過濾、計算工作。論文附錄中專門對比了兩個模型面對同一道"統計某文件行數"題目時的解題過程:Gemma 3 27B it花了七個步驟導航到文件、讀取全部內容,然後靠肉眼數了157行(實際是163行,答錯了);GPT-5.4隻用兩步,先讀了40行確認文件格式,然後一行Python代碼`json.load`加`len()`就得出了正確答案163。
與此相對,工具調用次數越多,準確率確實越高。GPT-5.4平均每題調用約7次工具,而Qwen3 4B Instruct只調用約2次。更多的工具調用意味著更充分的探索:先看目錄結構,再讀文件頭部,再確認變量類型,最後運行計算代碼——每一步都在縮小不確定性,而不是靠一次大規模數據加載然後憑感覺作答。
六、改寫問題後答案會不會亂?
針對改寫模組引入的變化是否會讓評測結果失真,研究團隊用Krippendorff's Alpha係數(一種衡量不同評分者或不同條件下評分一致性的統計指標,可以理解為"問題換了說法,模型答案還有多穩定")來量化影響。三種改寫模型(GPT-OSS 20B、Gemma 3 27B it、Qwen3 4B Instruct)下的一致性係數分別為0.71、0.68和0.69,均屬於中等一致性——說明改寫確實引入了一定噪聲,但不是致命的。GPT-OSS 20B的改寫語義保留最好,模型切換說法後答案最穩定。
有一個很有趣的發現:每個被測模型在自己"同族"改寫模型生成的問題上,一致性往往高於其他模型的改寫版本。比如GPT-OSS 20B在由自己改寫的問題上一致性是0.72,高於Gemma 3 27B it改寫版本的0.67和Qwen3 4B Instruct改寫版本的0.69。研究團隊對此的解讀是:模型對於自己引入的歧義往往有更強的"免疫力",因為它在生成問題時也採用了類似的表達習慣,所以在理解時更容易對齊。
七、這套系統能做什麼,不能做什麼
InfiniteScienceGym並不聲稱能替代所有現有的科學評測基準。研究團隊很清楚地指出,這套系統的核心優勢是可控性而非真實感。它生成的是一個乾淨、結構清晰、關係可追溯的虛擬科學環境,非常適合用來測試特定的推理能力——文件導航、條件過濾、統計計算、以及對"沒有答案"的正確識別。
然而,真實科研環境中的數據往往更混亂:列名有拼寫錯誤、文件格式不統一、數據有缺失和異常值、變量定義含糊不清。這些"真實的髒數據"帶來的挑戰,InfiniteScienceGym目前尚未模擬。此外,現有系統只覆蓋表格數據,不涉及圖像、音頻、影片或非實證性的科學推理任務。還有一點值得注意:由於這套系統採用程序生成,生成過程中可能存在可被模型利用的規律性——未來的模型或許會學會"破解生成器的套路"而非真正理解數據,這是所有程序生成評測系統共同面臨的潛在風險。
研究團隊設想的幾個未來改進方向包括:擴展到更多數據類型和更混亂的倉庫結構;利用對數據生成過程的完全掌控,專門構造"與常識相悖"的數據集,用於測量模型的先驗知識偏差(即判斷模型是否真的看了數據,還是靠先入為主的印象作答);以及通過追蹤模型實際訪問了哪些文件來研究幻覺現象——如果一個問題的答案所在文件根本沒被模型打開,那它給出的答案就必然是編造的。
歸根結底,這項研究提醒我們一件在AI浪潮中容易被忽視的事:讓AI"能回答"問題和讓AI"知道什麼時候不該回答",是兩個難度層級完全不同的目標。後者在科學研究中尤為重要,因為在實驗室里,承認數據不足所需要的勇氣,和從數據中發現規律所需要的能力,同等珍貴。當前沒有一個模型在這個測試中得分超過45%,而識別"我不知道"的能力更是所有模型共同的短板。這不是一個令人沮喪的結論,而是一個清晰的路標——指向下一代科學AI助手應該努力的方向。
有興趣深入探究這套評測系統技術細節的讀者,可以在arXiv平台通過編號2604.13201查閱完整論文,研究團隊也承諾將公開全部代碼(含倉庫生成提示詞)和配套的模型性能追蹤網站,方便研究社區持續跟進不同模型在這個基準上的表現變化。
Q&A
Q1:InfiniteScienceGym是什麼,和普通AI評測基準有什麼區別?
A:InfiniteScienceGym是由猶他大學研究團隊開發的一套程序生成科學評測系統。與普通基準的核心區別在於,它不依賴任何真實數據集,而是從一個隨機數字"種子"出發,自動生成完整的虛擬科研項目倉庫和配套問答題。同一個種子每次生成的內容完全相同,因此可重複、無儲存成本、規模理論上無限大,還能精確控制哪些問題"有答案"、哪些"沒有答案",避免了傳統基準中發表偏倚和AI先驗知識干擾等問題。
Q2:AI模型在InfiniteScienceGym上的最大弱點是什麼?
A:所有被測模型最突出的弱點是識別"無法回答"的問題。當數據不足以支撐某個結論時,正確做法是承認無法回答,但開源模型普遍傾向於硬編一個答案而不是認輸,召回率低至40%左右。即使是表現最好的商業模型GPT-5.4和Claude Opus 4.6,識別無答案問題的召回率也不超過83%,整體準確率最高也只有44.8%,五個模型沒有一個達到及格線。
Q3:為什麼在InfiniteScienceGym測試中,調用更多工具比消耗更多token更重要?
A:因為高token消耗通常對應一種低效策略——把整個數據文件塞進對話窗口靠"肉眼"分析。這不僅浪費資源,還會干擾模型推理。而使用工具(尤其是Python代碼執行)意味著模型先用少量token了解數據結構,再用程序精確完成計算,每一次工具調用都在縮小不確定性。實驗結果清楚地顯示,工具調用次數多的模型準確率更高,而token消耗多的模型準確率反而更低,GPT-5.4用最少的token和最多的工具調用取得了最高分。






