這項由斯坦福大學、Hugging Face、EleutherAI、哥本哈根大學、愛丁堡大學等數十家機構聯合完成的研究,於2026年6月發表在arXiv預印本平台,論文編號為arXiv:2606.09809。這是來自全球超過三十家科研機構和企業的研究人員共同協作的成果,項目依託EvalEval Coalition社區推進,感興趣的讀者可通過上述編號查閱完整論文。
你有沒有注意到,每當一家科技公司發布新的AI模型時,總會附上一串炫目的評測分數?"在某某數學競賽題庫上得了98.9分"、"在某某推理測試上超越人類水平"……這些數字聽起來無比權威,但如果換一家獨立機構去測同一個模型,分數可能相差十幾二十個百分點。這是怎麼回事?誰的測試結果才是可信的?
這正是這篇研究想要解決的問題——AI的"考試成績"目前處於一種高度混亂的狀態,而這混亂的代價,最終由那些需要根據這些成績做決策的人來承擔:部署AI系統的工程師、制定監管政策的政府官員、以及試圖理解AI能力邊界的普通公眾。
一、為什麼AI的"考試成績"會如此混亂
考慮這樣一個場景:你想了解某款AI在數學題上的真實水平,於是找來了三份報告。第一份來自開發該AI的公司,說模型在MATH數據集上得了98.9分;第二份來自一家獨立評測機構,同樣測試MATH,卻只給出了84.7分;第三份報告壓根沒寫清楚用的什麼版本的MATH,用了幾道題,溫度參數設置是多少,甚至不知道是否用了思維鏈提示。
這三份報告說的是同一件事嗎?表面上是,實質上完全不同。同一個基準測試的名字,背後可能藏著完全不同的測試題目子集、不同的提示方式、不同的評分規則。就像三家餐廳都說自己賣"炒飯",但一家用冷飯、一家用熱飯、一家還加了特製醬料,最終出來的是三種東西,卻共用了同一個名字。
研究團隊通過系統性梳理發現,目前AI評測結果散落在排行榜、模型卡片、學術論文和企業部落格等各種來源中,彼此之間格式不兼容,缺少關鍵資訊,也沒有任何跨來源比較的統一標準。更重要的是,當結果不完整或語境缺失時,解讀這些數字的繁重工作就落到了那些最不具備專業能力去做這件事的人身上——比如監管人員和政策制定者。
過去也有人嘗試改善這種狀況。有人提出了BenchmarkCards,專門記錄評測基準本身的元資訊;有人建立了EEE(Every Eval Ever)資料庫,收集標準化的評測運行記錄;還有各類排行榜和系統卡片。但這些努力都只解決了問題的某一個角落:有的只管基準文檔,有的只管運行數據,沒有人把它們拼成一張完整的圖。更大的問題是,大多數這類提案停留在紙面上,沒有實際的數據提取工具和託管界面,需要評測者手動填寫大量欄位,這在實際操作中極難推廣。
這項研究提出的解決方案叫做EVALUATION CARDS,字面意思就是"評測卡片"。它的核心理念不是創造一個新的標準要求大家從零開始填寫,而是把已經存在的三類資訊——基準測試的元資訊、評測運行的記錄數據、模型本身的基礎資訊——統一整合進一個結構化的記錄里,並在這個整合記錄上自動計算四個"信號",幫助讀者判斷一個評測分數是否可信、是否完整、是否有可比性。
二、把"炒飯"分清楚:五層架構讓每一分成績都有跡可循
研究團隊發現,現有評測報告的一大根本性缺陷在於它把所有東西都壓扁成一個三元組:模型名稱、基準名稱、分數。這就好比一家餐廳的菜單上只寫了"食物:9分",完全沒有告訴你這是主食還是甜點、是川菜還是粵菜、是堂食還是外賣評分。
為了解決這個問題,研究團隊設計了一個五層的層級架構,把每一個評測結果都放進一條完整的"譜系鏈"里。這五層從上到下依次是:家族(Family)、組合(Composite)、基準(Benchmark)、子集(Split)和指標(Metric)。
以一個具體例子來說明。當有人宣稱"某個模型在MATH上得了99.4%",這個說法在這套架構里會被展開成一條完整路徑:MATH家族 → artificial_analysis(一家獨立評測機構的組合評分) → MATH-500(具體的500道題子集) → advanced-math(高級數學子類) → accuracy(準確率指標) → 0.994。這條路徑告訴了你所有重要資訊:誰測的、測了哪個版本、測了哪類題、用什麼指標、得了什麼分。少了任何一環,這個分數就很難被獨立驗證。
這個設計還有三層實際意義。第一,可信度警告會精確地貼在具體路徑上,而不是籠統地貼在"MATH這個名字"上,因此讀者能知道到底是哪個具體測試缺少了可重複的資訊。第二,讀者可以沿著這條鏈路向上追溯,看清楚一個綜合評分背後具體是哪幾項子任務支撐的,哪些有充分證據、哪些只有單一來源的孤證。第三,當不同來源報告的名稱不一致時(比如同一個模型在不同報告裡叫gpt-4、gpt-4-0613、OpenAI GPT-4),系統會通過標準化層將它們映射到同一個規範標識符,防止同一件事被當成三件事來統計。
三、四張"體檢單":評測結果究竟靠不靠得住
有了規範化的數據結構之後,研究團隊在上面計算了四個"解讀信號",每一個都回答一個關鍵問題。
第一個信號叫"可重複性"。它問的是:如果另一個人想獨立復現這個評測,報告中提供的資訊夠用嗎?這裡定義了一個最小資訊集,包括採樣溫度(temperature)和最大生成長度(max_tokens),對於智能體類任務還額外需要評估方案和資源限制的說明。如果這些欄位有任何缺失,這條記錄就會被標記為存在可重複性缺口,並列出具體缺少哪些欄位。可以把這個信號理解成菜譜上的基礎要素檢查:一道菜至少要寫清楚原料、火候和時長,缺了任何一樣,別人就沒辦法做出同樣的結果。
第二個信號叫"報告完整性"。這個信號的覆蓋範圍比第一個寬得多,它檢查的是基準測試本身的文檔是否足夠詳盡,包括測試的構建目標、測試的對象是什麼能力、評分標準怎麼定、適合用在哪些場景、有什麼已知的局限性,共涉及28個欄位。每個欄位根據填寫情況得0到1之間的分數,最終匯總成一個整體完整性比例。一個評測結果可以在可重複性上得滿分(所有運行參數都記錄了),但完整性分數依然很低——因為它根本沒有說清楚這個測試在測什麼、適合誰用、不適合誰用。
第三個信號叫"來源歸屬"。它問的是:這個分數是模型開發商自己報告的,還是獨立第三方報告的?這一點的重要性顯而易見。同一個學生的成績,自評和他評往往差異懸殊。研究團隊在系統中記錄了每條結果的"評測關係"欄位,分為第一方(開發商自己測)、第三方(獨立機構測)和協作測試三類。此外,基準測試本身攜帶的風險標註——這些標註來自IBM AI Atlas風險識別框架,涵蓋欺詐、網路犯罪、仇恨言論、恐怖主義等風險類別——也會隨著評測記錄一起展示給讀者,讓人在看分數的同時知道這個測試本身涉及哪些敏感領域。
第四個信號叫"可比性"。它問的是:不同來源報告的同一模型在同一基準上的分數,差異在可接受範圍內嗎?系統使用5%的閾值作為判斷標準。如果兩家機構報告的分數相差超過基準量程的5%,就會觸發可比性警告,並展示兩家的具體分數和推測的設置差異(比如溫度參數不同、測試題目版本不同)。這個信號特別重要,因為它能暴露那些"表面上是同一個測試、實際上測的是不同東西"的情況。
這四個信號的設計有一個共同原則:只呈現,不判決。系統不會給評測報告打"不合格"的標籤,不會給模型打字母等級分,也不會給任何開發商排名。它只是把哪些資訊有、哪些資訊沒有、不同來源之間差異有多大,清清楚楚地擺在讀者面前,讓讀者自己判斷。
四、同一份數據,不同的人看到不同的面貌
研究團隊還注意到一個現實問題:一位專門做模型評測的工程師和一位負責AI政策審查的官員,在看同一個評測結果時關心的東西完全不一樣。工程師想知道具體缺了哪些配置參數、各家評測機構的設置有什麼具體差異、判題模型用的是哪個版本;政策官員則沒有時間消化這些技術細節,他需要的是一句話的結論:"這個模型的測試方式有沒有被充分記錄?報告來自開發商還是獨立機構?這個測試覆蓋了哪些風險領域?"
為了服務這兩類完全不同的需求,EVALUATION CARDS設計了兩種"閱讀模式",但兩種模式操作的是完全相同的底層數據,只是展示的角度和粒度不同。
研究模式面向技術人員,展示所有細節:可重複性缺口列出每個具體缺失欄位,可比性警告附上導致分數差異的具體設置參數(比如"兩家機構在採樣溫度和提示樣本數量上存在差異,導致分數偏差0.07"),指標配置完整展開,包括指標類型、分值範圍、評判模型配置。
摘要模式面向政策人員和普通公眾,把同樣的信號翻譯成白話:可重複性缺口不再是一串欄位名,而是"這個測試中模型是如何被提示的,文檔里沒有說明";來源歸屬不再是枚舉欄位,而是"這個分數由開發商自己報告,尚無獨立機構複測";每個基準測試都配有三行固定格式的摘要註解,分別回答"它在測什麼"、"主要注意事項是什麼"、"適合誰用"。關於分數高低的解讀也被壓縮成最簡單的一句話,比如"分數越高代表表現越好,已有62個模型參與比較"。
在研究團隊與12位來自政府機構、科技公司和非營利組織的從業者進行的半結構化訪談中,參與者的反饋總體積極。一位在非監管政府機構負責AI評測的受訪者說,這套工具"比其他所有查看評測結果的方式都好";另一位政策研究人員說,以往需要花大量時間東拼西湊的背景資訊,現在都集中在一個地方,"節省了大量時間"。
五、現實情況究竟有多糟糕:對五千多個模型的大規模掃描
研究團隊將EVALUATION CARDS部署成一套持續運行的監測工具,對截至2026年6月4日的公開評測記錄進行了全面掃描。這個語料庫涵蓋5816個模型、635個單項基準測試(組織進62個家族和10個組合)、超過十萬條評測結果,由30個機構貢獻數據,包含通過HELM、lm-eval-harness、Inspect AI等框架運行的自動化評測,以及各排行榜抓取和社區直接提交的記錄。
掃描結果揭示了三個讓人不安的規律性現象。
第一個發現與可重複性有關。在全部50,461條(模型、基準、指標路徑)三元組中,有48,698條——也就是96.5%——缺少最小可重複性欄位中的至少一項。具體來看,95.6%的記錄沒有最大生成長度欄位,93.9%沒有採樣溫度欄位。對於專門測試AI智能體行為的基準,情況更糟:評估方案和資源限制欄位在所有相關記錄中缺失率高達100%,也就是說完全沒有一條智能體評測記錄包含這些資訊。更具體的對比出現在那些同時擁有開發商自測和第三方獨立測試的180個(模型、基準)配對上:開發商自己提交的記錄平均填寫了0%的基礎可重複性欄位,而第三方獨立評測機構提交的記錄平均填寫了16.6%。換句話說,在資訊透明度這件事上,開發商自測記錄甚至不如獨立機構的記錄。
第二個發現與文檔完整性有關。在已有Auto-BenchmarkCards記錄的635個基準測試中,文檔完整性的中位數得分僅為10.7%。也就是說,大多數基準測試文檔的填寫情況不到總體要求的八分之一。從具體欄位來看,唯一接近100%填寫率的欄位是評分類型和實際得分——這兩項幾乎每條記錄都有,因為沒有這兩項就根本無法算作一條評測記錄。而在框架另一端,預註冊鏈接和生命周期狀態欄位的填寫率是0%,歷史上沒有任何一條公開評測記錄提供過這些資訊。這說明,評測報告在"給出分數"這件事上做得還行,但在"解釋這個分數意味著什麼"方面幾乎是空白。
第三個發現與多方核實有關。在49,865個(模型、基準)配對中,有98.2%只被一個來源報告過,也就是說絕大多數AI能力聲明都沒有經過任何獨立核實。在那1.8%有多方報告的配對中,7.2%存在超過5%閾值的分數差異;如果縮小到由不同機構獨立報告的181個指標組,則其中51.9%——超過半數——存在超過閾值的分數差異。這意味著,即便是那極少數有多方核實的情況,超過半數的結果也無法在不同來源之間直接比較。從評測類別來看,第一方獨立報告(即只有開發商自己測,沒有第三方結果)集中在智能體類基準(15.1%)和通用能力類基準(12.5%),而在安全類基準中這個比例只有0.8%——這意味著,最可能被用於部署決策的通用能力和智能體行為測試,恰恰是最缺乏獨立核實的領域。
六、這套系統是怎麼運轉起來的:技術後台速覽
EVALUATION CARDS本質上是一個數據整合和計算層,而不是一個獨立採集數據的系統。它從三個已有來源提取數據並整合。第一個來源是Auto-BenchmarkCards,這是一套自動提取基準測試元資訊的系統,從Unitxt目錄、Hugging Face倉庫和相關論文中抽取內容,生成結構化的基準描述卡片,並對內容進行事實一致性驗證。第二個來源是EEE(Every Eval Ever),這是一個社區維護的評測運行數據儲存庫,包含來自HELM、lm-eval-harness和Inspect AI等主流框架的轉換器,每條記錄保存了模型資訊、評測工具、來源歸屬和數值結果。第三個來源是模型元數據,來自hub-stats(覆蓋Hugging Face上的開源模型)和models.dev(覆蓋API部署的模型,包括商業模型),提供發布日期、參數量、權重可訪問性等基礎資訊。
這三個來源彼此獨立維護,使用不兼容的標識符系統。一個模型可能在一個來源里叫"gpt-4",在另一個里叫"gpt-4-0613",在第三個里叫"OpenAI GPT-4"。一個基準可能以其論文標題在一個來源里出現,以排行榜代碼名在另一個來源里出現。EVALUATION CARDS通過一個實體註冊層解決這個問題:先進行表面標準化(統一大小寫、去除分隔符),再進行精確匹配,再進行標準化匹配,最後進行模糊莖幹匹配(剝離版本號和格式後綴)。對200個隨機抽取的實體進行人工驗證的結果顯示,模型匹配準確率98.3%,基準匹配準確率77.4%,指標匹配準確率86.7%。所有無法匹配的實體不會被丟棄,而是原樣保留並標記為待人工審核。
整個數據處理管線每天自動運行,全量重建時間不超過20分鐘,運行在普通配置的Linux伺服器上,前端界面部署在Hugging Face Spaces上,代碼完全開源。這意味著任何人都可以在自己的伺服器上部署一套獨立的EVALUATION CARDS實例,就像Model Cards被廣泛部署那樣。
七、這個工具未來會怎麼演化,又有哪些局限
研究團隊對這套工具的定位是一個持續演化的基礎設施,而不是一次性的研究成果。它設計了一套分層治理機制:日常修復和文檔更正只需要一名維護者審查即可合併,涉及數據處理邏輯的修改需要七天公開評論期,而涉及欄位定義、信號計算方式或閱讀模式的實質性變更需要21天公開評論期加上指導委員會的共識決定。所有提案無論是否被接受,都永久保存在倉庫里作為歷史記錄。
研究團隊同時承認了若干重要局限。首先,整套系統的聲明繼承了其數據來源的局限——Auto-BenchmarkCards驗證事實準確性但不驗證完整性,因此一個填寫了內容但內容不夠核心的欄位也會得到滿分。EEE是一個社區貢獻的增長型資料庫,沒有被納入其中的評測結果不會出現在EVALUATION CARDS里,而系統性缺失(比如某類模型或某類評測機構很少向EEE提交數據)是存在的但沒有被建模。
其次,污染控制是文檔中最重要的缺失項之一:有多少訓練數據出現在測試集中,這個問題目前只在自由文本的限制說明欄位里偶爾提及,完全沒有作為結構化欄位進行收集,因而不計入完整性分數。研究團隊將其列為最優先的未來擴展方向。
此外,系統目前只覆蓋大型語言模型的評測,尚不支持圖像模型、語音模型等其他AI系統。語料庫中英語基準和頂級規模模型的比例偏高,反映了數據來源本身的分布偏差。可比性信號使用統一的5%閾值,沒有考慮不同指標的統計噪聲水平差異。
還有一個研究團隊明確提示的風險:文檔完整性高分容易被誤解為"評測質量高",但實際上完整性分數隻衡量文檔寫得夠不夠詳細,與底層評測設計的嚴格程度完全無關。為了防止這種誤解,系統沒有設置任何等級評分或通過/不通過門檻,只是展示具體缺失了什麼。
歸根結底,這項研究試圖解決的是一個協調問題,而協調問題很難靠再發明一個新標準來解決——反而需要的是能把現有努力拼接起來的基礎設施,以及能把同樣的證據呈現給不同背景的讀者的界面。這套工具掃描了超過十萬條公開評測記錄後發現,96.5%的記錄無法被獨立驗證,超過半數的多方評測存在實質性分歧,而絕大多數評測結果至今沒有任何獨立機構去核實。這些數字不是指責誰,而是在說明一個生態系統目前的真實狀態——AI的能力聲明正在被越來越廣泛地引用於政策決定和部署決策,而支撐這些聲明的基礎資訊還遠遠沒有達到應有的透明度。如果你對AI評測的可信度感興趣,這篇論文值得一讀,可以通過arXiv編號2606.09809找到完整版本。
Q&A
Q1:EVALUATION CARDS里的"可重複性"和"報告完整性"有什麼區別?
A:可重複性只檢查運行評測時最基本的技術參數有沒有記錄,比如採樣溫度和最大生成長度。報告完整性檢查的範圍更廣,涵蓋基準測試本身的28個文檔欄位,包括測試目標、適用場景、評分規則和已知局限等。一個評測可以把所有運行參數都記錄了(可重複性滿分),但完全沒有說明這個測試在測什麼(完整性極低)。
Q2:EVALUATION CARDS掃描了多少AI評測結果,發現了什麼最驚人的現象?
A:截至2026年6月,系統覆蓋了5816個模型、635個基準測試和超過十萬條評測記錄。最驚人的發現是:96.5%的評測記錄缺少獨立復現所需的最基本資訊,開發商自測記錄填寫基礎參數的比例是0%,而98.2%的模型-基準配對只有單一來源報告,幾乎沒有任何獨立核實。
Q3:EVALUATION CARDS是強制要求開發商按新格式重新提交評測數據嗎?
A:不是。EVALUATION CARDS不要求任何人重新填寫新表格,它從已有的三個數據來源(Auto-BenchmarkCards、EEE資料庫、模型元數據)自動提取和整合資訊,在現有數據上計算四個解讀信號。它的定位是一個整合和解讀層,而非替代現有報告流程的新標準。






