OpenAI 最強模型被曝造假！提前獲取測試題，頂級數學家被蒙在鼓裡

近日，OpenAI 再次陷入了輿論風波。

事件源於 LessWrong 論壇上的一則爆料。一位名為「Meemi」的 Epoch AI 承包商透露，OpenAI 不僅為 FrontierMath 基準測試提供資金支持，還獲得了測試題庫的特權訪問權。

贊助商廣告

而這或許也是 o3 的成績在短時間內獲得極大提高的重要原因。但這個資訊直到去年 12 月 20 日 o3 發布時，才由 Epoch AI 對外公布。

消息一出，瞬間在 AI 圈引起軒然大波。

因為這很難不讓網友懷疑 OpenAI 是既當裁判，也當選手。吃瓜之前，需要給不熟悉的朋友先捋事件的背景資訊。

去年 12 月，OpenAI 正式發布了新一代號稱突破 AI 極限的 o3 模型。

在其中一項名為 FrontierMath 的 AI 數學基準測試（成績單）中，OpenAI 以 25.2% 的準確率遙遙領先，遠超 GPT-4 和 Gemini 等模型不足 2% 的成績。

FrontierMath 是一個分量極重的高級數學推理能力評估基準。它由 Epoch AI 聯手 60 多位頂級數學家共同打造，參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。

該基準包含數百個原創且極具挑戰性的數學問題，覆蓋現代數學的多個主要分支，如數論、實分析、代數幾何、範疇論等。

2006 年菲爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath 的問題「極其具有挑戰性」，並認為這些問題只能由領域專家來解決。

他指出，即使是人類專家，解決這些問題也需要數小時甚至數天的努力。

贊助商廣告

本表明 o3 在高級數學推理方面有巨大進步的成績單，卻在承包商的爆料後迎來了風評反轉。

面對爭議，Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 很快在 X 平台承認了此事。

我們犯了一個錯誤，沒有更早披露 OpenAI 在 FrontierMath 中的參與。我們的合同在 o3 發布前禁止我們這麼做。事後看來，我們確實應該更努力地爭取更早的透明性。我們承認這一點，並承諾未來做得更好。

So openAI does have access to all of frontier math problems and their solutions. https://t.co/HBu9FZWnAx
— Johan (@SenougaharA) January 19, 2025

事態進一步發酵，斯坦福大學數學博士生 Carina Hong 聲稱，在 Epoch AI 的安排下，OpenAI 擁有對 FrontierMath 的特權訪問權。

對 FrontierMath 基準測試做出重大貢獻的六位數學家向我證實，他們並不知道 OpenAI 會獨占該基準測試的訪問權限，而其他人無法獲得。多數人表示，如果他們事先知情，可能不會選擇參與。

Six mathematicians who significantly contributed to the FrontierMath benchmark confirmed this is true - that they are unaware that OpenAI will have exclusive access to this benchmark (and others won’t). Most express they are not sure they would have contributed had they known.
— Carina Hong (@CarinaLHong) January 18, 2025

贊助商廣告

面對質疑聲浪，Tamay Besiroglu 也通過部落格表達歉意，承諾將在未來採用更高的透明度標準。

部落格強調 OpenAI 的資金支持僅限於 FrontierMath 的開發，並未干預測試內容，同時聲明所有數據和問題均來自獨立貢獻者並經過獨立專家審核。

關於訓練使用：我們承認 OpenAI 確實可以訪問大部分 FrontierMath 問題和解決方案，但不包括 OpenAI 無法訪問的保留集，這使我們能夠獨立驗證模型功能。此外，我們有一個口頭協議，這些材料不會用於模型訓練。

相關 OpenAI 員工的公開溝通將 FrontierMath 描述為「嚴格保留」的評估集。雖然這種公開立場與我們的理解一致，但我還要進一步強調，實驗室從擁有真正未受污染的數據集中獲益匪淺。

OpenAI 也完全支持我們維護一個單獨的、未公開保留的數據集的決定，這是一種額外的保護措施，可以防止過度擬合併確保準確的進度測量。自最初設計之時起，FrontierMath 就被定位並展示為一種評估工具，我們相信這些安排反映了這一目的。

[編輯：澄清了 OpenAI 的數據訪問 - 他們無權訪問作為獨立驗證額外保護措施的單獨保留集。]

Epoch AI 的首席數學家 Elliot Glazer 承認在項目過程中未主動披露行業資助方面的資訊，並向那些如果事先知情可能不會參與的數學家道歉。

關於 o3 成績，他表示相信 OpenAI 報告的分數準確性，但強調 Epoch AI 需要通過正在開發的獨立保留測試集來驗證，並承諾保留集評估分數將公開。

當被質疑保留集狀態時，Glazer 澄清這個測試集仍在開發中，而不是已經完成。

As for where the o3 score on FM stands: yes I believe OAI has been accurate with their reporting on it, but Epoch can't vouch for it until we independently evaluate the model using the holdout set we are developing.
— Elliot Glazer (@ElliotGlazer) January 19, 2025

贊助商廣告

但這些解釋並未能平息事件的爭議，更多批評風浪湧向 Epoch AI 以及身處輿論漩渦的 OpenAI。

電腦科學家 Subbarao Kambhampati 表示，他此前就對 OpenAI 聲稱未預先接觸奧林匹克數學和 FrontierMath 數據的說法持懷疑態度。

在他看來，OpenAI 禁止相關方披露協議內容的做法本身就極具可疑性。

I have been grumbling to my students that I don't completely believe that OpenAI didn't have access to the Olympiad/Frontier Math data before hand.. Bingo.. (That OpenAI apparently forbade these guys from divulging this agreement certainly smells fishy..) https://t.co/kgoWkspJHC pic.twitter.com/RjvOf5F258
— Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z) January 19, 2025

知名 AI 專家 Gary Marcus 對此事件提出了猛烈的批評。

他將 OpenAI 的 o3 演示描述為一場「絕望的、操縱的、誤導性的、科學上粗製濫造的展示」，認為這更像是一次過度炒作而非真實突破。

一個生動的打比方是，如果有人提前獲得了試題和答案，而其他人只能靠實力應考，這樣的比較顯然缺乏公平性。

OpenAI 不僅獲得了問題和解決方案的訪問權，而其他競爭對手如 xai、DeepMind 以及學術團隊卻無法獲得相同資源。

更重要的是，Gary Marcus 認為 OpenAI 對這一關鍵背景事實隻字未提，同時也選擇性地隱藏了關鍵資訊。

他們既未公布在具體問題上的成功與失敗案例，也沒有提供相應的推理過程記錄，更未說明哪些問題出現在訓練集中。同時，他們也沒有允許 Epoch 對保留測試集進行驗證。

贊助商廣告

Clarification: From what I now understand, competitors can *try* FrontierMath, but they cannot access the full problem set and their solutions. OpenAI can, and this give them a large and unfair advantage.

And very much raises the question of whether OpenAI trained on those…
— Gary Marcus (@GaryMarcus) January 19, 2025

而回歸到這場愈演愈烈的風波，很大程度上源於網友們對 OpenAI 無休止炒作的厭倦。疑似「造假」的行為，也再次觸及了許多網友敏感的神經。

就在輿論持續發酵之際，有消息稱，OpenAI「Operator」項目取得突破，CEO Altman 預計將於 1 月 30 日向美國政府進行閉門簡報。

據悉，「Operator」是 OpenAI 開發的一種具有博士級別能力的自主 AI 智能體，能夠在瀏覽器中獨立執行任務，比如編寫代碼、預訂旅行、管理日程等。

當然，在這個節骨眼上，或許最好的危機公關策略就是立即發布 o3。而這也是最好的春節禮物。截至發稿前，OpenAI 尚未進一步作出聲明。