就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。贊助商廣告這次發布的的 o3 系列模型是 o1 的疊代版本,考慮到可能與英國電信運營商 O2 存在版權或商標衝突,OpenAI 決定跳過「o2」命名,直接採用「o3」。為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。本次發布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學家 Hongyu Ren(任泓宇)主持。值得注意的是,任泓宇本科畢業於北大,對 o1 有過基礎性貢獻,也是 GPT-4o 的核心開發者,曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。o3 系列包含兩款重磅模型:OpenAI o3:旗艦版本,具備強大的性能表現OpenAI o3 mini:輕量級模型,但能更快,更便宜,主打性價比先別急著高興,因為 o3 系列目前並不會向普通用戶開放,OpenAI 計劃先開放外部安全測試申請,正式發布時間預計要到明年 1 月。現在,感興趣的朋友可以提交申請:https://openai.com/index/early-access-for-safety-testing/關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察o3 性能大躍遷,死記硬背?不存在的o3 模型的「紙面參數」迎來了全方位提升。首先在 SweepBench Verified 基準測試中, o3 達到了約 71.7% 的準確率,直接將 o1 模型甩在身後整整 20% 之多。轉入編碼領域,o1 在編程競賽平台 Codeforces 上的得分為 1891。而 o3 在開足馬力,延長思考時間的情況下,得分可達 2727。作為參照,演示人員 Mark Chen 的得分也只有 2500,充分展現了 o3 模型已經具備接近甚至超越人類專業程式設計師的實力。在數學領域,o3 同樣表現出色。在美國數學競賽 AIME 2024 測試中,o3 以 90.67% 的準確率完全碾壓了 o1 的 83.3%。遇上衡量博士級科學問題解答能力的 GPQA Diamond 測試,o3 取得了 87.7% 的成績,而 o1 僅為 78%。什麼概念呢?要知道,就算是領域內的博士專家,也往往只能在自己的專業範圍內達到約 70% 的準確率。贊助商廣告面對當前基準測試接近滿分的情況,OpenAI 引入了一個全新的數學測試 EpochAI Frontier Math。這被認為是當前最具挑戰性的數學評估之一,包含了極其複雜的問題。就連專業數學家解決單個問題也需要耗費數小時甚至數天。目前,所有現有模型在該測試上的準確率都不足 2%,而在高算力的長時間測試下,o3 卻能取得超過 2457 的分數。說到 AI 領域的聖杯 AGI,也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。ARC-AGI 是由 Keras 之父 François Chollet 開發,主要是通過圖形邏輯推理來測試模型的推理能力。當演示人員向另一位演示人員 Mark Chen 提出即興問題時,後者準確指出了任務的要求:需要計算每個黃色方塊中彩色小方塊的數量,並據此生成相應的邊框。這些對人類來說再簡單不過的任務,對 AI 來說卻是一道難題。贊助商廣告並且,ARC-AGI 的每個任務都需要不同的技能,且刻意避免重複,完全杜絕了模型靠「死記硬背」取巧的可能,真正測試模型實時學習和應用新技能的能力。現在,o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間,並且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠超大多數真人。OpenAI 的言外之意就是,o3 將讓我們離 AGI 更近一步。o3 mini 重磅發布,速度更快,成本更低今年九月,OpenAI 發布了 o1 mini,具有很強的數學和編程能力,而且成本極低。延續這一發展方向,今天推出的 o3 mini 也保留了上述特徵。即日起,該模型僅向安全研究人員開放測試申請,截止日期為 1 月 10 日。o3 mini 支持低、中、高三種推理時間模式。用戶可根據任務複雜度靈活調整模型的思考時間。例如,複雜問題可選擇更長的思考時間,而簡單問題則可快速處理。從首批評估結果來看,在衡量編程能力的 Codeforces Elo 評分中,隨著推理時間的增加,其 Elo 分數持續攀升,在中等推理時間下就已超越 o1 mini。演示人員要求模型使用 Python 創建了一個代碼生成器和執行器,該腳本可啟動伺服器並創建本地用戶界面。用戶可在文本框中輸入代碼請求,系統會將請求發送至三種高級模式的 API,生成並執行相應代碼。贊助商廣告例如,當要求其生成一個包含 OpenAI 和隨機數的代碼時,o3 mini 的中等推理模式迅速完成了處理。另外,它還能自己測試自己,比如說在 GPQA 數據集測試中,模型以低推理模式完成了複雜數據集的評估。它下載原始文件,識別 CSS、答案和選項,整理問題並進行解答,最後進行評分,僅用一分鐘就完成了自我評估,準確率達到 61.62%。在數學領域,o3 mini 同樣表現優秀。在 AIME 數學基準測試中,其低推理模式就達到了與 o1 mini 相當的性能,中等推理模式更是超越了 o1 mini,且延時更低。另外,應廣大開發者呼聲,o3 mini 模型也將全面支持函數調用、結構化輸出和開發者指令等 API 功能。現在,o3 mini 和 o3 的申請通道現已開放。o3 mini 預計將於 1 月向所有用戶推出,完整版 o3 則將在後續發布。贊助商廣告寫在最後,在這個為期 12 天的年末發布會上,OpenAI 終於祭出了壓箱底的殺手鐧。可以說,o3 模型的發布為這場一度陷入「高開低走」困境的發布會,畫上了一個意料之外卻又情理之中的圓滿句號。短短不到 3 個月的時間,OpenAI 就完成了 o1 模型的疊代升級。這種從 GPT 系列到 o 系列的轉型,顯然是 OpenAI 深思熟慮後的戰略選擇,而事後結果也證明這個決定是明智的。不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節目中表示,OpenAI 在 AI 領域領先競爭對手約兩年之久。也正是這種相對寬鬆的競爭環境,使得 OpenAI 能夠專注於開發 ChatGPT。然而,當前形勢攻守易形也。Menlo Ventures 的報告顯示,ChatGPT 的市場份額被其他競爭對手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。由「標配」淪為「可選項」,ChatGPT 的光環正在褪去。這背後的原因顯而易見,OpenAI 的「護城河」正被短命狂奔的競爭對手們一寸寸填平。來自 Artificial Analysis 的調研數據清晰顯示,Anthropic 和 Google 等廠商陸續開發出性能接近 GPT-4、OpenAI o1 等新模型。並且,隨著 Scaling Law 觸及天花板,核心高管人才相繼離場,OpenAI 過往靠單個基礎模型贏得的紅利正在加速消退。贊助商廣告在動輒以天計的行業里,即便是今日發布的 o3 模型也很難再次創造長達 2 年的空窗期。尤其是當 Grok-3 和 Claude 等新模型蓄勢待發,留給 OpenAI 的時間或許已經不多了。醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會因為不同的 AI 方向有無數種答案。所幸,作為用戶的我們,都將是這場變局中最大的贏家。 原文地址 : https://www.animattoys.com/detail/o9A5kDn6/剛剛OpenAI重磅發布o3再次突破AI極限北大校友參與研發