宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發

2024年12月21日 首頁 » 熱門科技
就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。
這次發布的的 o3 系列模型是 o1 的疊代版本,考慮到可能與英國電信運營商 O2 存在版權或商標衝突,OpenAI 決定跳過「o2」命名,直接採用「o3」。
為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。
本次發布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學家 Hongyu Ren(任泓宇)主持。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
值得注意的是,任泓宇本科畢業於北大,對 o1 有過基礎性貢獻,也是 GPT-4o 的核心開發者,曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。
o3 系列包含兩款重磅模型:

OpenAI o3:旗艦版本,具備強大的性能表現

OpenAI o3 mini:輕量級模型,但能更快,更便宜,主打性價比
先別急著高興,因為 o3 系列目前並不會向普通用戶開放,OpenAI 計劃先開放外部安全測試申請,正式發布時間預計要到明年 1 月。
現在,感興趣的朋友可以提交申請:
https://openai.com/index/early-access-for-safety-testing/

關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

o3 性能大躍遷,死記硬背?不存在的
o3 模型的「紙面參數」迎來了全方位提升。
首先在 SweepBench Verified 基準測試中, o3 達到了約 71.7% 的準確率,直接將 o1 模型甩在身後整整 20% 之多。
轉入編碼領域,o1 在編程競賽平台 Codeforces 上的得分為 1891。而 o3 在開足馬力,延長思考時間的情況下,得分可達 2727。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
作為參照,演示人員 Mark Chen 的得分也只有 2500,充分展現了 o3 模型已經具備接近甚至超越人類專業程式設計師的實力。
在數學領域,o3 同樣表現出色。
在美國數學競賽 AIME 2024 測試中,o3 以 90.67% 的準確率完全碾壓了 o1 的 83.3%。
遇上衡量博士級科學問題解答能力的 GPQA Diamond 測試,o3 取得了 87.7% 的成績,而 o1 僅為 78%。
什麼概念呢?要知道,就算是領域內的博士專家,也往往只能在自己的專業範圍內達到約 70% 的準確率。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
面對當前基準測試接近滿分的情況,OpenAI 引入了一個全新的數學測試 EpochAI Frontier Math。
這被認為是當前最具挑戰性的數學評估之一,包含了極其複雜的問題。就連專業數學家解決單個問題也需要耗費數小時甚至數天。
目前,所有現有模型在該測試上的準確率都不足 2%,而在高算力的長時間測試下,o3 卻能取得超過 2457 的分數。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
說到 AI 領域的聖杯 AGI,也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。
ARC-AGI 是由 Keras 之父 François Chollet 開發,主要是通過圖形邏輯推理來測試模型的推理能力。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
當演示人員向另一位演示人員 Mark Chen 提出即興問題時,後者準確指出了任務的要求:需要計算每個黃色方塊中彩色小方塊的數量,並據此生成相應的邊框。
這些對人類來說再簡單不過的任務,對 AI 來說卻是一道難題。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
並且,ARC-AGI 的每個任務都需要不同的技能,且刻意避免重複,完全杜絕了模型靠「死記硬背」取巧的可能,真正測試模型實時學習和應用新技能的能力。
現在,o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間,並且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠超大多數真人。
OpenAI 的言外之意就是,o3 將讓我們離 AGI  更近一步。
o3 mini 重磅發布,速度更快,成本更低
今年九月,OpenAI 發布了 o1 mini,具有很強的數學和編程能力,而且成本極低。
延續這一發展方向,今天推出的 o3 mini 也保留了上述特徵。即日起,該模型僅向安全研究人員開放測試申請,截止日期為 1 月 10 日。
o3 mini 支持低、中、高三種推理時間模式。
用戶可根據任務複雜度靈活調整模型的思考時間。例如,複雜問題可選擇更長的思考時間,而簡單問題則可快速處理。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
從首批評估結果來看,在衡量編程能力的 Codeforces Elo 評分中,隨著推理時間的增加,其 Elo 分數持續攀升,在中等推理時間下就已超越 o1 mini。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
演示人員要求模型使用 Python 創建了一個代碼生成器和執行器,該腳本可啟動伺服器並創建本地用戶界面。用戶可在文本框中輸入代碼請求,系統會將請求發送至三種高級模式的 API,生成並執行相應代碼。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
例如,當要求其生成一個包含 OpenAI 和隨機數的代碼時,o3 mini 的中等推理模式迅速完成了處理。
另外,它還能自己測試自己,比如說在 GPQA 數據集測試中,模型以低推理模式完成了複雜數據集的評估。
它下載原始文件,識別 CSS、答案和選項,整理問題並進行解答,最後進行評分,僅用一分鐘就完成了自我評估,準確率達到 61.62%。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
在數學領域,o3 mini 同樣表現優秀。
在 AIME 數學基準測試中,其低推理模式就達到了與 o1 mini 相當的性能,中等推理模式更是超越了 o1 mini,且延時更低。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
另外,應廣大開發者呼聲,o3 mini 模型也將全面支持函數調用、結構化輸出和開發者指令等 API 功能。
現在,o3 mini 和 o3 的申請通道現已開放。o3 mini 預計將於 1 月向所有用戶推出,完整版 o3 則將在後續發布。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
寫在最後,在這個為期 12 天的年末發布會上,OpenAI 終於祭出了壓箱底的殺手鐧。
可以說,o3 模型的發布為這場一度陷入「高開低走」困境的發布會,畫上了一個意料之外卻又情理之中的圓滿句號。
短短不到 3 個月的時間,OpenAI 就完成了 o1 模型的疊代升級。
這種從 GPT 系列到 o 系列的轉型,顯然是 OpenAI 深思熟慮後的戰略選擇,而事後結果也證明這個決定是明智的。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節目中表示,OpenAI 在 AI 領域領先競爭對手約兩年之久。
也正是這種相對寬鬆的競爭環境,使得 OpenAI 能夠專注於開發 ChatGPT。
然而,當前形勢攻守易形也。
Menlo Ventures 的報告顯示,ChatGPT 的市場份額被其他競爭對手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。
由「標配」淪為「可選項」,ChatGPT 的光環正在褪去。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
這背後的原因顯而易見,OpenAI 的「護城河」正被短命狂奔的競爭對手們一寸寸填平。
來自 Artificial Analysis 的調研數據清晰顯示,Anthropic 和 Google 等廠商陸續開發出性能接近 GPT-4、OpenAI o1 等新模型。
並且,隨著 Scaling Law 觸及天花板,核心高管人才相繼離場,OpenAI 過往靠單個基礎模型贏得的紅利正在加速消退。
剛剛,OpenAI 重磅發布 o3!再次突破 AI 極限,北大校友參與研發
在動輒以天計的行業里,即便是今日發布的 o3 模型也很難再次創造長達 2 年的空窗期。
尤其是當 Grok-3 和 Claude 等新模型蓄勢待發,留給 OpenAI 的時間或許已經不多了。
醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會因為不同的 AI 方向有無數種答案。
所幸,作為用戶的我們,都將是這場變局中最大的贏家。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新