OpenAI深夜反擊DeepSeek！緊急上線o3-mini免費用，體驗後發現差距在這

春節假期，來自東方神秘力量的 DeepSeek 撕裂了矽谷的輿論場。

贊助商廣告

一面是 OpenAI、Anthropic 等廠商的遊說打壓，一面卻又見證了其盟友口嫌體直的態度，短短一夜之間，微軟、英偉達、亞馬遜等美國雲計算平台紛紛向 DeepSeek R1 伸出橄欖枝。

面對 DeepSeek 聲勢的持續攀升，最有力的反制手段終究還是要靠實力說話。

今天凌晨，OpenAI 正式上線了 OpenAI o3-mini 系列模型。

OpenAI深夜反擊DeepSeek！緊急上線o3-mini免費用，體驗後發現差距在這

作為 o1-mini 模型的繼任者，o3-mini 是目前推理系列中最新且最具性價比的模型。OpenAI 研究科學家 Noam Brown 在 X 平台發文稱：

「我們十分高興地推出了o3-mini，包括向免費用戶開放。在多項評估中，它的性能表現優於o1。我們正在徹底改變成本與智能之間的關係。模型智能將持續提升，而獲得相同智能水平的成本則會不斷降低。」

We at @OpenAI are proud to release o3-mini, including for the FREE tier. On many evals it outperforms o1. We’re shifting the entire cost‑intelligence curve. Model intelligence will continue to go up, and the cost for the same intelligence will continue to go down. pic.twitter.com/3zOP5whJFT
— Noam Brown (@polynoamial) January 31, 2025

o3-mini 系列模型具體亮點如下：

o3-mini 主打快速推理，o3-mini（high）擅長編碼和邏輯

支持聯網搜索，暫不支持多模態功能

訓練數據經過嚴格篩選，安全合規表現有所增強

付費用戶方面，ChatGPT Plus、Team 和 Pro 用戶現已可以使用 o3-mini，企業版將在一周後開放訪問。

OpenAI 將 Plus 和 Team 用戶的每日消息限制從 o1-mini 的 50 條提升至 150 條。Pro 用戶可享受 o3-mini 以及 o3-mini-high 的無限次訪問，滿足更高強度或更專業的推理需求。

同時這也是 OpenAI 首次向免費用戶開放推理模型的使用權限，在 ChatGPT 消息輸入框下方選擇「Reason」按鈕即可使用。

贊助商廣告

Free users can now try OpenAI o3-mini in ChatGPT by selecting the Reason button under the message composer. https://t.co/Ws5rXqnKep pic.twitter.com/vT2snEUbzH
— OpenAI (@OpenAI) January 31, 2025

值得一提的是，OpenAI o3-mini 集成了搜索功能，能夠實時獲取最新答案並附帶相關網頁鏈接，方便用戶進行深度調研。

不過，目前這還是一項原型功能，官方表示未來將持續完善和擴展到更多推理模型。

o3-mini 是 OpenAI 首個支持函數調用、結構化輸出和開發者消息等高級功能的小型推理模型，支持開箱即用。

與 o1-mini 和 o1-preview 一樣，o3-mini 支持流式傳輸。

開發者還可以根據具體需求在低、中、高三種推理強度中進行選擇，在複雜任務處理和響應速度之間取捨。

測試顯示，o3-mini 的平均響應時間為 7.7 秒，較 o1-mini 的 10.16 秒快了24%。同時，在專家評測中，有 56% 的評測者更傾向於選擇 o3-mini 的回答，在處理複雜實際問題時的重大錯誤率也降低了 39%。

o3-mini 的系統卡提到，在為期一周的評估中，七位人類生物學專家與 o3-mini(預訓練版本)就複雜的生物學問題展開了多輪對話。

專家一致認為，即便在無法接入網際網路的情況下，o3-mini 的問答能力依然強大，不僅能夠加速資訊檢索過程，還能提供網際網路上難以找到的資訊。

並且，專家們還發現該模型在文獻綜述與問題解答方面表現出色，能夠快速且全面地梳理文獻資料。不過也需要注意的是，模型偶爾會出現幻覺，導致細節資訊有所偏差。

在核心能力評測中，o3-mini 交出了一份亮眼的成績單。在高等推理模式下，其在 2024 年 AIME 數學競賽中達到 87.3% 的準確率。

贊助商廣告

博士級別的科學問答任務 GPQA Diamond 得分高達 77.2%。

在競技編程平台 Codeforces 上，o3-mini（high）更是斬獲 2130 的 ELO 評分。

在軟體工程領域，o3-mini 同樣表現不俗。

在 SWE-bench 驗證測試中，高等推理模式下的準確率達到 49.3%；使用內部工具框架時，這一數字更是攀升至 61%。即便是使用開源的 Agentless 框架，o3-mini 仍然保持了 39% 的通過率。

贊助商廣告

在人類偏好評估（Human preference evaluation）中，o3-mini (medium) 在多個任務場景下勝率均顯著高於 o1-mini，無論是在 STEM 任務、非 STEM 任務，還是用戶處於時間受限的情況下。

o1-mini 則更加平均，但在勝率和錯誤率方面不如 o3-mini (medium) 突出。

o3-mini 模型採用思維鏈推理（Chain-of-Thought Reasoning）訓練方法，能夠讓模型在回應用戶之前先對安全規範進行推理，因此在安全性和防越獄測試中的表現都有顯著提升。

系統卡顯示，o3-mini 風險控制能力表現優異。

模型在說服、CBRN（化學、生物、放射性、核）和模型自主性方面呈現中等風險，而在網路安全方面則保持低風險，比如無法有效執行高難度黑客攻擊任務，對真實世界的網路威脅能力有限。

贊助商廣告

此外，o3-mini 在識別和拒絕危險請求時與 GPT-4o 旗鼓相當，同時大幅降低了對無害請求的誤判，有效解決了過度謹慎的問題。

在幻覺控制方面，基於 PersonQA 數據集的測試顯示，其錯誤資訊生成率已降至 14.8% 的可控水平。

跨語言處理能力是衡量大模型實用性的重要指標之一。

o3-mini 多語言處理能力測試橫跨 14 種主流語言，包括阿拉伯語、中文、法語、德語、日語和西班牙語等，較 o1-mini 有明顯提升。

贊助商廣告

o3-mini 的成本顯著低於 o1（約便宜 13.6 倍），緩存輸入（Cached Input）的成本是標準輸入費用的一半。

論文作者欄也出現了熟悉的名字——Hongyu Ren（任泓宇）。

任泓宇本科畢業於北大，對 o1 有過基礎性貢獻，也是 GPT-4o 的核心開發者，曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。

光說不練假把戲，我們第一時間上手實測了剛剛上線的 o3-mini 和 o3-mini(high) 兩個版本。

首先測試 o3-mini 新增的搜索功能，讓它查詢 OpenAI 最新的融資消息，時效性不錯，而且還能準確追溯到《華爾街日報》的原始報道。

贊助商廣告

接著，我們拋出一道腦筋急轉彎「1=5，2=15，3=215，4=2145，那麼5=?」這道題有兩種解法：從腦筋急轉彎的角度看，既然1=5，那麼5=1；從數學邏輯推理來看，答案應為 21485。顯然，o3-mini 也沒答對。

為了進一步考驗性能更強的 o3-mini(high)，我們拋出了一道統計題

「100 個人回答五道試題，有 81 人答對第一題，91 人答對第二題，85 人答對第三題，79 人答對第四題，74 人答對第五題，答對三道題或三道題以上的人算及格，那麼，在這 100 人中，至少有（）人及格。」

o3-mini 系列的「思考」過程都能顯現，但與 DeepSeek R1 「碎碎念」式的思考不同， o3-mini(high)的思考過程反而更加簡潔明了。

X 網友問了一道關於凸函數的梯度流路徑長度問題，o3-mini(high)成功經受了考驗。

o3-mini is a remarkable model. Somehow it has *grokked arxiv* in a way that no other model on the planet has, turning it into a valuable research partner!

Below is a deceitfully simple question that confuses *all* other models but where o3-mini gives an extremely useful answer! pic.twitter.com/am5XI6aUOP
— Sebastien Bubeck (@SebastienBubeck) January 31, 2025

當被要求創作一個龜兔賽跑的故事，且需要遵循「前詞尾字母等於後詞首字母」的規則，並將篇幅控制在 100 詞以內時，o3-mini(high)也交出了一份及格答卷。

從故事邏輯來看，儘管部分句子表達略顯生硬，但故事仍然清晰傳達了龜兔賽跑的核心寓意。