重磅！OpenAI發布最強推理模型「OpenAI o1」（代號草莓）

OpenAI發布了一個全新的針對邏輯推理優化的大語言模型o1模型。官方宣稱其推理能力相比較當前的大語言模型（GPT-4o）有了大幅提升。OpenAI宣稱o1模型在編程競賽問題（Codeforces）中排名第89百分位，在美國數學奧林匹克（AIME）的資格賽中位列美國前500名，並且在物理、生物和化學問題的基準測試（GPQA）上超越了人類博士水平的準確率。

贊助商廣告

OpenAI o1模型簡介
OpenAI o1模型的評測結果
OpenAI o1背後的技術解析
OpenAI隱藏了o1模型背後的原始思維鏈推理過程
OpenAI o1目前已經可以使用

OpenAI o1模型簡介

o1模型是OpenAI訓練的一個全新的在推理能力有大幅提升的模型。該模型通過「思維鏈」（chain of thought）模式訓練模型，以實現高效的數據訓練過程。

OpenAI的「o1」模型在數學推理方面有了大幅提升，各種數學、編程方面的評測都大幅超過當前已有的模型。以國際奧林匹克數學競賽（International Mathematics Olympiad，IMO）為例，GPT-4o當前只能解決其中13%的問題，但是OpenAI o1可以解決83%的問題！提升十分明顯！

但，當前o1模型本身最大的缺點是推理時間很長。下圖展示了OpenAI o1模型技術與當前技術最大的區別。

在複雜推理任務方面，這是一個重大進步，代表了AI能力的新水平。基於這一突破，OpenAI將這個系列重新命名為OpenAI o1，並將計數器重置為1。

OpenAI o1模型的評測結果

OpenAI 「o1」在多個高難度智力測試中有卓越表現。OpenAI認為傳統的GSM8K、MATH等大模型評測已經失去了區分模型邏輯推理的能力，因此，他們在更加真實的評測中測試了「o1」的水平。

首先，在美國數學邀請賽（American Invitational Mathematics Examination，AIME，美國面向中學生的邀請式競賽，3個小時15道題）上，o1達到了接近滿分的成績，遠超其他AI模型。當前，GPT-4o平均只能解決12%的問題，而OpenAI o1的表現：

單次採樣：74%正確率
64次採樣共識：83%正確率
1000次採樣後重新排序：93%正確率
贊助商廣告

OpenAI o1的得分相當於全國前500名學生的水平，從這個內容看，OpenAI o1的採樣過程也是可以通過改變採樣次數來提升推理過程的模型！

在測試化學、物理和生物專業知識的GPQA diamond基準上，o1首次超越了人類專家。

此外，o1在視覺理解測試MMMU上接近人類專家水平（得分78.2%），並在MMLU的大多數子類別中（在57個子類別中的54個中超過了GPT-4o）超過了GPT-4。

上圖橙色部分是OpenAI o1模型相比GPT-4o模型提升的部分，還是非常明顯的！

這些結果展示了o1在特定問題解決能力上的突破，儘管並不意味著它在所有方面都超越人類專家。總體而言，o1的表現標誌著AI在推理和專業知識應用方面的重大進展。

OpenAI o1背後的技術解析

根據OpenAI官方的描述，o1模型的訓練使用了一種新的AI訓練方法，強調了思維鏈和強化學習的重要性，以及計算資源對性能的影響。

該模型訓練過程使用了一種大規模強化學習算法，用以教模型如何從數據中學會用思維鏈思考。其核心是可以從較少的高質量數據中學習「思維鏈」的推理方法，它不僅讓模型完成任務，還教模型如何改進思考過程。通過訓練，模型學會了改進思維過程、嘗試不同策略和識別錯誤。

學習過程的關鍵點：

識別和糾正錯誤：模型學會了發現自己的錯誤並進行修正。
問題分解：學會將複雜步驟分解成更簡單的部分。
靈活嘗試：噹噹前方法無效時，學會嘗試不同的解決方案。

此外，在推理過程中，模型也需要模仿這個思考過程，實現「搜索」、「改進」解決方案，因此，這個模型與其它大語言模型最大的區別是推理的過程可能是一個「思考」-「改進」的過程，可以通過改變搜索空間以及推理時間來獲得不一樣的推理效果。

OpenAI官方給的對比顯示，如果允許更長的推理時間，那麼模型的表現越好，這樣就暗示了模型本身可能存在一個「思考」-「改進」的過程！

贊助商廣告

訓練和推理時間的增加都能讓OpenAI o1模型的效果顯著提升

此外，OpenAI的「o1」是一個多模態的大模型，在圖片理解能力也有類似的提升！

OpenAI隱藏了o1模型背後的原始思維鏈推理過程

如前所述，OpenAI o1模型在訓練和推理過程都使用了思維鏈方式，在推理階段，OpenAI提出了「隱藏思維鏈」的概念（a hidden chain of thought），隱藏思維鏈被視為一種監控AI模型內部思考過程的有效工具，可用於理解模型的推理過程並檢測潛在問題。它提供了一種獨特的機會來」讀取」模型的」思維」，理解其思考過程。

但是，思維鏈監控有效性的前提條件是思維鏈必須忠實和可讀。且模型需要自由表達其未經改動的思想。因此，不能在思維鏈上訓練任何政策合規性或用戶偏好。

OpenAI經權衡多方面因素（用戶體驗、競爭優勢、監控選項），決定不向用戶展示原始思維鏈。但是，作為補償，對於o1模型系列，OpenAI會展示一個由模型生成的思維鏈摘要。

OpenAI o1目前已經可以使用

目前，ChatGPT Plus訂閱用戶已經可以使用該模型。不過，作為早期模型，尚未具備ChatGPT的許多實用功能，如網頁瀏覽、文件和圖像上傳等。短期內，GPT-4o在許多常見任務中可能更加有能力。