宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

2024年09月19日 首頁 » 熱門科技

OpenAI發布了一個全新的針對邏輯推理優化的大語言模型o1模型。官方宣稱其推理能力相比較當前的大語言模型(GPT-4o)有了大幅提升。OpenAI宣稱o1模型在編程競賽問題(Codeforces)中排名第89百分位,在美國數學奧林匹克(AIME)的資格賽中位列美國前500名,並且在物理、 生物和化學問題的基準測試(GPQA)上超越了人類博士水平的準確率。

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

 

  • OpenAI o1模型簡介

  • OpenAI o1模型的評測結果

  • OpenAI o1背後的技術解析

  • OpenAI隱藏了o1模型背後的原始思維鏈推理過程

  • OpenAI o1目前已經可以使用

OpenAI o1模型簡介

o1模型是OpenAI訓練的一個全新的在推理能力有大幅提升的模型。該模型通過「思維鏈」(chain of thought)模式訓練模型,以實現高效的數據訓練過程。

OpenAI的「o1」模型在數學推理方面有了大幅提升,各種數學、編程方面的評測都大幅超過當前已有的模型。以國際奧林匹克數學競賽(International Mathematics Olympiad,IMO)為例,GPT-4o當前只能解決其中13%的問題,但是OpenAI o1可以解決83%的問題!提升十分明顯!

但,當前o1模型本身最大的缺點是推理時間很長。下圖展示了OpenAI o1模型技術與當前技術最大的區別。

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

 

在複雜推理任務方面,這是一個重大進步,代表了AI能力的新水平。基於這一突破,OpenAI將這個系列重新命名為OpenAI o1,並將計數器重置為1。

OpenAI o1模型的評測結果

OpenAI 「o1」在多個高難度智力測試中有卓越表現。OpenAI認為傳統的GSM8K、MATH等大模型評測已經失去了區分模型邏輯推理的能力,因此,他們在更加真實的評測中測試了「o1」的水平。

首先,在美國數學邀請賽(American Invitational Mathematics Examination,AIME,美國面向中學生的邀請式競賽,3個小時15道題)上,o1達到了接近滿分的成績,遠超其他AI模型。當前,GPT-4o平均只能解決12%的問題,而OpenAI o1的表現:

  • 單次採樣:74%正確率

  • 64次採樣共識:83%正確率

  • 1000次採樣後重新排序:93%正確率

OpenAI o1的得分相當於全國前500名學生的水平,從這個內容看,OpenAI o1的採樣過程也是可以通過改變採樣次數來提升推理過程的模型!

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

 

在測試化學、物理和生物專業知識的GPQA diamond基準上,o1首次超越了人類專家。

此外,o1在視覺理解測試MMMU上接近人類專家水平(得分78.2%),並在MMLU的大多數子類別中(在57個子類別中的54個中超過了GPT-4o)超過了GPT-4。

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

 

上圖橙色部分是OpenAI o1模型相比GPT-4o模型提升的部分,還是非常明顯的!

這些結果展示了o1在特定問題解決能力上的突破,儘管並不意味著它在所有方面都超越人類專家。總體而言,o1的表現標誌著AI在推理和專業知識應用方面的重大進展。

OpenAI o1背後的技術解析

根據OpenAI官方的描述,o1模型的訓練使用了一種新的AI訓練方法,強調了思維鏈和強化學習的重要性,以及計算資源對性能的影響

該模型訓練過程使用了一種大規模強化學習算法,用以教模型如何從數據中學會用思維鏈思考。其核心是可以從較少的高質量數據中學習「思維鏈」的推理方法,它不僅讓模型完成任務,還教模型如何改進思考過程。通過訓練,模型學會了改進思維過程、嘗試不同策略和識別錯誤

學習過程的關鍵點:

  • 識別和糾正錯誤:模型學會了發現自己的錯誤並進行修正。

  • 問題分解:學會將複雜步驟分解成更簡單的部分。

  • 靈活嘗試:噹噹前方法無效時,學會嘗試不同的解決方案。

此外,在推理過程中,模型也需要模仿這個思考過程,實現「搜索」、「改進」解決方案,因此,這個模型與其它大語言模型最大的區別是推理的過程可能是一個「思考」-「改進」的過程,可以通過改變搜索空間以及推理時間來獲得不一樣的推理效果。

OpenAI官方給的對比顯示,如果允許更長的推理時間,那麼模型的表現越好,這樣就暗示了模型本身可能存在一個「思考」-「改進」的過程!

重磅!OpenAI發布最強推理模型「OpenAI o1」(代號草莓)

 

訓練和推理時間的增加都能讓OpenAI o1模型的效果顯著提升

 

此外,OpenAI的「o1」是一個多模態的大模型,在圖片理解能力也有類似的提升!

OpenAI隱藏了o1模型背後的原始思維鏈推理過程

如前所述,OpenAI o1模型在訓練和推理過程都使用了思維鏈方式,在推理階段,OpenAI提出了「隱藏思維鏈」的概念(a hidden chain of thought),隱藏思維鏈被視為一種監控AI模型內部思考過程的有效工具,可用於理解模型的推理過程並檢測潛在問題。它提供了一種獨特的機會來」讀取」模型的」思維」,理解其思考過程。

但是,思維鏈監控有效性的前提條件是思維鏈必須忠實和可讀。且模型需要自由表達其未經改動的思想。因此,不能在思維鏈上訓練任何政策合規性或用戶偏好。

OpenAI經權衡多方面因素(用戶體驗、競爭優勢、監控選項),決定不向用戶展示原始思維鏈。但是,作為補償,對於o1模型系列,OpenAI會展示一個由模型生成的思維鏈摘要。

OpenAI o1目前已經可以使用

目前,ChatGPT Plus訂閱用戶已經可以使用該模型。不過,作為早期模型,尚未具備ChatGPT的許多實用功能,如網頁瀏覽、文件和圖像上傳等。短期內,GPT-4o在許多常見任務中可能更加有能力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新