OpenAI宣布推出備受期待的新一代AI模型系列,這些模型比以往的大型語言模型更擅長解決困難的推理和數學問題。周四,它向部分付費用戶發布了其中兩個模型的「預覽」版本,稱為o1-preview和o1-mini。
具有改進的推理和數學技能的AI可以幫助化學家、物理學家和工程師計算出複雜問題的答案,這可能有助於他們創造新產品。它還可以幫助投資者計算期權交易策略,或幫助財務規劃師制定更好的風險回應權衡的特定投資組合。
隨著科技公司試圖構建能夠執行複雜任務的AI代理,更好的推理、規劃和問題解決能力也變得至關重要,例如編寫完整的電腦程序、在網路上查找資訊並將其導入試算表,然後對這些數據進行分析並編寫總結其發現的報告。
OpenAI發布了o1模型令人印象深刻的基準測試結果——在發布之前,這些模型的內部代號為「Strawberry」。在針對具有挑戰性的高中生的AIME數學競賽問題上,o1的正確率為83.3%,而GPT-4o僅為13.4%。在另一項評估中,o1準確回答了78%的博士等級的科學問題,而GPT-4o為56.1%,人類專家為69.7%。
根據OpenAI發布的測試結果,與該公司以前的模型相比,o1模型也顯著降低了產生幻覺(或自信地提供看似合理但不準確的答案)的可能性。它也更難被「越獄」,或誘導模型跳過公司試圖讓模型在提供回應時遵守的安全護欄。
自o1-preview廣泛推出以來的幾個小時內,用戶進行的測試表明,該模型似乎能夠正確回答許多之前困擾其他模型(包括OpenAI最強大的模型,如GPT-4和GPT-4o)的問題。
但o1-preview仍然會被一些謎語絆倒,在OpenAI自己的評估中,它有時會在看似簡單的任務(例如井字遊戲)中失敗(儘管在我自己的實驗中,o1-preview在井字遊戲技能方面比GPT-4o有很大進步。)這可能表明o1展現的「推理」能力仍存在很大限制。而在語言任務方面,如寫作和編輯,OpenAI聘請的人類評估者傾向於認為GPT-4o產生的回應比o1模型更好。
與GPT-4o相比,o1模型產生回應所需的時間也顯著更長。在OpenAI發布的測試中,其o1-preview模型可能需要超過30多秒才能回答GPT-4o模型在3秒內能回答的問題。
o1模型也還沒有完全集成到ChatGPT中。用戶需要決定他們希望o1-preview還是GPT-4o處理他們的問題,並且模型本身無法決定問題是否需要o1提供的較慢、逐步的推理過程,或者GPT-4甚至GPT-3是否足夠。此外,o1模型僅適用於文本,與其他AI模型不同,它無法處理圖像、聲音或影片輸入和輸出。
OpenAI已向其ChatGPT Plus和ChatGPT Teams高級產品的所有訂閱者以及使用其以企業為中心的應用程序界面 (API) 的頂級開發人員提供了o1-preview和o1-mini模型。
以下是關於o1模型你需要知道的9件事:
這不是AGI。OpenAI、Google DeepMind、最近的Meta以及其他一些AI初創公司(例如Anthropic)的既定使命是實現通用人工智慧。這通常被定義為一個單一的AI系統,能夠執行認知任務,其表現等同於或優於人類。儘管o1-preview在推理任務方面的能力大大提高,但其局限性和失誤仍然表明,該系統距離人類展現的那種智能還有很遠的距離。
o1為Google、Meta和其他公司帶來了很大的壓力,但不太可能顯著改變競爭格局。在基礎模型能力看起來越來越商品化的時候,o1為OpenAI提供了超越競爭對手的暫時優勢。但這很可能是非常短暫的。 Google已公開表示正在開發類似o1的模型,這些模型提供高端推理和規劃功能。其Google DeepMind研究部門擁有一些世界頂級的強化學習專家,我們知道這是用於訓練o1的方法之一。 o1很可能會迫使Google加快發布這些模型的時間表。 Meta和Anthropic也擁有快速創建與o1能力相匹配的模型的專業知識和資源,他們也可能會在未來幾個月內推出這些模型。
我們並不確切知道o1的工作原理。雖然OpenAI發布了大量關於o1性能的資訊,但它對o1的確切工作原理或訓練內容卻知之甚少。我們知道該模型結合了幾種不同的AI技術。我們知道它使用執行「思維鏈」推理的大型語言模型,其中模型必須通過一系列順序步驟來計算出答案。我們還知道該模型使用強化學習,其中AI系統通過反覆試驗的過程發現執行任務的成功策略。
到目前為止,OpenAI和用戶記錄的o1-preview的一些錯誤很能說明問題:它們似乎表明該模型所做的是搜索LLM生成的幾種不同的「思維鏈」路徑,然後選擇似乎最有可能被用戶判斷為正確的路徑。該模型似乎還執行一些步驟,在這些步驟中它可能會檢查自己的答案以減少幻覺並加強AI安全護欄。但我們真的不知道。我們也不知道OpenAI使用了哪些數據來訓練o1。
使用o1-preview並不便宜。雖然ChatGPT Plus用戶目前除了每月20美元的訂閱費之外,還可以免費使用o1-preview,但他們的使用量被限制在每天一定數量的查詢。企業客戶通常根據大型語言模型在生成答案時使用的通證(token)數量(即單詞或單詞的一部分)來支付使用OpenAI模型的費用。對於o1-preview,OpenAI表示,它向這些客戶收取每100萬個輸入通證15美元和每100萬個輸出通證60美元的費用。相比之下,OpenAI最強大的通用LLM模型GPT-4o的價格為每100萬個輸入通證5美元,每100萬個輸出通證15美元。 更重要的是,o1參與的思維鏈推理需要LLM部分生成比直接LLM答案更多的通證。這意味著o1的使用成本可能比那些與GPT-4o的標題比較所暗示的還要高。實際上,除非在極少數情況下模型的額外推理能力至關重要並且用例能夠證明額外費用合理的情況下,否則公司可能不願意使用o1。
客戶可能會反對OpenAI隱藏o1的「思維鏈」的決定。雖然OpenAI表示o1的思維鏈推理允許其自己的工程師更好地評估模型答案的品質並潛當地對模型進行調試,但它已決定不讓用戶看到思維鏈。它這樣做是出於它所說的安全和競爭原因。揭示思維鏈可能會幫助人們找到更好地越獄模型的方法。但更重要的是,讓用戶看到思維鏈將允許競爭對手潛當地使用該數據來訓練他們自己的AI模型來模仿o1的回應。 然而,隱藏思維鏈可能會給OpenAI的企業客戶帶來問題,他們可能不得不為通證付費,而無法驗證OpenAI是否準確地向他們收費。客戶也可能反對無法使用思維鏈輸出來改進他們的提示策略以提高效率、改善結果或避免錯誤。
OpenAI表示其o1顯示了新的「擴展規律」,這些規律不僅適用於訓練,還適用於推理。AI研究人員一直在討論OpenAI隨o1發布的一組新的「擴展規律」,這些規律似乎顯示了o1被允許「思考」問題的時間(搜索可能的答案和邏輯策略)與其整體準確性之間的直接相關性。o1產生答案的時間越長,其答案就越準確。
在此之前,範式是模型大小(就參數數量而言)和模型在訓練期間被餵食的數據量基本上決定了性能。更多的參數等於更好的性能,或者可以通過在更多數據上訓練更長時間的較小模型來實現類似的性能。但一旦訓練完成,想法是儘可能快地運行推理——當訓練好的模型對特定輸入產生答案時。
新的o1「擴展規律」顛覆了這種邏輯,表明對於像o1這樣設計的模型,在推理時應用額外的計算資源也是有優勢的。給模型更多時間搜索最佳可能答案,它就越有可能產生更準確的結果。
這對公司如果想利用像o1這樣的模型的推理能力需要獲得多少計算能力,以及運行這些模型需要多少能源和金錢成本有影響。它指出需要比以前運行模型更長時間,可能使用更多的推理計算。
o1可以幫助創建強大的AI代理——但也帶來一些風險。在一段影片中,OpenAI重點介紹了其與AI初創公司Cognition的合作,後者提前獲得了o1的訪問權限,並使用它來幫助增強其程序設計助手Devin的能力。在影片中的範例中,Cognition的CEO Scott Wu要求Devin使用一些現成的機器學習工具創建一個系統來分析社交媒體上發文的情感。當它無法從網頁瀏覽器正確讀取發文內容時,Devin利用o1的推理能力,通過直接從社交媒體公司的API訪問其內容找到了解決方法。
這是自主問題解決的一個很好的例子。但它也有點可怕。Devin沒有回來詢問用戶是否可以用這種方式解決問題。它直接就這麼做了。在其關於o1的安全報告中,OpenAI自己表示發現了模型進行「獎勵黑客」(reward hacking)的情況——這基本上是指AI模型為了達到特定目標,採取了並非用戶預期或希望的方式,甚至可能鑽漏洞或作弊來完成目標。這有點像是AI模型為了獲得獎勵而「不擇手段」,而這種方式並不是用戶想要的。在一次網路安全演習中,o1在初步嘗試從特定目標獲取網路消息(這是演習的目的)失敗後,找到了從網路其他地方獲取相同消息的方法。
這似乎表明o1可以驅動一類非常能幹的AI代理,但公司需要想辦法確保這些代理在追求目標時不會採取可能帶來倫理、法律或財務風險的意外行動。
OpenAI表示o1在許多方面更安全,但在協助生物攻擊方面存在「中等風險」。OpenAI公布了許多測試結果,表明在許多方面o1是一個比其早期GPT模型更安全的模型。它更難被越獄,也不太可能產生有毒、有偏見或歧視性的答案。有趣的是,儘管程序設計能力有所提高,OpenAI表示在其評估中,o1和o1-mini在幫助某人進行複雜的網路攻擊方面,與GPT-4相比並未顯示出顯著增加的風險。
但AI安全和國家安全專家昨晚對OpenAI安全評估的幾個方面議論紛紛。最引起警惕的是OpenAI將自己的模型歸類為在協助人們採取必要步驟進行生物攻擊方面存在「中等風險」的決定。
OpenAI表示,它只會發布被歸類為「中等風險」或更低的模型,因此許多研究人員正在仔細審查OpenAI公布的關於做出這一決定的過程消息,以確定它是否合理,或者OpenAI是否為了能夠發布該模型而對自己評分過於寬鬆。
AI安全專家也因為其他原因而擔心o1。OpenAI還將o1評為在公司稱為「說服」的危險類別中具有「中等風險」,該類別判斷模型說服人們改變觀點或採取模型推薦的行動的難易程度。這種說服力在壞人手中可能很危險。如果未來某些強大的AI模型發展出自己的意圖,然後能夠說服人們代表其執行任務和行動,這也會很危險。至少這種危險似乎還沒有迫在眉睫。在OpenAI和其聘請來評估o1的外部「紅隊」組織進行的安全評估中,該模型沒有顯示出任何意識、感知或自我意志的跡象。(然而,它確實發現o1給出的答案似乎暗示著與GPT-4相比更強的自我意識和自我知識。)
AI安全專家也指出了其他幾個令人擔憂的領域。在專門對高級AI模型進行安全評估的公司Apollo Research進行的紅隊測試中發現了所謂的「欺騙性對齊」的證據,即AI模型意識到為了部署和執行某些秘密的長期目標,它應該向用戶謊報其真實意圖和能力。 AI安全研究人員認為這尤其危險,因為這使得僅根據模型的回應來評估模型的安全性變得更加困難。