宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

2024年05月16日 首頁 » 熱門科技

台灣時間 5 月 14 日凌晨一點,OpenAI 在線上直播了 Spring Update(春季更新),特意選擇在谷歌年度 I/O 大會的前一天舉行,吊足了各路媒體和網友的胃口。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

那麼,GPT-4o 到底更新了什麼?OpenAI 是否保住了自己在大模型領域的絕對話語權?為什麼網友看完演示後紛紛感嘆「你大爺還是你大爺」?

我在一天的時間裡密集閱讀了各路媒體、博主、機構以及來自 OpenAI 官方的宣傳影片、解讀分析和實測體驗,本文就來一文講清堪稱「科技界小春晚」的這次 OpenAI Spring Update。

發布會前:放料預熱,闢謠捉內鬼

4 月 30 日:神秘模型登場

4 月 30 日,一個名為 gpt2-chatbot 的大模型悄然出現在大模型競技場 LMSYS 上。儘管基準測試分數未被公開,但根據網友的實測,其性能超越了目前市面上的所有大語言模型。通過提示詞引導和基於 token 分詞器的研究發現,gpt2-chatbot 很可能來自 OpenAI,且應該是 GPT-4 的改進版本。其在邏輯能力、代碼能力和數學能力上具備當今其他任何大模型無法比擬的優勢。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

網上廣泛流傳的對該神秘模型的分析指出:「很可能,這個神秘模型實際上是 GPT-4.5,作為一個『漸進式』模型更新的實例發布」。該模型的結構化回復似乎受到了修改後的 CoT(思維鏈)等技術的強烈影響。輸出的整體質量 —— 特別是其格式、結構和理解能力 —— 絕對是一流的。多位在 LLM 提示和聊天機器人方面經驗豐富的人士(在公開和私下場合)都注意到輸出質量出乎意料地好。

 

「對我來說,感覺就像是從 GPT-3.5 到 GPT-4 的飛躍,但這次是以 GPT-4 為起點。」

5 月初:LMSYS 的操作和 Sam Altman 的回應

隨著各路媒體紛紛報道,LMSYS 悄悄刪除了該模型,並更新了使用政策,明確商業公司可以以「匿名發布」的方式將新模型提供給 LMSYS 平台供公眾測試。LMSYS 會將反饋結果和部分樣本提供給模型提供方,且模型提供方有隨時撤回模型的權利。不久後,LMSYS 以 im-a-good-gpt2-chatbot 和 im-also-a-good-gpt2-chatbot 的模型名,重新上線了這一神秘模型的兩個微小區別的變種。

與此同時,OpenAI 首席執行官 Sam Altman 在哈佛大學演講中向所有人確認,gpt2-chatbot 不是 OpenAI 的「下一代大模型」(即傳聞的 GPT-5)。

5 月中旬:發布會前的輿論風波

時間來到 5 月,OpenAI 近期對其官網進行了更新,網友發現 OpenAI 的域名出現了五十餘個新的子域名,其中最受關注的是 search.chatgpt.com。媒體報道指出,OpenAI 一直在開發一款網路搜索產品,並分析稱這將加劇與 Google 的競爭。該搜索服務將部分由 Bing 提供支持。

據外電援引消息人士 Jimmy Apples 透露,OpenAI 可能很快就會推出一款新的搜尋引擎,並表示該公司計劃在本月舉辦一場活動,暫定於 2024 年 5 月 9 日上午 10 點。知情人士還透露,OpenAI 從 1 月初開始就在招聘活動團隊,負責組織內部活動。5 月 10 日,路透社報道稱,OpenAI 可能會安排在谷歌年度 I/O 大會前一天發布搜索產品。

5 月 11 日,OpenAI 宣布將於美國時間 5 月 13 日上午 10 點(台灣時間 5 月 14 日凌晨 1 點)在其官網上直播,展示最新的 ChatGPT 及 GPT-4 相關更新。

與此同時,OpenAI 首席執行官山姆・阿特曼駁斥了路透社的一篇報道,稱 OpenAI 將於下周一推出一款搜索產品。阿特曼在 X 上發帖稱,雖然 OpenAI 定於周一早上發布公告,但 「不是 GPT-5,不是搜尋引擎」,但無論它是什麼,他說它 「感覺就像魔術一樣」。OpenAI 官方帖子提供的唯一細節是,此次發布將更新 ChatGPT 及其最新模型 GPT-4。

隨後有網友爆料,所謂「搜索產品」是 OpenAI 投出的誘餌,目的是揪出內部泄密者。而經常給 Jimmy Apples 和 Flowers 泄密的爆料人,已經被 OpenAI 解僱。

而 Information 則報道稱,OpenAI 正在開發一個全能的 AI 語音助手,預計在下周展示。這項新技術可以通過聲音和文本與人交流,能夠識別不同人的語調、語氣,並能識別物體和圖像。

謎底揭曉

直到發布會後,我們才從 OpenAI 官方人員的推文中得知,im-also-a-good-gpt2-chatbot 已被正式確認為 GPT-4o。他們聲稱,「這不僅是世界上最好的模型,而且可以免費在 ChatGPT 中使用,這在前沿模型中是前所未有的。」 據稱,該模型部分是應用 Q-learning 和 A* 搜索(Q*)的產物。

此外,LMSYS 確認,所有 gpt2-chatbots 都來自 OpenAI,且在內部排行榜上名列前茅,具有非常相似的 Arena ELO、置信區間、編碼結果、勝率等。

GPT-4o:人人可用的頂級端到端多模態大模型

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

 

在發布會中,OpenAI 表示,希望把最強大的 AI 工具免費提供給所有人使用,未來每個人或將擁有像 GPT-7 這樣的 AI 算力。

這次發布會展現了 OpenAI 工科人的直率氣質,一開始就把整場發布會的要點放在了背後的 Slides 上,核心就是 「人人都能用上」 的 GPT-4o 模型。

GPT-4o 是 OpenAI 繼 GPT-4 後推出的全新基礎模型,o 代表 omni,即 「全能」,體現了模型在多模態等方面的全面升級。

GPT-4o 最大的亮點是支持多模態輸入輸出,能夠接受和生成文本、語音、圖像的任意組合,使人機交互更加自然流暢。語音響應速度大幅提升,可在 232 毫秒內給出回應,接近人類水平。

在性能方面,GPT-4o 在英語文本和編程方面與 GPT-4 turbo 相當,但在非英語文本、視覺、語音理解等方面有顯著提升。同時,推理速度更快,API 價格降低 50%。

基準測試:刷新記錄

在多個基準測試中,GPT-4o 刷新了之前模型的最好成績。根據 OpenAI 官方發布的數據,GPT-4o 在 MMLU(語言理解能力評測)上得分 88.7,為綜合模型最高分;在 MATH 數學推理上較此前最好模型(Claude3-Opus)提升 27.5%;在 HumanEval 編程評測中達 90.5 分,也是最高水平。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

GPT-4o 文字能力基準測試結果 圖 / OpenAI

中文能力:超越前代

5 月 14 日下午,國內致力於大模型中文推理能力的第三方測評機構 SuperCLUE 也公布了 GPT-4o 的中文能力評測結果:

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

GPT-4o 中文推理能力排名 圖 / SuperCLUE

 

  • 在完成 SuperCLUE 推理任務時,GPT-4o 的整體得分為 81.73,超過 GPT-4 Turbo 成為中文推理任務最強模型。

     

  • GPT-4o 在 SC-Math6 數學基準上得分 91.77 分,較 GPT-4 Turbo 提升 1.06 分,登頂 SC-Math6 榜首,判定為推理等級 5。

     

  • GPT-4o 在 SC-Code3 代碼基準上得分 71.68 分,較 GPT-4 Turbo 提升 2.11 分,刷新 SC-Code3 最好成績。

     

多模態能力:語音助手的「下一個十年」

在發布會上,GPT-4o 的多模態能力成為展示的重點。演示中,語音助手和影片通話功能尤為令人驚嘆:屬於語音助手的「下一個十年」,似乎真的要來了。

根據 OpenAI 對 GPT-4o 模型的官方介紹,GPT-4o 是一個端到端的真正多模態大模型,能夠接受文字、視覺(圖片 / 影片)以及聽覺(音頻)三種類型的輸入,並可輸出這三者的任意組合。也就是說,原先需要 Whisper(OpenAI 發布的語音轉文字模型)、GPT、TTS 三個模型逐一工作才能實現的語音助手功能,現在不僅可以由一個模型解決,甚至還支持了影片的輸入。

端到端的多模態模型並不是新鮮事。曾經 Google 推出的 Gemini 模型就為我們提供了端到端多模態的例子。

不知道大家還記不記得,Gemini 發布時的演示影片,可以根據影片的輸入做出分析和回應,這在當時令不少網友感到振奮。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

Gemini 的多模態能力演示影片,後被證實有剪輯

然而,Gemini 最終未能掀起太大的波瀾,其演示影片也因破綻百出而被質疑。官方不得不承認影片中有加速和拼接的成分,甚至還需要人類提示詞輔助,Gemini 才能根據影片輸入做出符合要求的判斷。

OpenAI 顯然吸取了前人的教訓。在發布 GPT-4o 的頁面上,特地標註了「All videos on this page are at 1x real time.」,這也顯示了 OpenAI 對其模型能力的信心。

儘管我們目前還不能馬上體驗到 GPT-4o 的語音和影片對話功能,但從現場官方的演示來看,GPT-4o 的多模態效果已經足夠驚艷。

首先是情感表達。GPT-4o 由於是端到端的多模態大模型,省去了語音文字互轉的步驟,相比傳統的文字生成模型,可以直接捕捉到音影片中難以用文字表達的資訊,比如人的表情、語氣、環境音、以及說話人的身份。

從前的 ChatGPT 語音對話,軟體會使用 Whisper 模型在用戶停頓時,將音頻發送給模型進行識別,而 Whisper 的能力則僅僅是將音頻轉化為類似字幕的形式。即使調用 Whisper 的所有能力,也僅能區分大致的說話人,並識別歌聲、掌聲等音效。

在輸出方面,從前的傳統 TTS 模型輸出的語音都是固定的,模型(或者說程序)本身並不具備理解文字內容的能力,分析情感更是無從談起。直到 SSML(語音合成標記語言)的出現,人們(或者大模型)可以通過在輸入的文本中添加對語氣和斷句的標記,指導語音合成程序生成包含不同「情感」的聲音。但這本質上也是預編程的結果,在沒有標記提示的情況下,沒有 TTS 模型可以理解自己朗讀內容的情感。這也解釋了去年 OpenAI 的 TTS 模型發布時,因其對人類語氣、卡殼等細微動作的模仿,而一度被網友盛讚。

而 GPT-4o 的情感能力,則是在輸入和輸出兩端都能完美展現。除了捕捉音影片中難以用文字表達的資訊,GPT-4o 輸出的語音也不再僅僅是冰冷的文本和固定情感語調的組合,而是真正地將每一個字節的輸出都交由大模型本身。比如,在語音對話時,GPT-4o 實際上是在進行音頻到音頻的輸出,中間不需要轉換到文字的思考過程,因此大模型具備了能聽能說的情感能力。

更令人驚嘆的是,GPT-4o 是一個支持三種輸入類型的多模態模型。在發布會上,我們看到,當 GPT-4o「看到」人類在紙上寫著的「I ❤️ ChatGPT」的文字後,居然會作出感動的回應。這裡涉及到的是音頻和影片到音頻的多模態情感能力。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

也難怪有人說,《流浪地球》里的 MOSS 和科幻電影《Her》里的語音助手,都被 GPT-4o 帶到了現實。

分詞器更新:更懂多語言,更省 Token

GPT-4o 的推出還伴隨著分詞器的更新,這一更新顯著提升了多語言處理能力,同時大幅減少了 Token 的使用量。

根據 OpenAI 的數據,新的分詞器在多種語言上的表現都非常出色。例如,Gujarati 語言的 Token 數量減少了 4.4 倍,從 145 個減少到 33 個;Telugu 語言減少了 3.5 倍,從 159 個減少到 45 個;甚至對於相對複雜的中文,Token 數量也減少了 40%,從 34 個減少到 24 個。

從當前網友的分析來看,新的分詞器名為「o200k_base」,包含了更多的詞彙,從而顯著壓縮不同語言的 Token 數量。

分詞器的更新也是 GPT-4o 生成速度更快的原因。哪怕在算力和模型規模不變的情況下,通過減少 Token 數量(如一個 Token 包括更多字符,比如中文的成語、俗語等),擁護也能感知到明顯的生成速度提示。更何況在當前調用 API 的體驗來看,GPT-4o 模型每秒生成的 Tokens 數量也有顯著提升。

OCR 能力更新:能看懂中文,更能看懂題

在 GPT-4o 的更新中,OCR(光學字符識別)能力也得到了顯著提升。新模型不僅能夠更準確地識別和理解中文文本,還在理解複雜的圖表和題目上表現得更加出色。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

我分別使用中英板書、中文海報等常見 OCR 識別場景進行了測試,實測發現,GPT-4o 對多語言(包括中文、日語)的 OCR 能力有了顯著進步,目前已經基本達到可用水準。

可以期待一下,當影片通話功能推送以後,中文用戶應該也可以體驗到 GPT-4o 的絕大多數能力。

更令人振奮的是,GPT-4o 由於數學和編程基礎推理能力的顯著提升,現在對於公式 OCR 後解題的成功率也大幅提升。加上影片對話功能,20 美元一月就能請到頂級家教,豈不美哉。

ChatGPT 產品更新:第一手體驗

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

GPT-4o 推送彈窗

5 月 14 日凌晨一點,OpenAI Spring Update 線上發布會如期舉行。早上八點,我發現,免費版的 ChatGPT 已經收到了最新的 GPT-4o 推送。

在左上角的模型切換頁面,原先的「GPT-3.5」和「GPT-4」選項被「ChatGPT」和「ChatGPT Plus」取代。也就是說,收到 GPT-4o 推送的免費版用戶,新建對話時已經默認使用 GPT-4o 模型了。當免費的 GPT-4o 配額用盡時,會自動切換至 GPT-3.5 模型,此後無法進行對文檔和圖片的對話,也無法使用 GPTs、聯網和數據分析等功能。

到了中午,我的 Plus 賬號和 Team 賬號也陸續收到了 GPT-4o 模型的推送。在 Plus 和 Team 的界面中,OpenAI 保留了 GPT-4 模型,提供「GPT-4o」「GPT-4」和「GPT-3.5」三種模型供付費用戶自由選擇。

不久後,我也收到了發布會上提及的 ChatGPT 網頁版新 UI Juice 的推送。

 

OpenAI發布GPT-4o:免費版GPT-4如何帶你「走進」科幻電影

 

ChatGPT 網頁版新 UI Juice

初步觀察,新 UI 整體更加圓潤、簡潔。在每一條回復的下方新增了切換模型的選項,用戶可以自由選擇不同模型重新生成該對話。同時,用戶提問以對話氣泡展示,突出了對話感。

至於官方發布會中提及的 macOS 客戶端和其他新功能,截至發稿時仍在白名單灰度階段。讓我們期待正式上線的樣子吧。

我經過實測發現,目前網頁版的 ChatGPT 還不具備 GPT-4o 模型的所有多模態能力,包括對音影片的讀取、生成以及對文檔中圖片的讀取。

此外,我通過對不同等級賬號的模型請求抓包發現,對於免費賬戶,GPT-4o 模型的 Tokens 上下文窗口仍然和 GPT-3.5 相同,為 8192(8k),而 Plus 會員和 Team 團隊版則均為 32768(32k),這與此前的 GPT-4(All Tools)模型的上下文限制相同。

受限於網頁版的請求上下文限制,可以預見,免費版用戶所體驗到的 GPT-4o 模型將會有 「降智」 表現。而哪怕是付費會員,在網頁版的 ChatGPT 中進行對話時仍然採用滑動上下文窗口,而非 128k 的模型理論最大上下文窗口。在閱讀大型文檔時,模型仍然只能獲取開頭部分內容,後續內容需要模型使用內置工具進行文中搜索獲取,閱讀長文的體驗很有可能與當前不會有較明顯差異,甚至可能不如以長上下文窗口著稱的 Claude 和國內的 Kimi。

大戲到來前的半代升級

從 4 月底神秘模型 gpt2-chatbot 的曝光,到 5 月中旬 GPT-4o 的正式發布,OpenAI 的這次春季更新無疑再次激起了人們對大模型,或者說對 OpenAI 本身的討論激情。

然而,根據市場普遍預測,OpenAI 今年的 「大招」 遠不止於此。其 「下一代」 模型 GPT-5 已經基本完成訓練,不久前開始進入紅隊安全測試階段,預計最快會在今年年中正式發布。

阿里的通義千問,從 1.5 追趕到 2.5,才終於做到國內第一,全球第三的成績;百度的文心一言,從 3.5 追到 4.0,現在看來也稍顯掉隊。而 Sam Altman 卻會對外宣稱,當前已經穩坐世界大模型頭把交椅的 GPT-4o 還不是 OpenAI 的 「下一代大模型」,可見 OpenAI 的野心和實力之大。要想追上,談何容易。

我猜測,本次 OpenAI Spring Update 屬於「大戲到來前的半代升級」,是奪回輿論焦點和行業話語權的例行升級。至於人們正在期待的下一代大模型「GPT-5」,就讓我們拭目以待吧。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新