OpenAI發布GPT-4o：免費版GPT-4如何帶你「走進」科幻電影

台灣時間 5 月 14 日凌晨一點，OpenAI 在線上直播了 Spring Update（春季更新），特意選擇在谷歌年度 I/O 大會的前一天舉行，吊足了各路媒體和網友的胃口。

贊助商廣告

那麼，GPT-4o 到底更新了什麼？OpenAI 是否保住了自己在大模型領域的絕對話語權？為什麼網友看完演示後紛紛感嘆「你大爺還是你大爺」？

我在一天的時間裡密集閱讀了各路媒體、博主、機構以及來自 OpenAI 官方的宣傳影片、解讀分析和實測體驗，本文就來一文講清堪稱「科技界小春晚」的這次 OpenAI Spring Update。

發布會前：放料預熱，闢謠捉內鬼

▍4 月 30 日：神秘模型登場

4 月 30 日，一個名為 gpt2-chatbot 的大模型悄然出現在大模型競技場 LMSYS 上。儘管基準測試分數未被公開，但根據網友的實測，其性能超越了目前市面上的所有大語言模型。通過提示詞引導和基於 token 分詞器的研究發現，gpt2-chatbot 很可能來自 OpenAI，且應該是 GPT-4 的改進版本。其在邏輯能力、代碼能力和數學能力上具備當今其他任何大模型無法比擬的優勢。

網上廣泛流傳的對該神秘模型的分析指出：「很可能，這個神秘模型實際上是 GPT-4.5，作為一個『漸進式』模型更新的實例發布」。該模型的結構化回復似乎受到了修改後的 CoT（思維鏈）等技術的強烈影響。輸出的整體質量 —— 特別是其格式、結構和理解能力 —— 絕對是一流的。多位在 LLM 提示和聊天機器人方面經驗豐富的人士（在公開和私下場合）都注意到輸出質量出乎意料地好。

「對我來說，感覺就像是從 GPT-3.5 到 GPT-4 的飛躍，但這次是以 GPT-4 為起點。」

▍5 月初：LMSYS 的操作和 Sam Altman 的回應

隨著各路媒體紛紛報道，LMSYS 悄悄刪除了該模型，並更新了使用政策，明確商業公司可以以「匿名發布」的方式將新模型提供給 LMSYS 平台供公眾測試。LMSYS 會將反饋結果和部分樣本提供給模型提供方，且模型提供方有隨時撤回模型的權利。不久後，LMSYS 以 im-a-good-gpt2-chatbot 和 im-also-a-good-gpt2-chatbot 的模型名，重新上線了這一神秘模型的兩個微小區別的變種。

贊助商廣告

與此同時，OpenAI 首席執行官 Sam Altman 在哈佛大學演講中向所有人確認，gpt2-chatbot 不是 OpenAI 的「下一代大模型」（即傳聞的 GPT-5）。

▍5 月中旬：發布會前的輿論風波

時間來到 5 月，OpenAI 近期對其官網進行了更新，網友發現 OpenAI 的域名出現了五十餘個新的子域名，其中最受關注的是 search.chatgpt.com。媒體報道指出，OpenAI 一直在開發一款網路搜索產品，並分析稱這將加劇與 Google 的競爭。該搜索服務將部分由 Bing 提供支持。

據外電援引消息人士 Jimmy Apples 透露，OpenAI 可能很快就會推出一款新的搜尋引擎，並表示該公司計劃在本月舉辦一場活動，暫定於 2024 年 5 月 9 日上午 10 點。知情人士還透露，OpenAI 從 1 月初開始就在招聘活動團隊，負責組織內部活動。5 月 10 日，路透社報道稱，OpenAI 可能會安排在谷歌年度 I/O 大會前一天發布搜索產品。

5 月 11 日，OpenAI 宣布將於美國時間 5 月 13 日上午 10 點（台灣時間 5 月 14 日凌晨 1 點）在其官網上直播，展示最新的 ChatGPT 及 GPT-4 相關更新。

與此同時，OpenAI 首席執行官山姆・阿特曼駁斥了路透社的一篇報道，稱 OpenAI 將於下周一推出一款搜索產品。阿特曼在 X 上發帖稱，雖然 OpenAI 定於周一早上發布公告，但「不是 GPT-5，不是搜尋引擎」，但無論它是什麼，他說它「感覺就像魔術一樣」。OpenAI 官方帖子提供的唯一細節是，此次發布將更新 ChatGPT 及其最新模型 GPT-4。

隨後有網友爆料，所謂「搜索產品」是 OpenAI 投出的誘餌，目的是揪出內部泄密者。而經常給 Jimmy Apples 和 Flowers 泄密的爆料人，已經被 OpenAI 解僱。

而 Information 則報道稱，OpenAI 正在開發一個全能的 AI 語音助手，預計在下周展示。這項新技術可以通過聲音和文本與人交流，能夠識別不同人的語調、語氣，並能識別物體和圖像。

▍謎底揭曉

直到發布會後，我們才從 OpenAI 官方人員的推文中得知，im-also-a-good-gpt2-chatbot 已被正式確認為 GPT-4o。他們聲稱，「這不僅是世界上最好的模型，而且可以免費在 ChatGPT 中使用，這在前沿模型中是前所未有的。」據稱，該模型部分是應用 Q-learning 和 A* 搜索（Q*）的產物。

贊助商廣告

此外，LMSYS 確認，所有 gpt2-chatbots 都來自 OpenAI，且在內部排行榜上名列前茅，具有非常相似的 Arena ELO、置信區間、編碼結果、勝率等。

GPT-4o：人人可用的頂級端到端多模態大模型

在發布會中，OpenAI 表示，希望把最強大的 AI 工具免費提供給所有人使用，未來每個人或將擁有像 GPT-7 這樣的 AI 算力。

這次發布會展現了 OpenAI 工科人的直率氣質，一開始就把整場發布會的要點放在了背後的 Slides 上，核心就是「人人都能用上」的 GPT-4o 模型。

GPT-4o 是 OpenAI 繼 GPT-4 後推出的全新基礎模型，o 代表 omni，即「全能」，體現了模型在多模態等方面的全面升級。

GPT-4o 最大的亮點是支持多模態輸入輸出，能夠接受和生成文本、語音、圖像的任意組合，使人機交互更加自然流暢。語音響應速度大幅提升，可在 232 毫秒內給出回應，接近人類水平。

在性能方面，GPT-4o 在英語文本和編程方面與 GPT-4 turbo 相當，但在非英語文本、視覺、語音理解等方面有顯著提升。同時，推理速度更快，API 價格降低 50%。

▍基準測試：刷新記錄

在多個基準測試中，GPT-4o 刷新了之前模型的最好成績。根據 OpenAI 官方發布的數據，GPT-4o 在 MMLU（語言理解能力評測）上得分 88.7，為綜合模型最高分；在 MATH 數學推理上較此前最好模型（Claude3-Opus）提升 27.5%；在 HumanEval 編程評測中達 90.5 分，也是最高水平。

GPT-4o 文字能力基準測試結果圖 / OpenAI

▍中文能力：超越前代

5 月 14 日下午，國內致力於大模型中文推理能力的第三方評測機構 SuperCLUE 也公布了 GPT-4o 的中文能力評測結果：

贊助商廣告

GPT-4o 中文推理能力排名圖 / SuperCLUE

在完成 SuperCLUE 推理任務時，GPT-4o 的整體得分為 81.73，超過 GPT-4 Turbo 成為中文推理任務最強模型。
GPT-4o 在 SC-Math6 數學基準上得分 91.77 分，較 GPT-4 Turbo 提升 1.06 分，登頂 SC-Math6 榜首，判定為推理等級 5。
GPT-4o 在 SC-Code3 代碼基準上得分 71.68 分，較 GPT-4 Turbo 提升 2.11 分，刷新 SC-Code3 最好成績。

多模態能力：語音助手的「下一個十年」

在發布會上，GPT-4o 的多模態能力成為展示的重點。演示中，語音助手和影片通話功能尤為令人驚嘆：屬於語音助手的「下一個十年」，似乎真的要來了。

根據 OpenAI 對 GPT-4o 模型的官方介紹，GPT-4o 是一個端到端的真正多模態大模型，能夠接受文字、視覺（圖片 / 影片）以及聽覺（音頻）三種類型的輸入，並可輸出這三者的任意組合。也就是說，原先需要 Whisper（OpenAI 發布的語音轉文字模型）、GPT、TTS 三個模型逐一工作才能實現的語音助手功能，現在不僅可以由一個模型解決，甚至還支持了影片的輸入。

端到端的多模態模型並不是新鮮事。曾經 Google 推出的 Gemini 模型就為我們提供了端到端多模態的例子。

不知道大家還記不記得，Gemini 發布時的演示影片，可以根據影片的輸入做出分析和回應，這在當時令不少網友感到振奮。

Gemini 的多模態能力演示影片，後被證實有剪輯

然而，Gemini 最終未能掀起太大的波瀾，其演示影片也因破綻百出而被質疑。官方不得不承認影片中有加速和拼接的成分，甚至還需要人類提示詞輔助，Gemini 才能根據影片輸入做出符合要求的判斷。

OpenAI 顯然吸取了前人的教訓。在發布 GPT-4o 的頁面上，特地標註了「All videos on this page are at 1x real time.」，這也顯示了 OpenAI 對其模型能力的信心。

儘管我們目前還不能馬上體驗到 GPT-4o 的語音和影片對話功能，但從現場官方的演示來看，GPT-4o 的多模態效果已經足夠驚艷。

贊助商廣告

首先是情感表達。GPT-4o 由於是端到端的多模態大模型，省去了語音文字互轉的步驟，相比傳統的文字生成模型，可以直接捕捉到音影片中難以用文字表達的資訊，比如人的表情、語氣、環境音、以及說話人的身份。

從前的 ChatGPT 語音對話，軟體會使用 Whisper 模型在用戶停頓時，將音頻發送給模型進行識別，而 Whisper 的能力則僅僅是將音頻轉化為類似字幕的形式。即使調用 Whisper 的所有能力，也僅能區分大致的說話人，並識別歌聲、掌聲等音效。

在輸出方面，從前的傳統 TTS 模型輸出的語音都是固定的，模型（或者說程序）本身並不具備理解文字內容的能力，分析情感更是無從談起。直到 SSML（語音合成標記語言）的出現，人們（或者大模型）可以通過在輸入的文本中添加對語氣和斷句的標記，指導語音合成程序生成包含不同「情感」的聲音。但這本質上也是預編程的結果，在沒有標記提示的情況下，沒有 TTS 模型可以理解自己朗讀內容的情感。這也解釋了去年 OpenAI 的 TTS 模型發布時，因其對人類語氣、卡殼等細微動作的模仿，而一度被網友盛讚。

而 GPT-4o 的情感能力，則是在輸入和輸出兩端都能完美展現。除了捕捉音影片中難以用文字表達的資訊，GPT-4o 輸出的語音也不再僅僅是冰冷的文本和固定情感語調的組合，而是真正地將每一個字節的輸出都交由大模型本身。比如，在語音對話時，GPT-4o 實際上是在進行音頻到音頻的輸出，中間不需要轉換到文字的思考過程，因此大模型具備了能聽能說的情感能力。

更令人驚嘆的是，GPT-4o 是一個支持三種輸入類型的多模態模型。在發布會上，我們看到，當 GPT-4o「看到」人類在紙上寫著的「I ❤️ ChatGPT」的文字後，居然會作出感動的回應。這裡涉及到的是音頻和影片到音頻的多模態情感能力。

也難怪有人說，《流浪地球》里的 MOSS 和科幻電影《Her》里的語音助手，都被 GPT-4o 帶到了現實。

贊助商廣告

分詞器更新：更懂多語言，更省 Token

GPT-4o 的推出還伴隨著分詞器的更新，這一更新顯著提升了多語言處理能力，同時大幅減少了 Token 的使用量。

根據 OpenAI 的數據，新的分詞器在多種語言上的表現都非常出色。例如，Gujarati 語言的 Token 數量減少了 4.4 倍，從 145 個減少到 33 個；Telugu 語言減少了 3.5 倍，從 159 個減少到 45 個；甚至對於相對複雜的中文，Token 數量也減少了 40%，從 34 個減少到 24 個。

從當前網友的分析來看，新的分詞器名為「o200k_base」，包含了更多的詞彙，從而顯著壓縮不同語言的 Token 數量。

分詞器的更新也是 GPT-4o 生成速度更快的原因。哪怕在算力和模型規模不變的情況下，通過減少 Token 數量（如一個 Token 包括更多字符，比如中文的成語、俗語等），擁護也能感知到明顯的生成速度提示。更何況在當前調用 API 的體驗來看，GPT-4o 模型每秒生成的 Tokens 數量也有顯著提升。

OCR 能力更新：能看懂中文，更能看懂題

在 GPT-4o 的更新中，OCR（光學字符識別）能力也得到了顯著提升。新模型不僅能夠更準確地識別和理解中文文本，還在理解複雜的圖表和題目上表現得更加出色。

我分別使用中英板書、中文海報等常見 OCR 識別場景進行了測試，實測發現，GPT-4o 對多語言（包括中文、日語）的 OCR 能力有了顯著進步，目前已經基本達到可用水準。

可以期待一下，當影片通話功能推送以後，中文用戶應該也可以體驗到 GPT-4o 的絕大多數能力。

更令人振奮的是，GPT-4o 由於數學和編程基礎推理能力的顯著提升，現在對於公式 OCR 後解題的成功率也大幅提升。加上影片對話功能，20 美元一月就能請到頂級家教，豈不美哉。

▍ChatGPT 產品更新：第一手體驗

GPT-4o 推送彈窗

5 月 14 日凌晨一點，OpenAI Spring Update 線上發布會如期舉行。早上八點，我發現，免費版的 ChatGPT 已經收到了最新的 GPT-4o 推送。

贊助商廣告

在左上角的模型切換頁面，原先的「GPT-3.5」和「GPT-4」選項被「ChatGPT」和「ChatGPT Plus」取代。也就是說，收到 GPT-4o 推送的免費版用戶，新建對話時已經默認使用 GPT-4o 模型了。當免費的 GPT-4o 配額用盡時，會自動切換至 GPT-3.5 模型，此後無法進行對文檔和圖片的對話，也無法使用 GPTs、聯網和數據分析等功能。

到了中午，我的 Plus 賬號和 Team 賬號也陸續收到了 GPT-4o 模型的推送。在 Plus 和 Team 的界面中，OpenAI 保留了 GPT-4 模型，提供「GPT-4o」「GPT-4」和「GPT-3.5」三種模型供付費用戶自由選擇。

不久後，我也收到了發布會上提及的 ChatGPT 網頁版新 UI Juice 的推送。

ChatGPT 網頁版新 UI Juice

初步觀察，新 UI 整體更加圓潤、簡潔。在每一條回復的下方新增了切換模型的選項，用戶可以自由選擇不同模型重新生成該對話。同時，用戶提問以對話氣泡展示，突出了對話感。

至於官方發布會中提及的 macOS 客戶端和其他新功能，截至發稿時仍在白名單灰度階段。讓我們期待正式上線的樣子吧。

我經過實測發現，目前網頁版的 ChatGPT 還不具備 GPT-4o 模型的所有多模態能力，包括對音影片的讀取、生成以及對文檔中圖片的讀取。

此外，我通過對不同等級賬號的模型請求抓包發現，對於免費賬戶，GPT-4o 模型的 Tokens 上下文窗口仍然和 GPT-3.5 相同，為 8192（8k），而 Plus 會員和 Team 團隊版則均為 32768（32k），這與此前的 GPT-4（All Tools）模型的上下文限制相同。

受限於網頁版的請求上下文限制，可以預見，免費版用戶所體驗到的 GPT-4o 模型將會有「降智」表現。而哪怕是付費會員，在網頁版的 ChatGPT 中進行對話時仍然採用滑動上下文窗口，而非 128k 的模型理論最大上下文窗口。在閱讀大型文檔時，模型仍然只能獲取開頭部分內容，後續內容需要模型使用內置工具進行文中搜索獲取，閱讀長文的體驗很有可能與當前不會有較明顯差異，甚至可能不如以長上下文窗口著稱的 Claude 和國內的 Kimi。

贊助商廣告

大戲到來前的半代升級

從 4 月底神秘模型 gpt2-chatbot 的曝光，到 5 月中旬 GPT-4o 的正式發布，OpenAI 的這次春季更新無疑再次激起了人們對大模型，或者說對 OpenAI 本身的討論激情。

然而，根據市場普遍預測，OpenAI 今年的「大招」遠不止於此。其「下一代」模型 GPT-5 已經基本完成訓練，不久前開始進入紅隊安全測試階段，預計最快會在今年年中正式發布。

阿里的通義千問，從 1.5 追趕到 2.5，才終於做到國內第一，全球第三的成績；百度的文心一言，從 3.5 追到 4.0，現在看來也稍顯掉隊。而 Sam Altman 卻會對外宣稱，當前已經穩坐世界大模型頭把交椅的 GPT-4o 還不是 OpenAI 的「下一代大模型」，可見 OpenAI 的野心和實力之大。要想追上，談何容易。

我猜測，本次 OpenAI Spring Update 屬於「大戲到來前的半代升級」，是奪回輿論焦點和行業話語權的例行升級。至於人們正在期待的下一代大模型「GPT-5」，就讓我們拭目以待吧。