奧特曼砸場發布GPT-5.4，網友：一句Hi燒掉80美元

每次打開 AI 工具，你大概都要先想一秒鐘：這個任務，該用哪個模型？寫代碼是一個，查資料是另一個，讓 AI 幫你操作電腦，還得再開一個窗口。

贊助商廣告

今天過後，這種分裂感終於有了一個答案。

就在剛剛，OpenAI 正式發布 GPT-5.4，把編程、推理、電腦操控、網頁搜索和百萬 Token 上下文全部整合進同一個模型，且沒有為了整合而犧牲任何一項的能力。

GPT-5.4 Thinking and GPT-5.4 Pro are rolling out now in ChatGPT. GPT-5.4 is also now available in the API and Codex. GPT-5.4 brings our advances in reasoning, coding, and agentic workflows into one frontier model.

OpenAI CEO 山姆·阿特曼也在 X 平台發了一條簡短推文，點出了五個方向：知識工作更強、網頁搜索更出色、原生電腦操控、支持百萬 Token 上下文、響應過程中隨時可介入。

GPT-5.4 is launching, available now in the API and Codex and rolling out over the course of the day in ChatGPT. It's much better at knowledge work and web search, and it has native computer use capabilities. You can steer it mid-response, and it supports 1m tokens of context.

寥寥數語，對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。

知識工作：十次有八次，AI 贏了專業人士

理解 GPT-5.4 在知識工作上的進步，需要先了解 GDPval 這個基準的設計邏輯。

它橫跨美國 GDP 貢獻最大的 9 個行業、44 種職業。任務是那些職場裡每天真實發生的工作：給投資銀行寫財務模型、給醫院排急診班次、給銷售團隊做演示文稿。

任務完成後，把輸出結果交給行業內的真實從業者盲測評分，看 AI 的產出能贏過多少比例的人類同行。

GPT-5.4 的答案是 83.0%，意味著十次對比中有八次以上，行業專業人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%，差距將近 13 個百分點。

贊助商廣告

進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務，平均得分 87.3%，GPT-5.2 是 68.4%，GPT-5.3-Codex 是 79.3%，差距將近 20 個百分點。

法律平台 Harvey 的 BigLaw Bench 測試結果同樣亮眼，GPT-5.4 得分 91%，專業服務評測平台 Mercor 的 APEX-Agents 基準中也拿下了第一。

準確性方面同樣值得關注。幻覺問題一直是 AI 進入專業場景最大的攔路虎，每降低一個百分點，都意味著更多場景可以放心用它。

數據顯示，與 GPT-5.2 相比，GPT-5.4 單條陳述出錯的概率低了 33%，完整回復含有錯誤的概率低了 18%。

編程：一個模型，寫代碼測代碼全包了

GPT-5.4 把 GPT-5.3-Codex 的編程能力整合進主線，對開發者來說，這意味著你不再需要為了寫代碼單獨開一個模型，而且編程能力本身也沒有因此打任何折扣。

SWE-Bench Pro 專門測試真實軟體工程任務，GPT-5.4 得分 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%。整合之後，編程分數不降反升，同時還順帶獲得了電腦操控等一整套通用能力，幾乎找不到明顯的弱點。

知名 AI 評測博主 Dan Shipper 試用後寫道：「這是我們最近一段時間裡見過 OpenAI 最出色的規劃能力，代碼審查也很強，而且成本大約只有 Opus 的一半。」

Best planning we’ve seen from OpenAI in a while, strong code reviews, and ~half the cost of Opus. Join our live vibe check:

他點出了兩個具體維度。其一，規劃能力是長任務成敗的關鍵，GPT-5.4 在任務拆解和持續推進上明顯更有條理。其二，與 Claude Opus 相比約一半的成本，對需要大規模 API 調用的開發者來說，這個差距在賬單上會非常直觀。

開啟 Codex 中的 /fast 模式後，可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍，使得用戶可以在編碼、疊代和調試過程中保持流暢的工作狀態。

贊助商廣告

Codex got more speed. With /fast mode, GPT-5.4 runs 1.5x faster with the same intelligence and reasoning. Move through coding tasks, iteration, and debugging while staying in flow.

與此同時，新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的編程體驗又推進了一步。

GPT-5.4 在構建 Web 或 Electron 應用時，能夠通過可視化瀏覽器進行實時調試，模型可以邊寫代碼、邊測試自己正在構建的應用，同時承擔開發者和測試員兩個角色。

OpenAI 展示了一個典型案例：僅憑一條輕量提示詞，GPT-5.4 生成了一個完整的等距視角主題公園模擬遊戲，涵蓋基於瓦片的路徑鋪設與景點建設系統、遊客 AI 尋路與排隊行為，以及資金、遊客數、滿意度、清潔度四項指標全部實時動態更新的綜合評分。

Playwright Interactive 在整個過程中承擔了多輪自動化測試，驗證路徑鋪設、攝像機導航、遊客響應及 UI 指標的正確性。從寫代碼到測試驗收，模型全程自己完成。

博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版，模型花了約 24 分鐘，運行流暢，過程中沒有卡住。他在推文里寫道「Minecraft 基本上被攻克了，我現在得找個新測試了」。

沃頓商學院教授 Ethan Mollick 同樣獲得了早期訪問權限。他用同一條提示詞，讓 GPT-5.4 Pro 生成了一個受《皮拉奈奇》啟發的三維空間場景，全程沒有報錯，只額外追加了一句「把它做得更好」的指令。他隨後把結果和兩年前 GPT-4 生成的版本並排放在一起，差距一眼可見。

贊助商廣告

操控電腦這件事，它現在比你做得好

這是 GPT-5.4 這次發布里最值得單獨說一說的變化。此前 OpenAI 的電腦操控能力是一個獨立模組，跟模型的語言理解、代碼生成之間有一道明顯的分隔。

兩套系統各管各的，資訊要來回傳遞，效率自然打折。現在這道分隔沒了，GPT-5.4 操控電腦時，用的就是模型本身的推理能力，不需要再繞一圈。

這也是 OpenAI 第一款將電腦使用（computer use）能力原生內置進通用模型的產品，以後談 AI Agent，相信這會是一個新的起點。

基準測試結果顯示，OSWorld-Verified 基準測試桌面導航能力，用截圖加滑鼠鍵盤交互完成真實作業系統任務。GPT-5.4 達到 75.0% 的成功率，人類基線是 72.4%，GPT-5.2 是 47.3%。

簡言之，它不僅追上了人類，還超過了人類。

在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中，GPT-5.4 達到 92.8%，對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%，

真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用於約三萬個物業稅務門戶網站的自動表單填寫，首次成功率達 95%，三次以內成功率 100%，而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍，Token 消耗降低約 70%。

這背後繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚界面上有什麼、按鈕在哪裡、點擊是否準確。

GPT-5.4 在這一層做了專項加強，引入了原始圖像（original）輸入模式，支持最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入；原有的高清（high）模式上限也從此前的標準提升至 256 萬像素或 2048 像素最大邊長。

工具調用與網頁搜索：持續性是核心競爭力

一個複雜的 AI Agent 系統，背後可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前，把所有工具的說明一股腦塞進去，不管這次用不用得上，Token 先花了再說。

GPT-5.4 換了個思路：先給模型一份簡單的工具清單（即引入工具搜索機制），真正需要用哪個，再去把那個工具的詳細說明取過來，用過一次的還能直接緩存，下次不用重新拿。

贊助商廣告

在 250 項任務的測試中，啟用 36 個 MCP 伺服器的完整配置下，工具搜索模式在保持準確率完全不變的前提下，將總 Token 消耗降低了 47%。將近一半的成本節省，精度一點沒少。

網頁搜索方面，GPT-5.4 在 BrowseComp 基準上得分 82.7%，比 GPT-5.2 的 65.8% 高出 17 個百分點，Pro 版更達到 89.3%，創下業界最高分。Zapier CEO 評價說，GPT-5.4 會在其他模型放棄的地方繼續搜索下去，是他們測試過持續性最強的模型。

百萬 Token 上下文：長長長長長長

GPT-5.4 在 API 中支持最高 100 萬 Token 的上下文窗口，相當於可以把一個完整項目的所有相關文檔一次性塞進同一次對話。

但從測試結果來看，128K 至 272K 是表現最穩定的區間，適合日常使用。

256K 以上準確率開始下滑，需要針對具體任務驗證後再用。512K 至 1M 區間的得分降至 36.6%，目前更接近實驗性質，不適合直接用於對精度要求高的生產任務。

贊助商廣告

還有一個實際的成本問題需要注意：超過 272K 的請求會按兩倍用量計入配額。也就是說，發一次超長上下文的請求，額度消耗等於兩次普通請求，用之前值得想清楚是否真的需要這麼長。

至於在視覺抽象推理基準 ARC-AGI-2 上，GPT-5.4 Pro 得分 83.3%，而上代 GPT-5.2 Pro 僅為 54.2%。

再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一，包含 50 道研究級別的數學題，人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%，上代為 31.3%。

GPT 5.4 Pro just crushed the hardest math benchmark, FrontierMath Tier 4, with 38%. These 50 research level math problems can take mathematicians weeks to solve. A year ago, the best was 2% (o3). The best open source model is 4.2% (Kimi K2.5) Insanely impressive.

這個數字的參照系是：一年前，最好的成績是 o3 的 2%，目前最好的開源模型是 4.2%。

博主 Deedy 在推文中寫道，從 2% 到 38%，「簡直令人震驚」。Humanity's Last Exam 有工具輔助時，GPT-5.4 Pro 得分 58.7%，GPT-5.2 Pro 是 50.0%，差距接近 9 個百分點。

執行中調整，不是完成後返工

用過 AI 處理長任務的人大概都有過這種體驗：等模型跑完一大段，發現方向不對，只能從頭再來，時間全浪費了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能：在處理複雜任務之前，模型會先呈現工作計劃概要，再開始執行。用戶可以在執行過程中隨時介入調整方向，不必等到結果出來再從頭重來。

這個功能把糾偏這件事從「完成後」提前到了「執行中」，對需要多輪協作的任務來說，體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線，iOS 版本即將跟進。

贊助商廣告

即日起，GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用戶開放，替代 GPT-5.2 Thinking 成為默認思考模型。

GPT-5.2 Thinking 將保留至今年 6 月 5 日後正式退役。Enterprise 和 Edu 用戶可由管理員在後台開啟早期訪問，GPT-5.4 Pro 僅對 Pro 和 Enterprise 計劃開放。

API 標準版定價為輸入 2.50 美元/百萬 Token，緩存輸入 0.25 美元/百萬 Token，輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token，輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折，Priority Processing 為兩倍標準價格。

當然，強大的推理能力也有它的另一面。Hyperbolic 聯合創始人金宇晨在 X 平台吐槽，GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發了一句簡單的「Hi」，模型就開始認真推理，直接燒掉了 80 美元。

GPT 5.4 Pro is the most overthinking model. A simple 'Hi' cost me $80. 🥲

這並非個例。推理模型的特性決定了它在處理任何輸入時都傾向於深度思考，哪怕問題本身根本不需要。對於日常輕量任務，標準版或許是更合適的選擇；Pro 版的推理火力，還是留給真正值得的場合更划算。

過去兩年，AI 能力的討論主要集中在基準測試成績上的「聰明」，但 GPT-5.4 的聰明指向的是能夠在真實工作流中，足夠可靠地承擔責任。

過去 AI 只能輸出文字，人還需要親自操作才能讓事情發生。現在模型可以自己打開瀏覽器、填寫表單、點擊按鈕、記錄結果，獨立完成一個有頭有尾的任務閉環。

AI 正在從一個擅長回答問題的系統，變成一個擅長完成任務的系統。而這個轉變的速度，顯然比大多數人預期的更快。

it’s a good model. the coding specific jump is more in line what we had in 5.0 to 5.1; but it’s now unified and smarter on everything else, writes better docs, is a better general purpose agent and is overall more pleasant to use.

贊助商廣告

附上參考地址：https://openai.com/index/introducing-gpt-5-4/