實測GPT-5.2 ：價格暴漲能力微漲，憑什麼反擊Gemini

要吊打 Gemini 的 GPT 5.2 在今天凌晨正式發布了，向所有用戶推出。

贊助商廣告

上個月剛剛退訂掉 ChatGPT Plus，轉到 Gemini，這次需要因為 GPT-5.2 再回去嗎？

看完下面這些網友真實的體驗分享，還有 APPSO 的上手實測，或許能有個答案。

這次終於沒把表給畫錯了

GPT 5.2 這次其實是更新了 3 個模型，GPT-5.2 Instant、Thinking、以及 Pro 模型。如果你習慣了 Gemini 3.0 Pro 里，每次問答都會經過思考；那麼上手 GPT-5.2 Thinking/Pro 時，你會發現 ChatGPT 思考速度的變慢了，比以往所花的時間要更長。

這也是目前大多數獲得提前體驗的用戶，在社交媒體上分享的心得。即 GPT-5.2 對比 5.1 在各個方面都有了提升，且 GPT-5.2 Pro 非常適合去做一些專業推理工作，需要長時間來完成的任務，但是，就等待結果的過程變得更漫長。

例如有用戶分享，輸入提示詞「幫我繪製一張 HLE 測試成績的圖表」，GPT-5.2 Pro 硬是花了 24 分鐘才得出這張表。

In the more practical example: "build me a graph of humanity's last exam scores over time" which involved looking up and cross-referencing a lot of material and then generating something useful in one shot: (Ironically does not include GPT-5.2 since scores weren't public)

但好在所有的資訊都是準確的，即便圖表上最好的結果，顯示的還是 Gemini 3.0 Pro。

這也得益於 GPT-5.2 的知識截止日期來到了 2025 年 8 月，要知道 GPT-5.1 的知識截止日期還是 2024 年 9 月，而上個月剛發布的 Gemini 3.0 截止在 2025.1。

當我們使用 GPT-5.2 Thinking，讓它生成一張 OpenAI 的模型發布歷史的圖表，倒沒有花太長的時間，資訊也比較準確。如果是簡單的任務，用 Thinking 模型所花的時間，和用 Pro 模型，差別會非常大。

贊助商廣告

提示詞：generate a chart graph of OpenAI model release over time

憑藉著「超高強度」的推理，以及最新的世界知識，結合圖像的多模態理解和推理能力，GPT 5.2 很快也在大模型競技場上飆升到第二名。GPT-5.2-High 在 WebDev（網頁開發）項目中排名第二，GPT-5.2 排名第六。作為對比，Gemini 3.0 Pro 排名第三，第一仍然是 Claude。

LMArena 官方也給出了一段實測影片，他們使用 GPT-5.2 完成了一系列的 3D 建模工作，完成度非常高。但還是有網友在下面評論說，「現在是還在 2003 年嗎？」

這種利用 three.js 實現的 3D 效果，非常需要模型的多模態理解和推理能力，以及在編程開發、程序設計上的優化；GPT-5.2 也很對得起這 0.1 的升級。

目前網友分享大量測試，基本上都集中在構建這些完整的 3D 引擎，GPT-5.2 表現的也都很不錯。像是也有用 GPT-5.2 Thinking 的高難度推理模式，同樣在單頁文件里，構建了一個支持交互控制、還可以導出 4K 解析度的 3D 雪天冰塊王國模型。

I've been testing GPT-5.2 for a while now. It's a serious leap forward in complex reasoning, math, coding, and simulations. It built a full 3D graphics engine in a single file. Interactive controls. 4K export. One shot. The pace of progress is unreal.

還有使用 GPT-5.2 Pro 實現的 3D 波濤洶湧哥特城市建築。

Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves," single shot.

贊助商廣告

關於 3D 理解和推理能力，我們也用了 Ian Goodfellow 上次在 Gemini 3.0 Pro 發布之後使用的提示詞，即上傳一張圖片，然後告訴模型根據這張圖片，生成一個漂亮的體素藝術 Three.js 單頁程序場景。

由於 ChatGPT 沒有在畫布內為我生成，所以複製它在對話框生成的代碼，在 HTML View 中打開，如右圖所示。

這個差別還是挺明顯，ChatGPT 雖然也讀取到了上傳圖片的內容，一棵粉紅色的樹，一塊綠地和灰色的下沉，還有白色的水流，但是它生成的 3D 動畫，對比 Gemini 3.0 Pro 是有些簡陋了。

我只能說，奧特曼發出這個「紅色警報」，說明了 Gemini 的真材實料。

檢驗編程能力的測試，必然少不了經典的六邊形小球物理運動。有博主加大了小球運動的難度，全部使用閃著光的紅色 3D 小球。效果看著很酷炫，很多網友都在問這是如何做到的；但也有網友指出來，這些小球，好像並不受重力控制。

接著有網友回覆說，這是在模擬太空。

還有 SVG 代碼測試，騎自行車的鵜鶘。

圖片來源：https://arena.jit.dev/

也有網友分享自己用 GPT-5.2 做了一個森林火災的模擬器，能夠調節速度、片區大小、和火焰燃燒範圍等等。

GPT 5.2 zero-shotted a simulator i saw on @veritasium video today - It's a forest fire simulator and just one prompt and i have the simulator locally ready!

我們做了一個星球信號的網頁，跟這個森林火情可視化的網頁，布局是如出一轍，大概就是左邊顯示的內容，星星點點換成了太空星球。

贊助商廣告

提示詞：Create an interactive HTML, CSS, and JavaScript simulation of a satellite system that transmits signals to ground receivers. The simulation should show a satellite orbiting the Earth and periodically sending signals that are received by multiple

我們也用之前 Gemini 3 做的拍立得，來考驗一下 GPT-5.2。輸入同樣的提示詞，要它開發一個復古拍立得風格的網頁相機應用。

提示詞：開發一個具有復古擬物風格的單頁相機應用。頁面背景請設計為軟木板或深色木紋材質，左下角固定一個純 CSS 或 SVG 繪製的擬物化拍立得相機模型，其鏡頭區域實時顯示用戶攝影機畫面；交互邏輯上，當用戶點擊快門按鈕時，播放快門音效，並讓一張帶有白色邊框的相紙從相機頂部緩慢吐出；請利用 CSS 濾鏡讓滑出的照片初始狀態為高模糊且黑白，在 5 秒內平滑過渡到清晰全彩狀態；最後，所有顯影完成的照片必須支持自由拖拽，允許用戶將其隨意擺放在頁面任意位置，且照片要有隨機的微小旋轉角度和陰影，點擊某張照片時應將其置頂，從而形成一個逼真的自由照片拼貼牆。

有點意外，一次成型，ChatGPT 也能做拍立得了。

之前我們測試 Gemini 3.0 Pro 時，它最強大的能力一方面是編程，另一方面是不需要我們輸入太多的提示詞，只是把一個截屏或影片丟給它，告訴它要復刻，Gemini 就能做到。

這次我們同樣丟給它一個影片，要求它復刻這個古詩詞生成的網頁。

https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

對比之前 GPT-5.1 完全不知道我上傳影片的配色方案，這次它算是學到了。不過，由於 Gemini 生成的網頁可以直接添加 AI 功能，通過使用 Gemini 的 API 實現。但是 ChatGPT 還沒有把 AI 引入這些生成的網頁，所以這裡的詩歌，同樣只能是已經寫好的那幾首。

除了經典的編程能力測試，和單純地做一個單頁的 HTML 文件，也有網友用它來編寫 Python 代碼。

贊助商廣告

網友輸入的提示詞是「write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.」（編寫一個 Python 代碼，模擬單行道交通燈的工作原理，並可視化隨機速率進入的車輛）。

他同時測試了 GPT 5.2 Extended Thinking 和 Claude Opus 4.5，結果顯而易見。只能說，經常有讀者問我們最好的編程模型是哪個，Claude 能被這麼多開發者青睞，並不是沒有原因。

GPT 5.2 Extended Thinking: write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate. Results: No color at all, functionality is there and works. No design either.

而且，之前 Claude 模型最大的缺點，可能就是貴，Claude Opus 4.5 輸入每百萬 Token 是 5 美元，輸出是 25 美元。現在 GPT-5.2 的價格也跟上來了，對比 GPT-5.1 ，整體基本上貴了 40%，GPT-5.2 Pro 的輸入是 21 美元，輸出是 168 美元。

在官方的發布部落格裡面，OpenAI 提到 GPT-5.2 在圖像的能力也有了提升。

GPT-5.2 Thinking 是我們迄今為止最強大的視覺模型，在圖表推理和軟體界面理解方面的錯誤率降低了大約一半。

並且它給出了一個例子，是給一塊看起來很模糊的主機板，用 AI 加上一些帶有方框的標記；對比 GPT-5.1，GPT-5.2 雖然也會犯錯，但是標記了更多的地方。

可是 Nano Banana Pro 呢，有網友用 Nano Banana Pro 去掉了圖片上的標註資訊，然後重新要求它打上新的目標定位方框，你覺得哪個好。

I had Nano Banana remove GPT5.2's bounding boxes and Gemini 3 give it a go Left: GPT5.2 Right: Gemini 3.0

贊助商廣告

從左到右依次為 GPT-5.1、GPT-5.2、Nano Banana Pro｜圖片來源：https://x.com/bcaine/status/1999212747213656072

我的感受是，ChatGPT 為什麼要在別人擅長的領域上「自取其辱」，Nano Banana 做這些關於圖片的工作，現在完全可以說就是斷層第一，即便 GPT-5.2 標註的資訊更多了，但很多檢測框定位都不準確。

編程、圖像對比前代 GPT-5.1 有了大幅提升，如果你一直以來都是 ChatGPT 的用戶，應該能直接感受升級後帶來的差別。但如果和其他模型對比，編程和圖像，體驗下來，仍然是沒有像 Nano Banana 推出時一樣，做到遙遙領先。

在關於審美的網頁設計上，也有網友分享了他用 GPT-5.2 做的一些前端網頁，大家可以看看這次，前端程序員是不是又要被拉出來「殺」一遍。

贊助商廣告

和之前爛大街的漸變紫，GPT-5.2 的設計水平確實上來了，但就像博主自己說的一樣，GPT-5.2 好像特別喜歡在螢幕上畫方框，到處都是層層疊疊的網格。

關於設計能力，也有一個專門的榜單，GPT-5.2 突飛猛進，從之前排在十名開外的 GPT-5.1，一躍來到了第三名，不過得分最高的還是 Gemini 3.0 Pro。

圖片來源：https://www.designarena.ai/leaderboard

我們也給 GPT-5.2 一些要求做出「高大上」的網頁，給一家 AI 公司做首頁。結果是，GPT-5.2 很喜歡用方框是真的；還有漸變紫怎麼又給我碰上了。

贊助商廣告

提示詞：You are the top 0.1% designer and developer for the world's cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. - Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.

最後關於寫作，根據一些獲得超前體驗的用戶反饋，GPT-5.2 開始有能力，完成一些長篇幅小說的創作。

例如，當 ChatGPT 被要求生成 50 個情節創意時，它會全部完成，而不是像其他模型那樣只生成一部分。而被要求寫一本 200 頁的書時，ChatGPT 也沒有直接說做不到，而是真的嘗試了，不僅構建了整本書的結構，甚至還生成了 PDF 文件。

網友說，儘管書頁本身比較薄弱，篇幅也短……畢竟它目前不可能，一口氣寫出一本可以出版的小說，但能開始真的去做，給 50 個創意，寫 200 頁書，說明它有足夠的思維深度。

GPT-5.2 最引人注目的地方在於它能夠很好地遵循指令……不是基本的按照我說的做，而是真正完成我描述的整個任務。

現在 GPT-5.2 應該已經逐步推送到所有用戶了，你的上手實測體驗怎麼樣。

GPT-5.2 的升級，不足以讓我從 Gemini 轉過來。雖然看著又是刷新了很多榜單，無論是自己發布的榜單，公開的測試，都拿到了不錯的成績。但是具體的上手，在生成 3D 程序那部分，代碼報錯是常有的事，而整體的審美風格也沒能有大的突破，還這麼貴。

Holy shit lmao #ChatGPT 5.2 is quite possible the worst model they've ever released. I have no idea what the fuck they have done - there's no way this was the alpha model my cohort tested, nor is it even remotely close to how well 5.1 was performing the other day. This is quite possibly the biggest piece of shit I've ever seen. It's even worse than 5.1. Safetymaxxed to the absolute brim. It's failed every single eval I've thrown at it. It's so over at this point for #OpenAI

贊助商廣告

網友銳評

Gemini 那邊也沒有停下來，繼續給奧特曼壓力。今天凌晨，雖然沒有發布新模型，但發布了重新設計的 Gemini Deep Research，並且可以通過 API 來訪問它，未來還將在 Gemini、Google 搜索、NotebookLM 中升級。

全新的 Gemini 深度研究 Agent 在人類最後的考試（HLE），用 46.4% 擊敗了剛剛發布的 45.5% 的 GPT-5.2 Thinking（最高是 GPT-5.2 Pro 50.0%），並且在 Google 自己推出的 DeepSearchQA 測試，和 BrowseComp 測試中取得了不錯的結果。

奧特曼的紅色警報，大概是還得再亮一陣子了。