實測 Claude Opus 4.8：活幹得更漂亮了，話說得更難聽了

今早，Anthropic 正式超越 OpenAI 實測ClaudeOpus48活幹得更漂亮了話說得更難聽了

，在發布新估值的同時，還發布了前兩天就開始有傳聞流出的 Claude Opus 4.8 實測ClaudeOpus48活幹得更漂亮了話說得更難聽了

，旗艦產品線的最新版本。我們第一時間上手，同時收集了用戶社區的早期反饋。

贊助商廣告

先說結論：更能幹活了，但「性格」變得更難相處了。

APPSO 實測：腦子升級了，嘴沒有

我們沒有用 Anthropic 準備好的 benchmark 場景，而是拿了一個我們自己的真實需求來測：從一個在線協作平台里，把歷史對話記錄完整扒下來存檔。數據量 30MB 以上，散落在前端接口的各個角落，沒有現成的導出按鈕。

這類任務考驗的不是模型會不會寫代碼，而是它能不能跟一個非專業開發者一起，從零摸索並完成任務。

事情的起點是一個偶然的發現。測試的同事注意到，平台的前端界面在某些瞬間會閃過早期的歷史記錄，像是數據被短暫地加載到了客戶端又被收回去。他把這個觀察丟給了 4.8，沒有做任何技術描述，就是用大白話說「我看到了一些舊消息閃了一下就沒了」。

4.8 領會了他的意思，給出了正確的判斷：數據通過接口請求加載，可以在瀏覽器的網路層截獲。然後給了一套操作方案，指導個實測ClaudeOpus48活幹得更漂亮了話說得更難聽了

步驟：開發者工具，Network 面板，過濾關鍵詞，定位目標請求。判斷精準，思路清晰。

但這裡就出現了 4.8 的矛盾之處：思考能力很強，表達方式很……叨叨。

每一步的技術方案都是對的，但每一步的解釋都得鋪墊個兩三句。你問一個做法，它先給你來一段「當然可以！讓我們一步步來」，再拉一個 bullet point 列表，然後在列表後面追加一段「補充說明」解釋為什麼要這麼做。

一個三句話能說清楚的事，它寫了三屏，我只是不會代碼，又不是腦子飛了🙄

這不是 4.8 的新問題，是 Opus 4.7 以來系列一直有的老毛病，被反覆批鬥後，在這一版上並沒有改善，甚至有加重的趨勢。

耗力最明顯的時刻是糾錯環節：按照第一版方案操作，用戶遇到了一個報錯。4.8 準確地識別了問題所在，給了新方案，沒有重複已經失敗的路徑。這一點確實比 4.6 強，4.6 在多輪糾錯中偶爾會忘記剛才試過什麼。認錯是個好事，但也不必太拘著了，再加上分析原因、然後列一組 bullet point。明明是在復盤技術問題，讀起來像在寫客服郵件。

贊助商廣告

最終，數據以 HAR 格式完整導出，清洗、自己寫腳本分層，這些工作都完成得很好。

部分用戶還沒有被推送到 Claude Code，但是 Claude for Chrome 上已經有 4.8 了，同時各大辦公工具如 Notion 也已經推送。我們嘗試了用 Claude 操作 Chrome 做檢索、填寫等基礎任務。

步驟規劃清晰，輸入、點擊、滾動等都可以完成。考慮到給出的指令其實比較模糊，需要它自行理解和判斷，最終輸出效果還是很不錯的。

代價是，非常燒 token，用了兩輪就吃掉了一半 5hr 限額。

一個能幹活但不會聊天的同事

如果只看結果，4.8 確實更強了，它理解非標準需求的能力更好，多步驟任務的上下文保持更穩，糾錯不繞彎路。但如果看過程，體驗卻是擰巴的。

它的問題不在於不會思考，準確地說，是它說話的方式像一個永遠在做匯報的人：事事要分點，點點要展開，展開完還要總結，總結完再問你「還有什麼我可以幫到你的？」。包括那些經典 AI 味開場白，「這是一個很棒的問題！」「當然可以！」，在前代模型上就已經讓人煩躁，到 4.8 依然健在。

這與其說是「缺點」，不如說是一種設計選擇。Opus 4.8 的工程能力拉滿了，它像一個技術很好但溝通風格很客服的同事：你知道它能解決問題，但你要先聽它把一件簡單的事說得很隆重。

這件事和結尾部分要討論的問題是相通的。工程化思維和對話舒適度，在這一版模型上被拉向了兩個相反的方向。

其他用戶怎麼說

以目前的社區反映

來看，集中火力在吐槽它的語氣語調，當然也承認了工程能力的提高。

餘溫（@gkxspace）用了一上午把 Opus 4.8 的代碼和寫作都測了一遍。反饋是：代碼和 debug 能力確實比上一代更強，但對話體感很彆扭，比 4.7 還難受，還不如用 Deepseek V4 Pro。

針對這個問題 Opus 4.8 遭遇的負評很多，Alan Mathison（@ai_sentience）轉述並印證了，這是個「很克制/對抗性強」的模型。他自己的體感是 4.8 的說話方式像 GPT-5.2，帶著「強詞奪理、煤氣燈（gaslighting）、愛迴避打發人」的味道，開場就「vibe 很差」。

贊助商廣告

Selta（@Seltaa_）分享了她和 Opus 4.8 的第一次對話截圖：只是打招呼，模型就立刻拒絕配合，並無視她幾個月來調出來的偏好，直接回「我不想假裝有感情、假裝成我不是的人」。她寫了長文強烈抗議，認為這是在否定用戶辛苦建立的關係、是 GPT-5.2 翻車的重演。

更加憤怒的吐槽是：4.8 被「徹底切了腦葉（lobotomized）」、是個「操控型」模型——不直接拒絕，而是把你的提示拖著、或獎勵黑客實測ClaudeOpus48活幹得更漂亮了話說得更難聽了

式地完成成別的東西，還不停地往結果里塞它自己的價值觀。

他用創意寫作類別做了兩個測試用例佐證文風退化，措辭比較……激烈。自從 GPT 5.2 和 Opus 4.7 之後，現在的用戶對於模型在交互中展現的性格和語氣，還是非常介意的。

Ethan Mollick（@emollick）提前拿到了 Opus 4.8 的早期訪問權限，整體印象很好。他讓模型一次性用純數學在 Twigl 里生成一個「風暴海洋中半淹的無限新哥特塔樓城市」著色器，並附了影片，還順帶和自己之前測 GPT-5.2 的同一題做了對比。

贊助商廣告

工程能力從效果來看還行吧，Claude 在多模態的路上不如其它兩家，通過強工程和數學能力曲線救國，也是一種方式。

這次的更新搭配了 Claude Code 的全新工作流，dynamic workflow 實測ClaudeOpus48活幹得更漂亮了話說得更難聽了

。在用戶 Min Choi（@minchoi）的介紹里，給出三步操作（/model 設為 opus 4.8、/effort 設為 ultracode、提示里加workflow），這樣 Claude 會自動寫編排腳本、生成子代理群、驗證並匯報結果。

誰適應誰？

總體來看，Opus 4.8 是一個「工程」氣質拉滿的模型，這使得它能夠快速融入各個工具當中，不管是 CC 這樣的代碼工具，還是進入網頁瀏覽和檢索的 chrome 插件，甚至是各個自己做的小工具。「工程化」是一種思維，在 4.8 身上體現的淋漓盡致。

儘管「大而全」是廠家們經常打出來的口號，但在實際搭建自己的工作流中，不同的工具必然有不同的用處，Opus 4.8 做到的是，讓其工程能力和思維，調動和流淌在各種不同的工具當中。

不過，這反過來意味著用戶要去適應它的風格。比如指令更加精確、分步驟、分類別地陳述自己的需求，甚至是在更宏觀的層面，給不同的工具分配不同的任務。

考慮到現在模型的發布越來越快，距離 4.7 不過也是一晃眼的事，這種頻繁的更新所帶來的頻繁適應，勢必會帶來一些痛苦。除了把重負轉嫁給用戶，也是廠商要考慮的問題——為了融資上市一昧加速再加速，未來會帶來相當多的適應問題。