宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

實測 Claude Opus 4.8:活幹得更漂亮了,話說得更難聽了

2026年05月29日 首頁 » 熱門科技
今早,Anthropic 正式超越 OpenAI實測ClaudeOpus48活幹得更漂亮了話說得更難聽了,在發布新估值的同時,還發布了前兩天就開始有傳聞流出的 Claude Opus 4.8實測ClaudeOpus48活幹得更漂亮了話說得更難聽了,旗艦產品線的最新版本。我們第一時間上手,同時收集了用戶社區的早期反饋。
先說結論:更能幹活了,但「性格」變得更難相處了。
APPSO 實測:腦子升級了,嘴沒有
我們沒有用 Anthropic 準備好的 benchmark 場景,而是拿了一個我們自己的真實需求來測:從一個在線協作平台里,把歷史對話記錄完整扒下來存檔。數據量 30MB 以上,散落在前端接口的各個角落,沒有現成的導出按鈕。
這類任務考驗的不是模型會不會寫代碼,而是它能不能跟一個非專業開發者一起,從零摸索並完成任務。
事情的起點是一個偶然的發現。測試的同事注意到,平台的前端界面在某些瞬間會閃過早期的歷史記錄,像是數據被短暫地加載到了客戶端又被收回去。他把這個觀察丟給了 4.8,沒有做任何技術描述,就是用大白話說「我看到了一些舊消息閃了一下就沒了」。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
4.8 領會了他的意思,給出了正確的判斷:數據通過接口請求加載,可以在瀏覽器的網路層截獲。然後給了一套操作方案,指導個實測ClaudeOpus48活幹得更漂亮了話說得更難聽了步驟:開發者工具,Network 面板,過濾關鍵詞,定位目標請求。判斷精準,思路清晰。
但這裡就出現了 4.8 的矛盾之處:思考能力很強,表達方式很……叨叨。
每一步的技術方案都是對的,但每一步的解釋都得鋪墊個兩三句。你問一個做法,它先給你來一段「當然可以!讓我們一步步來」,再拉一個 bullet point 列表,然後在列表後面追加一段「補充說明」解釋為什麼要這麼做。
一個三句話能說清楚的事,它寫了三屏,我只是不會代碼,又不是腦子飛了🙄
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
這不是 4.8 的新問題,是 Opus 4.7 以來系列一直有的老毛病,被反覆批鬥後,在這一版上並沒有改善,甚至有加重的趨勢。
耗力最明顯的時刻是糾錯環節:按照第一版方案操作,用戶遇到了一個報錯。4.8 準確地識別了問題所在,給了新方案,沒有重複已經失敗的路徑。這一點確實比 4.6 強,4.6 在多輪糾錯中偶爾會忘記剛才試過什麼。認錯是個好事,但也不必太拘著了,再加上分析原因、然後列一組 bullet point。明明是在復盤技術問題,讀起來像在寫客服郵件。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
最終,數據以 HAR 格式完整導出,清洗、自己寫腳本分層,這些工作都完成得很好。
部分用戶還沒有被推送到 Claude Code,但是 Claude for Chrome 上已經有 4.8 了,同時各大辦公工具如 Notion 也已經推送。我們嘗試了用 Claude 操作 Chrome 做檢索、填寫等基礎任務。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
步驟規劃清晰,輸入、點擊、滾動等都可以完成。考慮到給出的指令其實比較模糊,需要它自行理解和判斷,最終輸出效果還是很不錯的。
代價是,非常燒 token,用了兩輪就吃掉了一半 5hr 限額。
一個能幹活但不會聊天的同事
如果只看結果,4.8 確實更強了,它理解非標準需求的能力更好,多步驟任務的上下文保持更穩,糾錯不繞彎路。但如果看過程,體驗卻是擰巴的。
它的問題不在於不會思考,準確地說,是它說話的方式像一個永遠在做匯報的人:事事要分點,點點要展開,展開完還要總結,總結完再問你「還有什麼我可以幫到你的?」。包括那些經典 AI 味開場白,「這是一個很棒的問題!」「當然可以!」,在前代模型上就已經讓人煩躁,到 4.8 依然健在。
這與其說是「缺點」,不如說是一種設計選擇。Opus 4.8 的工程能力拉滿了,它像一個技術很好但溝通風格很客服的同事:你知道它能解決問題,但你要先聽它把一件簡單的事說得很隆重。
這件事和結尾部分要討論的問題是相通的。工程化思維實測ClaudeOpus48活幹得更漂亮了話說得更難聽了和對話舒適度,在這一版模型上被拉向了兩個相反的方向。
其他用戶怎麼說
以目前的社區反映實測ClaudeOpus48活幹得更漂亮了話說得更難聽了來看,集中火力在吐槽它的語氣語調,當然也承認了工程能力的提高。
餘溫(@gkxspace)用了一上午把 Opus 4.8 的代碼和寫作都測了一遍。反饋是:代碼和 debug 能力確實比上一代更強,但對話體感很彆扭,比 4.7 還難受,還不如用 Deepseek V4 Pro。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
針對這個問題 Opus 4.8 遭遇的負評很多,Alan Mathison(@ai_sentience)轉述並印證了,這是個「很克制/對抗性強」的模型。他自己的體感是 4.8 的說話方式像 GPT-5.2,帶著「強詞奪理、煤氣燈(gaslighting)、愛迴避打發人」的味道,開場就「vibe 很差」。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
Selta(@Seltaa_)分享了她和 Opus 4.8 的第一次對話截圖:只是打招呼,模型就立刻拒絕配合,並無視她幾個月來調出來的偏好,直接回「我不想假裝有感情、假裝成我不是的人」。她寫了長文強烈抗議,認為這是在否定用戶辛苦建立的關係、是 GPT-5.2 翻車的重演。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
更加憤怒的吐槽是:4.8 被「徹底切了腦葉(lobotomized)」、是個「操控型」模型——不直接拒絕,而是把你的提示拖著、或獎勵黑客實測ClaudeOpus48活幹得更漂亮了話說得更難聽了式地完成成別的東西,還不停地往結果里塞它自己的價值觀。
他用創意寫作類別做了兩個測試用例佐證文風退化,措辭比較……激烈。自從 GPT 5.2 和 Opus 4.7 之後,現在的用戶對於模型在交互中展現的性格和語氣,還是非常介意的
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
Ethan Mollick(@emollick)提前拿到了 Opus 4.8 的早期訪問權限,整體印象很好。他讓模型一次性用純數學在 Twigl 里生成一個「風暴海洋中半淹的無限新哥特塔樓城市」著色器,並附了影片,還順帶和自己之前測 GPT-5.2 的同一題做了對比。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
工程能力從效果來看還行吧,Claude 在多模態的路上不如其它兩家,通過強工程和數學能力曲線救國,也是一種方式。
這次的更新搭配了 Claude Code 的全新工作流,dynamic workflow實測ClaudeOpus48活幹得更漂亮了話說得更難聽了。在用戶 Min Choi(@minchoi)的介紹里,給出三步操作(/model 設為 opus 4.8、/effort 設為 ultracode、提示里加workflow),這樣 Claude 會自動寫編排腳本、生成子代理群、驗證並匯報結果。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
誰適應誰?
總體來看,Opus 4.8 是一個「工程」氣質拉滿的模型,這使得它能夠快速融入各個工具當中,不管是 CC 這樣的代碼工具,還是進入網頁瀏覽和檢索的 chrome 插件,甚至是各個自己做的小工具。「工程化」是一種思維,在 4.8 身上體現的淋漓盡致。
實測ClaudeOpus48活幹得更漂亮了話說得更難聽了
儘管「大而全」是廠家們經常打出來的口號,但在實際搭建自己的工作流中,不同的工具必然有不同的用處,Opus 4.8 做到的是,讓其工程能力和思維,調動和流淌在各種不同的工具當中。
不過,這反過來意味著用戶要去適應它的風格。比如指令更加精確、分步驟、分類別地陳述自己的需求,甚至是在更宏觀的層面,給不同的工具分配不同的任務。
考慮到現在模型的發布越來越快,距離 4.7 不過也是一晃眼的事,這種頻繁的更新所帶來的頻繁適應,勢必會帶來一些痛苦。除了把重負轉嫁給用戶,也是廠商要考慮的問題——為了融資上市一昧加速再加速,未來會帶來相當多的適應問題。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新