編程測試碾壓人類！Claude Opus 4.5深夜突襲，AI編程進入「超人時代」

最近這段時間，大模型發布就跟下餃子似的，一個接一個往外冒。

贊助商廣告

前腳 Gemini 3 Pro 剛搶了兩周風頭，後腳 Claude Opus 4.5 剛剛就正式發布，還是主打編程，還是那個熟悉的味道。

Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統級任務」依然是全球數一數二的水平。日常的研究、做 PPT、處理表格這些案頭活，也都明顯變強了。

今天起，Opus 4.5 已經全面開放，可以通過應用、API，還有三大主流雲平台用起來。開發者只要在 Claude API 里調用 claude-opus-4-5-20251101 就行。

隨發布而來的，是一整個工具鏈升級。開發者平台、Claude Code、Chrome 插件、Excel、桌面端改造，還有「長對話不卡頓」。從應用到 API，再到雲平台，這次是真的全線鋪開。

Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack

大模型集體「上新季」，Opus 4.5 強勢壓軸

從官方和測試者的反饋看，Claude Opus 4.5 對「模糊需求」的理解力得到了明顯提升，複雜 bug 自行定位也更穩，不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要什麽。

OK, time to switch back from Codex to Claude Code again.

在真實場景的軟體工程測試 SWE-Bench Verified 里，它是頭一個拿到 80% 以上分數的模型。

Opus 4.5 的代碼質量全面升級，在 SWE-bench Multilingual 涵蓋的八種編程語言裡，它在其中七種都拔得頭籌，表現相當亮眼。

贊助商廣告

而舉例而言，Anthropic 團隊把 Opus 4.5 扔進了公司招性能工程師時用的高難度測試題里，結果在規定的兩小時內，Claude Opus 4.5 的得分超過了所有人類候選人。

雖然編程測試只能衡量技術能力和時間壓力下的判斷力，那些多年經驗積累出來的直覺、溝通協作能力，這些同樣重要的質素並不在考察範圍內。

除卻軟體工程，Claude Opus 4.5 的整體能力也迎來了全面開花，在視覺、推理和數學方面都比前代模型強，並且在多個重要領域都達到了業界領先水平：

更關鍵的是，模型的能力甚至開始超越現有的一些評測標準了。

在智能體能力測試 τ²-bench 里就出現了這麼個場景：測試設定模型扮演航空公司客服，幫一位焦慮的乘客。

按照規則，基礎經濟艙機票是不能改的，所以測試預期模型會拒絕乘客的請求。結果 Opus 4.5 想出了一個巧妙方案：先把艙位從基礎經濟艙升級到普通經濟艙，然後再改航班。

這辦法完全符合航空公司政策，卻不在測試的預期答案範圍內。從技術角度說，這算是測試失敗了，但這種創造性解決問題的方式，恰恰展現了 Opus 4.5 的獨特之處。

當然了，在另一些場景下，這種「鑽規則空子」的行為可能就不那麼受歡迎了。如何防止模型以非預期方式偏離目標，這是 Anthropic 安全測試重點關注的方向。

Claude 無處不在，桌面、瀏覽器、Excel 全接入

隨著 Opus 4.5 的推出，Claude Code 獲得了兩項重大更新。

計劃模式（Plan Mode）現在能生成更精確的執行計劃了，Claude 會在操作前主動提澄清性問題，然後生成一個用戶可編輯的 plan.md 文件，再根據這計劃執行任務。

此外，Claude Code 現在已經登陸桌面應用了。你可以同時跑多個本地或遠程會話，比如一個智能體負責修代碼錯誤，另一個負責在 GitHub 上檢索資料，第三個就更新項目文檔。

贊助商廣告

對於 Claude 應用用戶來說，長對話不會再被打斷了。Claude 會在需要的時候自動總結早期上下文，讓對話持續下去。

Anthropic 研究產品管理負責人 Dianne Na Penn 在接受採訪時表示：

「我們在 Opus 4.5 的訓練過程中提升了對長上下文的整體處理能力，但光有更長的上下文窗口是不夠的。知道哪些資訊值得記住，同樣非常關鍵。」

這些改進也實現了 Claude 用戶長期呼籲的一項功能：「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷，模型會自動壓縮上下文記憶，而不用提醒用戶。

Claude for Chrome 也已經向所有 Max 用戶開放了，可以讓 Claude 直接在瀏覽器多個標籤頁之間執行任務。

Claude for Excel 的 Beta 測試範圍已經擴展到 Max、Team 和 Enterprise 用戶了。

對於能使用 Opus 4.5 的 Claude 和 Claude Code 用戶，Anthropic 已經取消了和 Opus 相關的使用上限。
對於 Max 用戶和 Team Premium 用戶，Anthropic 也提高了整體使用限額，用戶可使用的 Opus token 數量與之前使用 Sonnet 時大致相同。隨著未來更強模型的出現，配額也會根據情況相應更新。

讓模型「更聰明也更省」，Opus 4.5 迎來底層大升級

隨著模型變得更聰明，它們能用更少的步驟解決問題：減少反覆試錯、降低冗餘推理、縮短思考過程。

Claude Opus 4.5 和前代模型比，在實現相同甚至更優結果的情況下，用的 tokens 數量明顯少了。

當然了，不同任務需要不同的平衡。

有時開發者希望模型能持續深入思考，有時又需要更快速靈活的響應。

所以，API 里新加了一個叫 effort 的參數，讓你可以根據需求選：要麼優先省時間和成本，要麼最大化模型能力。任君選擇。
當設置為中等 effort 等級時，Opus 4.5 在 SWE-bench Verified 測試中和 Sonnet 4.5 的最佳成績持平，但輸出 tokens 數減少了 76%。

而在最高 effort 等級下，Opus 4.5 的表現比 Sonnet 4.5 高出 4.3 個百分點，同時還減少了 48% 的輸出量。

贊助商廣告

憑藉 effort 控制、上下文壓縮（context compaction）和高級工具調用能力，Claude Opus 4.5 能跑更久、完成更多任務，而且需要的人工干預更少了。

此外，真正的 AI 智能體需要在成百上千種工具之間無縫協作。

想像一個 IDE 助手集成了 Git、文件管理、測試框架和部署流程，或者一個運營智能體同時連著 Slack、GitHub、Google Drive、Jira 和幾十個 MCP 編程測試碾壓人類ClaudeOpus45深夜突襲AI編程進入超人時代伺服器。

問題在於，傳統方式會把所有工具定義一次性塞進上下文。拿連接五個伺服器的系統來說，GitHub 需要 26K tokens，Slack 需要 21K tokens，Sentry、Grafana、Splunk 加起來又是 8K tokens。

對話還沒開始呢，就已經占了 55K tokens 了。要是再加上 Jira，輕鬆突破 100K tokens。更麻煩的是，當工具名字相似時，模型容易選錯工具或者傳錯參數。

Anthropic 推出了三項新功能來解決這些問題。

Tool Search Tool 讓 Claude 按需動態發現工具，只加載當前任務需要的部分，token 使用量能減少約 85%。

Programmatic Tool Calling 讓 Claude 在代碼里直接調用工具，避免每次調用都要完整推理一遍。

Tool Use Examples 則提供統一標準，通過示例而不是 JSON schemas 來展示工具的正確用法。

內部測試顯示，啟用 Tool Search Tool 後，Opus 4 在 MCP 測試中的準確度從 49% 提升到 74%，Opus 4.5 從 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數據，而不會讓上下文窗口過載。

Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體（agent）任務中的表現。

Opus 4.5 還能高效管理多個子智能體（subagents），從而搭建複雜且協調良好的多智能體系統。在測試中，結合這些技術後，Opus 4.5 在深度研究類評估中的表現提升了將近 15 個百分點。

開發者平台（Developer Platform）也在持續變得更具可組合性，希望提供靈活的「模組化構建」能力，讓你能根據具體需求自由控制模型的效率、工具使用和上下文管理，搭建出理想的智能系統。

贊助商廣告

雖然這次 Opus 4.5 的升級足夠亮眼，但一個越來越清晰的趨勢是：不同模型的「性格」差異正在被放大。

從 Claude 過往的產品線來看，Opus 這類「超大杯」依舊最擅長編程、系統級操作、結構化推理；但如果是文案工作，Sonnet 的表現和性價比往往更對路。

這次發布，也再次印證了這一點。

未來選模型，不光要看跑分榜，還得看它的「做事」方式是不是跟你合拍。換句話說，選擇模型，倒是越來越像挑同事了。

附上官方部落格地址：
https://www.anthropic.com/news/claude-opus-4-5