Claude Opus 4.6 一天之內被超越兩次，這次來自中國模型

前兩天 APPSO 提到，大模型即將迎來史上最殘酷的一個月，這就來了。

贊助商廣告

而Claude Opus 4.6 「不幸」成為背景板，一天之內被超越兩次。

早上 Anthropic 發布了 Claude Mythos Preview，在 SWE-bench Pro 上拿下 77.8%，把 Opus 4.6 的 57.3% 甩在身後。這個分數意味著它能在真實 GitHub 倉庫里定位並修復高難度工程 Bug，已經超過了絕大多數人類程序員。

可 Mythos Preview 暫時不對普通用戶開放，與此同時，另外一個超 Opus 4.6 的模型出現了——智譜開源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%，超過 Opus 4.6 的 57.3%，也超過 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也發推祝賀：「SWE-Bench Pro 上表現最好的模型現在在 HuggingFace 上開源了！歡迎 GLM 5.1！」

The best performing model on SWE-Bench Pro is open-source on @huggingface ! Welcome GLM 5.1!

全球第三，開源第一。雖然沒等來 DeepSeek V4，但開源新一哥還是來了，依然是我們中國大模型。

說實話，我第一反應是又來了，大模型的「榜單狂歡」，每次發布會都是「史詩級進步」，各家模型在榜單上各領風數小時，這次的劇本有什麼不同呢。

APPSO 看完 GLM-5.1 的技術細節和體驗後，帶你看看這個模型是什麼水平

從 20 步到 1700 步，持續工作 8 小時

GLM-5.1 最讓人沒想到的，不是跑分，是它能工作多久。

智譜有個一個案例讓我印象比較深。8 小時從零構建 Linux 桌面系統。不是寫幾個 demo 文件那種「構建」，是真的從零開始，畫架構、寫代碼、跑測試、修 bug，歷時 8 小時整，執行了 1200 多步，最後產出了一套功能完善的 Linux 桌面系統。

包括完整的桌面、窗口管理器、狀態欄、應用程式、VPN 管理器、中文字體支持、遊戲庫，4.8MB 的配套文件。這相當於一個 4 人團隊一周的工作量。

全程沒有人參與測試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測試，而且跑過了。

贊助商廣告

知乎程序員博主 Toyama nao 做了個更狠的測試。他給 GLM-5.1 扔了三個工程項目：用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發全功能聊天軟體同時用 Golang 開發服務端、自選技術棧開發純網頁端影片剪輯應用。每個項目跑 10-12 輪提示詞，每輪 1500-2000 字。

結果 GLM-5.1 成為第一個通過他全部測試工程的中國模型，也是第一個正式超越 Sonnet 4.5 Thinking 的中國模型。

他的評價是：「GLM-5.1 大幅擴展了編程的適應範圍，不再是前端 only 戰神，也不只是 oneshot 樣子貨，是可以在複雜工況下充當編程主力。」但他也指出了問題：「超長上下文時容易幻覺爆炸，如果遇到 2 輪改不好一個問題，不要抱有僥倖，直接重開。」

去年年底，AI 智能體大約只能完成 20 個步驟。GLM-5.1 現在可以完成 1700 個步驟。這是模型能不能真正「獨立工作」的分水嶺。

智譜在技術報告裡解釋了關鍵突破點：以前的模型，包括 GLM-5，會在早期快速取得收益後就進入瓶頸期。它們反覆嘗試已知的優化手段，但無法在一條路走不通時主動切換策略。

GLM-5.1 的訓練目標就是突破這個瓶頸，讓模型能夠在一個固定策略內進行增量調優，當收益趨於停滯時，主動分析 Benchmark 日誌、定位當前瓶頸，然後跳轉到結構性不同的方案。

向量資料庫優化案例就是典型的「階梯型」優化軌跡。GLM-5.1 用了 655 次疊代，把查詢吞吐從 3108 QPS 一路推到 21472 QPS，提升了 6.9 倍。

這個過程中，模型自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由，再到提前剪枝的整套優化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降，因為模型在探索新方向時會暫時打破約束，隨後再調回來。這個「打破-修復」的循環本身就是有效優化的標誌。

在 KernelBench Level 3 優化基準上，GLM-5.1 對 50 個真實機器學習計算負載進行了超過 24 小時的不間斷疊代，最終取得 3.6 倍的幾何平均加速比，顯著高於 torch.compile max-autotune 模式的 1.49 倍。模型自主編寫定製 Triton Kernel 和 CUDA Kernel，運用 cuBLASLt epilogue 融合併實施 shared memory tiling 與 CUDA Graph 優化，覆蓋了從高層算子融合到微架構級調優的完整技術棧。

贊助商廣告

還有一個更有意思的測試：Vending Bench 2。這個基準要求模型模擬經營一年的自動售貨機業務，需要長期規劃和資源管理。GLM-5.1 最終賬戶餘額達到 $4,432，在開源模型中排名第一，接近 Claude Opus 4.5 的水平。

744B 參數，零英偉達晶片，成本降低 97%

GLM-5.1 的技術規格值得細看：744B 參數的混合專家模型（MoE），每個 token 激活 40B 參數，28.5T tokens 訓練數據，集成了 DeepSeek Sparse Attention（DSA）來降低部署成本同時保持長上下文能力。200K 上下文窗口，最大輸出 131,072 tokens。

更關鍵的是，整個模型全部使用華為昇騰 910B 晶片訓練，沒有英偉達 GPU 參與。在算力被卡脖子的情況下，中國模型依然能做到全球第三、開源第一。

開發者 Beau Johnson 把自己部署的 OpenClaw 背後的模型從 Claude Opus 4.6 切換到 GLM-5.1，體驗上沒有任何差別，但成本從 1000 美元暴砍至 30 美元左右，降低了 97%。GLM-5.1 的輸入成本是 Claude Opus 的 1/5，輸出成本是 1/8。簡單來說：接近 Opus 的能力，20% 的價格。

I made the switch to GLM 5.1 from Opus 4.6 in my @openclaw setup after 50 days here's the results. Keep in mind I only use Opus 4.6 as my coordination and execution agent inside of OpenClaw. The reason why is because it was way more personable. It understood my configuration better than other models. But switching to GLM 5.1 after the last 24 hours, I really can't tell the difference. I'm on the $30/month pro plan and as far as the coordination execution, it hasn't skipped a beat. I know a lot of people are kind of freaking out now, wondering what to do but I was on pace to spend over $1,000 a month using Opus or Sonnet as my daily driver in OpenClaw. So if you're wanting to cut costs at least give GLM 5.1 a try. Keep in mind I still use Claude Code and Opus for coding tasks within Cursor. But as far as an execution coordination model, GLM 5.1 is my daily driver going forward.
贊助商廣告

而且GLM-5.1 是開源的。MIT License，最寬鬆的開源許可證之一。你可以拿去改，拿去商用，拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架，可以直接在本地部署。

當然 GLM-5.1 也不是沒有提升的空間，部分開發者反饋，GLM-5.1 的推理速度只有 44.3 tokens/秒，在同類產品沒太大優勢。複雜任務甚至要一小時起步，哪怕 Pro 套餐額度是 Claude 的 15 倍，也可能不太夠用。

這些問題都是真實存在的。GLM-5.1 不是完美的，但這不妨礙它成為一個里程碑。

GLM-5.1 的意義，不在於它比 Opus 4.6 強多少，而在於它證明了，在算力被卡脖子的情況下，中國模型依然能做到開源第一。而且它是開源的，任何人都可以用，任何人都可以改。

你睡覺的 8 小時，現在可以是 AI 上班的 8 小時了。而且這個 AI ，是開源的，是中國的，是任何人都可以用的。

附體驗方式

1. 官方API接入