國產大模型廠商的開源浪潮,還在提速。
就在剛剛,智譜正式發布最新旗艦模型 GLM-4.5。按照智譜官方說法,這是一款專為 Agent 應用打造的基礎模型。
延續一貫的開源原則,目前這款模型已經在 Hugging Face 與 ModelScope 平台同步開源,模型權重遵循 MIT License。

省流版:
GLM-4.5 在推理、代碼、智能體綜合能力達到開源模型 SOTA 水平
GLM-4.5 採用混合專家(MoE)架構,3550 億總參數/320 億激活參數;GLM-4.5-Air:總參數量 1060 億,激活參數為 120 億
兩個版本均已全面開源,支持 MIT License
均支持混合推理模式:用於複雜推理和工具使用的思考模式,以及用於即時響應的非思考模式
API 調用價格輸入 0.8 元/百萬tokens、輸出 2 元/百萬tokens;高速版最高可達 100 tokens/秒
GLM-4.5 這次比較大的技術亮點,是首次在單個模型原生融合了推理、編碼和智能體能力。別人家的模型要麼擅長推理,要麼擅長寫代碼,要麼擅長當助手,而 GLM-4.5 說自己全都要。

老規矩,先來看看新模型「跑分」環節。
智譜選了 12 個最具代表性的評測基準來「秀肌肉」,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA、HLE 等等,這些也都是我們的「老熟人」了。結果綜合平均分,GLM-4.5 交出了一份全球模型第三、國產模型第一、開源模型第一的成績單。


當然,光跑分沒用,還是更實戰的測試才有說服力。為了證明 GLM-4.5 在真實場景 Agent Coding 中的實力,智譜乾脆直接接入了 Claude Code,與 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 等模型一較高下。
測試方案相當硬核:總共 52個編程開發任務,涵蓋六大開發領域,全部在獨立容器環境中進行多輪交互測試,主打一個真刀真槍地干。
結果顯示,雖然在面對 Claude-4-Sonnet 時仍有較大的提升空間,但 GLM-4.5 在工具調用可靠性和任務完成度方面的表現還是相當突出。

甚至智譜還把測試題目和 Agent 軌跡全部公開了(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),給我一種歡迎同行來「打假」的即視感。
再來看看幾個比較有說服力的 Demo,含金量也不低。在 z.ai 官方網站簡單輸入提示詞「做一個 Google 搜索網站。」,GLM-4.5 真就能一句話生成一個真的能用的搜尋引擎。

由 GLM-4.5 打造的量子功能箱各項功能齊全,充分展示了模型的綜合能力。

更複雜一點的,還能讓它生成一個可點擊縮放的 3D 地球頁面。用戶可以點擊地點查看詳情,並伴有平滑的縮放動畫。

提示詞:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.
與傳統 AI PPT 工具使用模板填充資訊不同,GLM-4.5 會自主搜索資料、尋找配圖,根據實際材料直接以 HTML 形式編寫圖文。
除了常規的 16:9 比例,還能靈活支持社媒封面、長圖、甚至個人簡歷。

上下滑動查看更多內容
開發者體驗這塊,國產廠商也開始「捲起來」了。比如 GLM-4.5 就兼容 Claude Code、Cline、Roo Code 等主流代碼智能體。完整使用指南看這裡:
國內用戶:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外用戶:
https://docs.z.ai/scenario-example/develop-tools/claude
如果說前面都是「面子」,那技術核心才是 GLM-4.5 真正的「里子」。
冷知識,GLM-4.5 的參數量僅為 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但性能卻不打折,而這背後正是歸功於 GLM 模型更高的參數效率。
尤其是 GLM-4.5-Air,用 106B 總參數 / 12B 激活參數,在推理評測中已經逼近 Gemini 2.5 Flash 與 Claude 4 Sonnet。
在 SWE-bench Verified 榜單上,它還位列性能/參數比的帕累托前沿——換句話說,用更少的體量,跑出了更優的性價比。

性能提升的背後,則離不開訓練過程的「大力出奇蹟」。GLM-4.5 和 GLM-4.5-Air 使用了相似的訓練流程:首先在 15 萬億 token 的通用數據上進行了預訓練。
接著在代碼、推理、Agent 等領域的 8 萬億 token 數據上進行了針對性訓練,最後通過強化學習進一步增強了模型的推理、代碼與智能體能力。有錢有資源,確實可以為所欲為。

此外,GLM-4.5 在成本和效率上的突破可能更具殺傷力。
API 調用價格低至輸入 0.8 元/百萬 tokens,輸出 2 元/百萬 tokens,同時,高速版本實測生成速度最高可至 100 tokens/秒,支持低延遲、高並發的實際部署需求,真·價格屠夫。
目前,API 已上線開放平台 BigModel.cn,一鍵兼容 Claude Code 框架。普通用戶也可以上智譜清言 (chatglm.cn) 和 Z.ai 體驗滿血版 GLM-4.5。
值得一提的是,上個月,OpenAI 在旗下的 Global Affairs 賬號發表的報告中,也是直接點名智譜,稱其在全球 AI 競賽中取得了顯著進展,語氣可以說是罕見直白。
回過頭來看,智譜算是增長勢頭比較穩定的廠商。節奏一直沒亂,模型疊代跟得上、開源尺度放得開,方向感也不飄。
這麼看來,它能成為「AI 六小龍」中第一個啟動 IPO 的玩家,也就不那麼意外了。