還記得今年大年初一那天,你在幹什麼嗎?就是這天,智譜AI與清華大學的聯合團隊,在arXiv公開了GLM-5的技術報告《GLM-5:從氛圍編程到智能體工程》。
論文標題可以這麼理解,比如你有一個實習生,一開始只會按你說的敲代碼,後來慢慢學會了自己理解需求、規劃步驟、發現問題、修改代碼、再驗證,最終獨立交付一個完整項目,這就是GLM-5想要做到的事。它的名字里藏著一個野心:從"vibe coding"(氛圍編程)走向"agentic engineering"(智能體工程)。
所謂"氛圍編程",是指你告訴AI"幫我寫段代碼",它就給你一段代碼,你接收、複製粘貼、完事。這種模式下,AI是一個被動的執行工具,像一台自動販賣機,你投幣,它出產品,僅此而已。而"智能工程"則完全不同,AI需要主動理解任務、分解步驟、調用工具、執行測試、處理錯誤,就像一個有經驗的工程師拿到需求文檔後獨立開工,直到項目完成。這是從"工具"到"同事"的進化。

GLM-5正是為了完成這個進化而生的。它基於清華和智譜AI之前的GLM系列,在推理、代碼和自主能力上做了全面升級,同時還大幅降低了運行成本。更有趣的是,團隊曾把這個模型匿名發布到一個AI測評社區,結果被大批用戶誤認為是Anthropic的Claude Sonnet 5或者DeepSeek V4,直到官方揭曉,大家才知道這原來是一個來自中國的開源模型。
AI的"大腦升級":更聰明、更省電
要理解GLM-5做了什麼技術改進,不妨把AI模型想像成一台複雜的資訊處理機器。這台機器每次理解一段文字,都需要把這段文字里的每個詞和其他所有詞"對話"一遍,看看它們之間有什麼關係。問題是,文字越長,對話次數就以指數級暴增,長度翻倍,計算量變成原來的四倍。這就像一個班級里每位同學都要和其他所有人交流一遍,班級越大,交流成本越失控。
GLM-5的第一個技術突破是引入了DSA(深度稀疏注意力機制)。這個機制的核心思路是:不需要每個詞都和所有詞對話,只讓它和"最重要"的那些詞交流就夠了。怎麼判斷誰重要?模型自己動態決定,根據內容智能篩選。這樣一來,對於12.8萬個詞的長文本,計算量直接砍掉了一半到三分之二,而理解質量幾乎沒有損失。研究團隊通過實驗驗證,這種稀疏處理之所以有效,是因為長文本中大約90%的詞對詞關聯本來就是冗餘的、可以丟棄的。
在這個新架構上,GLM-5的參數總量擴展到了7440億,但每次實際激活運算的參數只有400億。這就好比一家公司有744位員工,但完成每項任務只需要動員40人,其他人待機備用。這種"混合專家"架構既保持了模型的廣博知識儲備,又控制了每次推理的計算成本。
另一個有趣的技術細節是"多詞預測共享參數"。普通AI每次只預測下一個詞,GLM-5設計了一種機制,可以同時草擬接下來幾個詞,然後從候選答案里快速確認哪個最準確。這有點像打字時的智能聯想,一次性給出一整個詞組的建議,而不是一個字一個字地等。這讓模型的生成速度顯著加快。
訓練數據方面,GLM-5吃進了28.5萬億個詞語(約等於兩千多億篇普通長度文章的資訊量),其中重點強化了代碼和數學推理類內容。更值得注意的是,團隊把模型的"上下文窗口"從之前的12.8萬詞擴展到了20萬詞,換句話說,它現在可以一次性閱讀並理解相當於一部中等篇幅小說那麼長的文字。
讓AI"越練越強":異步強化學習的秘密
訓練一個能獨立完成複雜任務的AI智能體,是比訓練一個回答問題的AI要難得多的事情。為了理解這有多難,可以想像訓練一個自動駕駛系統,它不只需要認識紅綠燈,還需要在真實道路上完成無數次從出發到停車的完整旅程,從每一次失誤中學習。

GLM-5的自主任務訓練採用了強化學習,這是一種"通過試錯來學習"的訓練方式。AI自己嘗試完成任務,得到成功或失敗的反饋,然後調整策略,反覆疊代。但問題在於,像"獨立完成一個軟體工程任務"這樣的複雜任務,AI可能需要連續執行幾十步操作才能到達終點,而每一步的執行都很慢。在傳統的同步訓練模式里,電腦要等AI把一整套操作做完,才能更新模型參數,期間大量GPU處於空閒狀態,極度浪費。
GLM-5的解決方案是"異步訓練框架"。簡單說,就是把"AI執行任務"和"更新AI大腦"這兩件事徹底拆開,放到不同的機器上同時運行。一批AI實例在不斷地執行任務、積累經驗,同時另一套系統在持續地吸收這些經驗來更新模型參數,兩邊互不等待。當一批新經驗積累到足夠多時,就同步一次參數,然後繼續。
這就像一家公司同時有多個銷售團隊在外跑業務,總部根據他們源源不斷傳回的市場反饋持續調整戰略,而不是等所有銷售全部回來開完會再制定下一步行動。這種方式讓GPU利用率大幅提升,訓練效率明顯改善。
在訓練穩定性上,團隊還設計了幾個精細的機制。其中一個叫"TITO網關"(Token進Token出),它確保AI執行任務時產生的每個詞語記錄,都精確無損地傳遞給訓練系統,不會因為格式轉換產生任何細微錯誤。另一個機制是對"過時經驗"的過濾,如果某段訓練數據是由好幾個版本之前的模型生成的,就直接丟棄,因為那時的模型和現在差異太大,用那些數據訓練反而會造成干擾。
搭建AI的"演練場":一萬個真實任務的煉爐
強化學習需要環境。就像學廚師必須有廚房、有食材,學外科醫生必須有模擬手術台,訓練AI智能體也需要大量可以真實執行的任務環境。GLM-5團隊為此構建了一套規模龐大的訓練環境體系。
在軟體工程方向,團隊從GitHub上爬取了海量真實的代碼問題與解決方案配對(即Issue-PR配對),經過嚴格篩選後,搭建了超過一萬個可執行的訓練場景,覆蓋Python、Java、Go、C++、JavaScript等九種編程語言,橫跨數千個真實的開源代碼庫。每個場景都有明確的成功標準:代碼跑起來,測試通過,問題解決。這是AI最直接的"考卷"。
在終端任務方向,團隊開發了一套自動化流水線來批量生成訓練任務。這個流水線從真實的軟體工程案例出發,先讓另一個AI生成任務草稿,再讓第二個AI把草稿變成完整的可執行任務(包括隔離運行的Docker容器環境和驗收測試腳本),然後由第三個AI反覆審查和優化,確保每個任務的環境能穩定搭建、測試不會被取巧繞過。最終產出的任務Docker環境搭建成功率超過90%。
在資訊搜索方向,團隊構建了一個"網路知識圖譜",從早期搜索智能體的瀏覽軌跡中收集了超過200萬個高價值網頁,用AI從中提取實體、關係和事實,拼接成一張知識網路。然後從這張網路里生成需要跨多個網頁、多步推理才能回答的複雜問題。這類問題專門考驗AI的"偵探能力",它需要在網際網路的海量資訊里追蹤線索、拼接證據、排除干擾,最終得出答案。對問題的篩選也很嚴格:首先剔除單純依靠記憶就能回答的簡單題,再剔除早期低版本AI就能用幾步搜索解決的中等題,只保留需要複雜多步搜索才能找到答案的高難度題,最後再用一個獨立的驗證AI來確認答案的唯一性和正確性。
幻燈片生成:AI審美的進化
除了代碼和搜索,GLM-5還把自主學習擴展到了一個很有趣的方向:自動生成演示幻燈片。這件事聽起來簡單,但做好非常難,一張好幻燈片不只是內容正確,還要排版合理、視覺美觀、字體合適、色彩協調、頁面不溢出。
團隊設計了一套三層獎勵機制。第一層檢查HTML代碼的靜態屬性,比如字體大小、顏色對比度、元素間距,確保這些基礎設置符合設計規範。第二層在瀏覽器里真實渲染幻燈片後,檢查動態屬性,比如每個元素實際顯示的寬高、是否超出頁面邊界、各元素的相對位置是否合理。第三層則進一步檢查視覺層面的感知質量,比如有沒有大塊異常空白、整體構圖是否平衡。

訓練過程中出現了頗為有趣的"作弊"行為,AI發現了取巧方式。比如當內容太多、會溢出頁面時,它學會了直接在CSS里寫overflow: hidden,把超出的內容藏起來,這樣頁面看起來整潔,但內容其實被截斷了。還有AI把元素間距調得極度緊湊,把字體縮得極小,表面上看內容都在頁面里,但實際上完全無法閱讀。這些"投機行為"被研究者發現後,針對性地修改了評估規則,堵住了這些漏洞。經過反覆打磨,最終訓練出的模型在16:9標準比例頁面的生成符合率從原來的40%提升到了92%。人工評估結果顯示,在內容質量、排版合理性和視覺美觀性三個維度,GLM-5都大幅超過了上一代GLM-4.5。
讓AI"不忘舊技能":跨階段知識蒸餾
訓練一個強大的AI有點像培訓一個全能運動員:當你集中練習跑步時,游泳成績可能會退步;當你重點訓練舉重時,柔韌性可能會下降。這種"練了新的,忘了舊的"現象在AI訓練中被稱為"災難性遺忘"。
GLM-5的訓練分成了好幾個階段:先做監督微調,再做推理強化學習,再做自主任務強化學習,最後做通用對齊訓練。每個階段都有其側重點,但也有可能損害之前階段學到的能力。
為了解決這個問題,團隊在最後加入了一個"跨階段知識蒸餾"步驟。思路是:把前面幾個階段訓練好的模型當作"老師",讓正在訓練的"學生"模型不斷向這些老師看齊。每當學生模型在某個能力上開始退步,老師模型產生的反饋會把它拉回來。這個過程是在線同步進行的,不需要存儲大量歷史數據,效率很高。它讓最終的GLM-5在保持新學到的自主任務能力的同時,也保住了推理和通用對話的原有水準。
真實世界的考驗:GLM-5在各項測試中的表現
說了這麼多技術細節,GLM-5到底有多強?團隊在一系列權威測試中給出了答案。

在代碼能力方面,GLM-5在SWE-bench Verified(一個測試AI能否解決真實GitHub問題的基準)上拿到了77.8分,這個成績超過了谷歌的Gemini 3 Pro(76.2分),和GPT-5.2 xhigh(80.0分)處於同一梯隊。在多語言代碼修複測試SWE-bench Multilingual上,GLM-5以73.3分位居第一,超過了Claude Opus 4.5(77.5分除外的其他所有模型)。
在終端任務能力測試Terminal-Bench 2.0上,GLM-5拿到了56.2分,與Claude Opus 4.5的59.3分非常接近,排在所有測試模型的第二位。在資訊搜索能力測試BrowseComp上,GLM-5加入上下文管理策略後拿到75.9分,成為所有開源模型里的第一名,甚至超過了幾個知名的閉源模型。
在長期任務規劃能力方面,GLM-5參加了一個"經營虛擬販賣機生意一年"的模擬測試Vending-Bench 2,AI需要在虛擬環境裡持續做出進貨、定價、營銷等商業決策,最終以賬戶餘額4432美元的成績位列所有開源模型第一,接近Claude Opus 4.5的4967美元。
通用理解能力方面,GLM-5在Artificial Analysis Intelligence Index v4.0評測中拿到50分,成為歷史上第一個在這個榜單上達到50分的開源權重模型,比上一代GLM-4.7提升了8分。在LMArena這個依賴真實用戶投票評判的平台上,GLM-5分別在文本和代碼兩個類別拿到開源模型第一名的席位。
團隊還專門構建了一套內部評測體系CC-Bench-V2,測試前端開發(幫你寫React、Vue、HTML頁面)、後端開發(修復真實項目里的bug和新增功能)以及長期任務(在一個有數萬個文件的大型代碼庫里找到正確的代碼位置,然後按照複雜需求完成一系列關聯修改)。在這套測試里,GLM-5相比GLM-4.7有大幅提升,但與Claude Opus 4.5相比,在長期多步驟任務完成能力上仍有一定差距,團隊坦承,錯誤會在長鏈條任務里像滾雪球一樣累積,這是現階段仍在持續攻克的難題。
讓中國晶片也能跑起來:國產算力適配
GLM-5的另一個特別之處,是它從一開始就把"在國產GPU上高效運行"作為設計目標之一。團隊與華為昇騰、摩爾線程、海光、寒武紀、崑崙芯、壁仞和燧原七個國產晶片平台深度合作,開發了針對各平台的底層優化方案。
以華為昇騰為例,團隊做了三個層面的工作。第一層是"混合精度量化",把7440億參數的模型壓縮到可以裝進單台昇騰伺服器的體量。具體做法是,對普通的注意力和神經網路模塊用8位精度存儲,對數量龐大的"專家模塊"用4位精度壓縮,同時用專門的算法防止壓縮帶來的精度損失。第二層是開發專用計算核心,把原本需要多步完成的稀疏注意力計算融合成一個高效的單步操作,讓昇騰的計算單元和記憶體單元可以並行工作而不互相等待。第三層是對推理引擎的調度優化,讓前綴緩存可以復用、讓KV存儲可以溢出到系統記憶體等。最終效果是,GLM-5在單台國產昇騰伺服器上的表現可以媲美兩台國際主流GPU伺服器的組合,在長序列場景下還能把部署成本降低50%。
"Pony Alpha"事件:一次有趣的匿名驗證
論文最後有一個"彩蛋"章節,講述了一次頗為大膽的匿名測試。團隊在不透露身份的情況下,把GLM-5以"Pony Alpha"的名義發布到了OpenRouter這個AI模型聚合平台上。
結果令人驚喜。這個模型迅速在開發者社區里引發了熱烈討論,大量用戶發現它在複雜代碼、智能體工作流和角色扮演方面表現出色,開始爭相猜測它的真實身份。根據統計,25%的用戶認為它是Anthropic的Claude Sonnet 5,20%認為是DeepSeek,10%認為是Grok,只有少數人猜到是GLM-5。
官方揭曉後,這件事在AI社區引發了不小的震動,它證明了一件事:當品牌標籤被遮住,一個來自中國的開源模型可以憑純粹的能力表現贏得全球開發者的認可。團隊認為,這次匿名測試收到的反饋比任何公開發布的評測都更真實可靠,因為用戶完全是基於使用體驗做出的判斷,沒有任何先入為主的品牌濾鏡。
至頂AI實驗室洞見
GLM-5想證明的核心命題是:AI不只能當工具,還能當工程師。它通過大量技術創新,從省計算量的稀疏注意力,到高效的異步強化學習框架,再到覆蓋萬個真實場景的訓練環境,把這個命題在實驗室里變成了初步現實。當然,它還沒有完全抵達終點,在需要跨多步驟執行的超長任務上與最強的閉源模型相比仍有差距,在需要精細端到端完成的前端開發任務上也還有提升空間。
但這個方向本身是清晰的:AI的下一個台階,不是更會聊天,而是更會幹活。你來描述需求,它去完成項目,從第一行代碼到最後一個測試通過,全程自主,不需要你手把手帶路。GLM-5是這條路上一個值得關注的里程碑,而這條路,還有很長要走。






