事實證明，全程充分利用 AI 大腦並非運行模型的最高效方式

特色如果你這幾年一直在關注 AI 發展，你會發現一個不變的趨勢：模型越大通常越聰明，但運行起來也更困難。

贊助商廣告

這一點在那些受限於美國最先進 AI 晶片使用的地區尤其成問題——例如中國。

即使在中國之外，模型構建者也越來越多地轉向混合專家 (MoE) 架構，並輔以新興的壓縮技術，以降低部署大語言模型 (LLMs) 時所需的計算資源。自從 ChatGPT 引發生成式 AI 熱潮近三年以來，人們終於開始考慮這些模型運行成本的問題。

需要明確的是，我們之前見過像 Mistral AI 的 Mixtral 這樣的 MoE 模型，但直到最近一年左右，這項技術才真正開始流行起來。

在過去幾個月中，我們看到來自 Microsoft、Google、IBM、Meta、DeepSeek 事實證明，全程充分利用 AI 大腦並非運行模型的最高效方式和 Alibaba 等公司的新一代開源權重大語言模型湧現，它們均基於某種混合專家 (MoE) 架構。

原因很簡單：這種架構比傳統的「密集型」模型架構高效得多。

突破內存瓶頸

最早在 90 年代初的一篇題為 "Adaptive Mixtures of Local Experts" 的論文中就描述了這一基本思想，其核心理念是，與其使用一個在各方面都有所涉獵的龐大模型，不如將工作分配給任意數量的小型子模型或「專家」。

理論上，每個專家都可以針對某個特定領域的任務進行優化，比如編程、數學或者寫作。不幸的是，很少有模型構建者詳細說明構成其 MoE 模型的各個專家，且每個模型中專家的數量也各不相同。關鍵點在於，在任一時刻，只有模型的一小部分在被調用。

例如，DeepSeek 的 V3 模型由 256 個路由專家以及一個共享專家組成。但每個 Token 只會激活 8 個路由專家，加上共享專家。

正因為如此，MoE 模型在質量上往往無法與同等規模的密集型模型相提並論。例如，阿里巴巴的 Qwen3-30B-A3B MoE 模型在阿里巴巴自家基準測試中始終落後於密集型的 Qwen3-32B 模型。

如果基準測試結果可信，相較於 MoE 架構所帶來的效率飛躍，這種質量損失顯得微不足道。較少的激活參數也意味著，為達到某一性能水平所需的內存帶寬不再與存儲模型權重所需的容量成正比。

贊助商廣告

換句話說，MoE 模型或許依舊需要大量內存，但並非所有內存都必須是超高速或價格極高的 HBM。

為說明這一點，我們來比較一下 Meta 最大的密集型模型 Llama 3.1 405B 與幾乎同等大小但採用 MoE 架構、擁有 170 億激活參數的 Llama 4 Maverick 的系統需求。

諸如批處理大小、浮點運算性能以及鍵值緩存等因素都影響實際性能，但我們至少可以通過將模型在給定精度下（8 位模型每個參數 1 字節）以 GB 為單位的大小乘以目標每秒 Token 數（批量大小為一）來大致估算模型的最低帶寬要求。

若要運行 Llama 3.1 405B 的 8 位量化版本——稍後將詳細介紹量化——你需要超過 405 GB 的 vRAM 以及至少 20 TB/s 的內存帶寬，以實現每秒生成 50 個 Token 的文本速度。

作為對照，Nvidia 基於 HGX H100 的系統——我們提醒一下，這類系統直到最近售價通常在 30 萬美元或更多——僅配備 640 GB 的 HBM3 和大約 26.8 TB/s 的總帶寬。如果你想運行完整的 16 位模型，還至少需要兩台這樣的系統。

相比之下，Llama 4 Maverick 占用相同內存，但僅需要不到 1 TB/s 的帶寬便能達到相同性能。這是因為僅有相當於 170 億參數的模型專家用於生成輸出。

這意味著，在同樣的硬體上，Llama 4 Maverick 生成文本的速度應比 Llama 3.1 405B 快一個數量級。

另一方面，如果性能並非最關鍵的問題，你現在可以用更便宜、雖然速度較慢的 GDDR6、GDDR7 甚至在 Intel 最新 Xeon 系列中使用的 DDR 來運行許多這些模型。

Nvidia 本周在 Computex 上宣布的全新 RTX Pro 伺服器正是針對這一需求而設計。與昂貴、耗電且需要先進封裝技術集成的高帶寬內存 (HBM) 不同，這些系統中每台包含的 8 個 RTX Pro 6000 GPU 都配備了 96 GB 的 GDDR7 內存——這與現代遊戲顯卡中所使用的內存相同。

綜合來看，這些系統總共提供高達 768 GB 的 vRAM 和 12.8 TB/s 的總帶寬——完全足以支持 Llama 4 Maverick 在每秒數百個 Token 的情況下平穩運行。

贊助商廣告

Nvidia 尚未公布定價，但考慮到這類顯卡的工作站版本目前零售價格在 8,500 美元左右，我們不會驚訝如果它們的售價低於以前 HGX H100 的一半。

話雖如此，MoE 並不意味著 HBM 堆疊 GPU 的時代就此終結。我們不指望會看到 Llama 4 Behemoth（假設它最終會發布）在不使用一整架 GPU 伺服器的情況下運行。

儘管其激活參數僅約為 Llama 3.1 405B 的一半，但其總參數量達到了 2 萬億。如今市場上沒有一台傳統 GPU 伺服器能夠容納完整的 16 位模型及隨之而來的百萬 Token 以上的上下文窗口。

CPU 終於迎來了 AI 的春天了嗎？

根據您的使用場景，您甚至可能完全不需要 GPU——這在高端加速器進口受限的地區顯得尤為有用。

今年四月，Intel 展示了一個配備全套 8800 MT/s MCRDIMM 的雙路 Xeon 6 平台，在運行 Llama 4 Maverick 時實現了每秒 240 個 Token 的吞吐量，且平均每個 Token 的輸出延遲不到 100 毫秒。

簡單來說，這個平台能夠為大約 24 個並發用戶保持每用戶每秒 10 個或更多的 Token。

Intel 未公布單用戶（批次為 1）的性能數據——這也不是什麼特別重要的現實指標——但粗略計算顯示，單用戶性能最多大約為每秒 100 個 Token。

話雖如此，除非你沒有更好的選擇或者有非常特殊的需求，否則基於 CPU 的推理運算經濟性仍在很大程度上取決於你的具體使用場景。

裁剪權重：剪枝與量化

MoE 架構確實能降低部署大型模型時所需的內存帶寬，但它們對保存權重所需的內存容量並無幫助。正如前文所提，即便在 8 位精度下，Llama 4 Maverick 仍需超過 400 GB 的內存來運行，不管有多少參數處於激活狀態。

然而，新興的剪枝技術和量化技術在稍作改進後，有望在不影響質量的前提下將內存需求減半。

Nvidia 已經押注於剪枝技術有一段時間了。這家 GPU 巨頭已發布了多款經剪枝的版本——這些模型將冗餘或較不重要的權重剔除——基於 Meta 的 Llama 3 模型。

贊助商廣告

此外，Nvidia 還是首批在 2022 年擴展對 8 位浮點數據類型支持的廠商之一，並且在 2024 年以其 Blackwell 架構的發布再次支持了 4 位浮點數據類型。與此同時，AMD 首批支持原生 FP4 的晶片預計下月問世。

雖然原生硬體支持這些數據類型不是絕對必要，但通常能降低在大規模部署時遇到運算瓶頸的可能性。

與此同時，我們已經看到多家模型構建者開始採用低精度數據類型，包括 Meta、Microsoft、Alibaba 以及其他提供八位甚至四位量化版本模型的公司。

我們之前已經深入探討過量化，但簡單來說，其核心在於將模型權重從原生精度（通常為 BF16）壓縮到 FP8 或 INT4。這有效地將模型的內存帶寬和容量需求減半甚至四分之一，但以犧牲一定的質量為代價。

總體上，從 16 位降到 8 位所引起的質量損失通常不明顯，而一些模型構建者（DeepSeek 在內）甚至從一開始就採用了 FP8 精度進行訓練。但如果再減少 4 位，質量損失就會相當顯著。因此，許多後訓練的量化方法，如 GGUF，不會對所有權重一視同仁，而是保留部分權重在更高精度下，以限制損失。

上個月，Google 展示了量化感知訓練 (QAT) 技術，將其 Gemma 3 模型壓縮了 4 倍，同時仍達到接近原生 BF16 的質量。

QAT 的原理是在訓練過程中模擬低精度運算。Google 表示，對一個未經校準的模型進行大約 5,000 步的 QAT 處理後，在轉換為 INT4 時，其困惑度（用于衡量量化損失的指標）的下降幅度減少了 54%。

另一種基於 QAT 的量化方法名為 Bitnet，目標更低，將模型壓縮到僅 1.58 位，約為原始大小的十分之一。

整合各項技術

將 MoE 與 4 位量化技術結合使用時，在受到 Blackwell Ultra 嚴苛價格衝擊而導致的帶寬限制，或者因為「Uncle Sam」的貿易政策使 HBM 比黃金更為珍貴的情況下，效果尤為顯著。

對於其他所有情況，這兩項技術中的任意一種均可以顯著降低運行更大、更高性能模型的設備和運營成本——前提是你能找到它們的有價值用途。

贊助商廣告

如果找不到，你至少可以從中得到一些安慰：最近 IBM 對 2,000 位 CEO 的調查顯示，只有四分之一的 AI 部署實現了其所承諾的投資回報。