DiffusionGemma發布：本地AI推理速度提升4倍

谷歌 DeepMind 近日發布了 Gemma 4 開源模型家族的全新成員，但這款名為 DiffusionGemma 的模型與同系列其他產品存在本質區別。DiffusionGemma 不像大多數 AI 模型那樣以線性方式逐步生成內容，而是能夠並行生成整段文本。谷歌表示，這一特性使其在本地硬體（如 Nvidia DGX 或普通遊戲顯卡）上運行時速度更快、效率更高。

贊助商廣告

與自回歸模型的本質區別

目前大多數 AI 模型採用自回歸設計，即從左到右逐個 Token 生成文本。DiffusionGemma 的工作方式則更接近圖像生成模型——先從噪聲狀態出發，再通過去噪過程生成目標內容。該模型在整個文本畫布上設置一系列占位 Token，多次疊代後逐步生成最可能的 Token，並利用這些結果持續優化其他位置的預測。最終，模型將所有 Token 輸出匯聚為一個完整的文本塊，也就是經過"去噪"處理後的文本畫布。

DiffusionGemma 在谷歌開源模型中體量相對較大，採用混合專家（MoE）架構，總參數量達 260 億，但推理時僅激活 38 億參數。這意味著它可以在 18GB 顯存的高端 GPU 上運行。在 RTX 5090 的測試中，DiffusionGemma 的輸出速度約為每秒 700 個 Token；配合單張 Nvidia H100 AI 加速卡，速度更可突破每秒 1000 個 Token。這大約是同等規模自回歸 Gemma 模型輸出速度的四倍。

並行生成的優勢場景

DiffusionGemma 的文本生成方式將性能瓶頸從內存頻寬轉移至計算能力，每次可並行生成最多 256 個 Token。谷歌表示，這在內聯編輯、分子序列分析和數學圖形處理等非線性任務中帶來了顯著提升。以數獨謎題為例，DiffusionGemma 被調優後能夠有效求解此類問題——這對標準自回歸 AI 模型來說極具挑戰性，因為每個 Token 都依賴於後續 Token 的資訊。DiffusionGemma 能夠對大量 Token 進行持續自我校正，從而大幅降低了這類任務的難度。

本地高效運行的多種路徑

既然擴散式方法速度更快，為何谷歌沒有將其用於雲端的大型 Gemini 模型？谷歌曾對此進行過探索，但文本擴散存在若干局限，其中包括較高的錯誤率。在圖像擴散模型中，單個像素預測失誤不會讓整張圖片失去價值，但語言是離散的。文本中出現同等級別的錯誤，可能導致一整段 Token 毫無意義，不得不重新生成。此外，當目標輸出僅有少量 Token 時，擴散模型也會造成資源浪費——為了最終得出五個 Token，它需要完成大量並行運算，而自回歸模型只需五步即可完成同樣的工作。

贊助商廣告

總體而言，DiffusionGemma 的能力與其他 Gemma 模型相當，但速度更快。

在雲端場景下，自回歸模型可以將大量來自不同用戶的計算任務打包處理，持續高效地輸出 Token，加之雲端系統採用的高頻寬內存（HBM）具備極高的數據傳輸效率，因此自回歸模型在雲端更具優勢。

相比之下，本地 AI 推理由於內存頻寬較低且存在空閒時間，容易產生計算資源浪費。擴散模型能夠更充分地利用可用算力，但這並非提升效率的唯一方式。谷歌近期還開始部署多 Token 預測（MTP）草稿器，利用閒置的計算資源預測可能的 Token 以提升速度，但擴散模型的速度表現仍優於 MTP 版本的 Gemma 模型。

開放下載與硬體優化

谷歌強調，DiffusionGemma 目前仍處於實驗階段，但與所有第四代 Gemma 模型一樣採用 Apache 2.0 許可協議開放使用。用戶現已可從 Hugging Face 下載模型權重。谷歌表示，其與 Nvidia 合作確保 DiffusionGemma 針對多種硬體配置進行了優化，涵蓋高端 RTX GPU（量化版本）以及 H100、DGX Spark 平台等企業級系統。

Q&A

Q1：DiffusionGemma 和普通 Gemma 模型有什麼區別？

A：DiffusionGemma 採用擴散式生成方式，能夠並行生成整段文本，而普通 Gemma 模型是自回歸模型，需要逐個 Token 依次生成。這使得 DiffusionGemma 在本地硬體上的推理速度約為同規模自回歸模型的四倍，在 RTX 5090 上可達每秒約 700 個 Token，配合 H100 可超過每秒 1000 個 Token。

Q2：DiffusionGemma 對硬體配置有什麼要求？

A：DiffusionGemma 是一個混合專家（MoE）架構模型，總參數量 260 億，但推理時僅激活 38 億參數，所需顯存約為 18GB，高端消費級 GPU 即可運行。谷歌與 Nvidia 合作對多種硬體進行了優化，包括支持量化的高端 RTX 系列顯卡，以及 H100、DGX Spark 等企業級加速平台。

Q3：為什麼谷歌不把 DiffusionGemma 的擴散方案用在雲端 Gemini 模型上？

A：擴散式文本生成存在一定局限：錯誤率相對較高，一旦某段 Token 預測出錯，可能導致整段內容無效需重新生成；且在輸出內容較短時，並行計算會造成資源浪費。雲端模型可通過批量處理多用戶任務和高頻寬內存彌補自回歸模型的不足，因此擴散方案目前更適合本地推理場景。

贊助商廣告