Gemma 4 12B：谷歌推出可在16GB內存筆記本上運行的新模型

生成式AI的爆發式增長將內存成本推向了歷史高位，谷歌作為這一趨勢的重要推手，也開始著手推出對內存需求更為友好的本地AI模型。近日，谷歌宣布發布全新Gemma 4模型，填補了今年早些時候發布的產品線中的空白。這款新模型效率極高，普通消費級筆記本電腦即可流暢運行。

贊助商廣告

今年4月，谷歌發布了Gemma 4系列的四款模型，同時宣布轉向更為開放的Apache 2.0授權協議。最初發布的模型包括兩款面向移動端優化的版本（E2B和E4B），以及兩款面向高強度工作需求的模型（26B混合專家模型和31B密集模型）。然而，這四款產品之間存在一段較大的能力空白，而此次發布的新模型正好填補了這一空缺。

Gemma 4 12B的能力遠超移動版本，同時也無需價值兩萬美元的AI加速卡即可在本地運行。谷歌表示，Gemma 4 12B的獨特之處在於，它可以在眾多消費級筆記本電腦上運行，同時不會犧牲模型質量。只要設備具備16GB系統內存或顯存，這款擁有120億參數的模型便可正常使用。其總體內存占用約為Gemma 4 26B混合專家模型的一半，谷歌聲稱新模型在基準測試方面的表現幾乎與後者不相上下。

谷歌表示，新模型具備複雜的多步推理能力以及智能體工作流處理能力，而這些此前只有更大體量的Gemma版本才能實現。儘管參數量更少，Gemma 4 12B仍搭載了最新設計的多Token預測（MTP）草稿器，該技術能夠利用空閒的處理周期來預測未來可能生成的Token，從而顯著提升運行速度與效率。谷歌此前已為其他Gemma 4模型推出了可選的MTP版本，而Gemma 4 12B是首款將MTP作為默認配置開箱即用的模型。

在多模態處理方面，Gemma 4 12B也採用了全新方案，進一步提升了效率。Gemma 4系列原生支持多模態輸入，可接受文本、音頻和圖像。大多數生成式AI模型（包括其他Gemma 4版本）通常使用專用編碼器處理非文本輸入，再將數據傳遞給大語言模型，這種方式雖然有效，但會增加延遲並占用更多內存。

贊助商廣告

在這款中等體量的新模型中，谷歌為視覺處理實現了一套精簡的嵌入模組，採用單矩陣乘法與位置嵌入技術，使數據在保留空間感知資訊的前提下直接傳遞至大語言模型，從而省去了臃腫的中間編碼器。而在音頻處理方面，則完全取消了編碼環節——開發團隊找到了一種方法，可將原始音頻信號直接投影為與文本Token相同的向量表示。

如果你想體驗全新的Gemma 4模型，可以通過LM Studio、Google AI Edge Gallery等工具在線直接訪問，無需本地下載。不過，Gemma 4 12B的核心亮點在於支持完全本地、自主運行。只要內存滿足要求，模型權重現已可在Kaggle和Hugging Face上立即下載，文件大小約為18GB。

Q&A

Q1：Gemma 4 12B需要多少內存才能運行？

A：谷歌官方表示，Gemma 4 12B只需設備具備16GB系統內存或顯存即可正常運行，無需昂貴的專用AI加速硬體。模型權重文件大小約為18GB，可在Kaggle和Hugging Face平台上免費下載，適合大多數主流消費級筆記本電腦使用。

Q2：Gemma 4 12B的多Token預測（MTP）功能有什麼作用？

A：多Token預測（MTP）是Gemma 4 12B內置的一項新技術，能夠利用模型運行過程中的空閒處理周期，預先計算未來可能生成的Token。這一機制能夠顯著提升模型的生成速度與整體運行效率。值得注意的是，Gemma 4 12B是Gemma 4系列中首款將MTP作為默認功能直接內置的模型，其他版本僅提供可選安裝。

Q3：Gemma 4 12B如何處理圖像和音頻輸入？

A：Gemma 4 12B在多模態處理上進行了創新優化。視覺方面，採用單矩陣乘法與位置嵌入的精簡嵌入模組，數據可直接傳遞給大語言模型，無需額外的中間編碼器；音頻方面則更為徹底，完全省去編碼過程，直接將原始音頻信號投影為與文本Token相同的向量，從而降低延遲並減少內存消耗。