宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Gemma 4 12B:谷歌推出可在16GB內存筆記本上運行的新模型

2026年06月04日 首頁 » 熱門科技

生成式AI的爆發式增長將內存成本推向了歷史高位,谷歌作為這一趨勢的重要推手,也開始著手推出對內存需求更為友好的本地AI模型。近日,谷歌宣布發布全新Gemma 4模型,填補了今年早些時候發布的產品線中的空白。這款新模型效率極高,普通消費級筆記本電腦即可流暢運行。

今年4月,谷歌發布了Gemma 4系列的四款模型,同時宣布轉向更為開放的Apache 2.0授權協議。最初發布的模型包括兩款面向移動端優化的版本(E2B和E4B),以及兩款面向高強度工作需求的模型(26B混合專家模型和31B密集模型)。然而,這四款產品之間存在一段較大的能力空白,而此次發布的新模型正好填補了這一空缺。

Gemma 4 12B的能力遠超移動版本,同時也無需價值兩萬美元的AI加速卡即可在本地運行。谷歌表示,Gemma 4 12B的獨特之處在於,它可以在眾多消費級筆記本電腦上運行,同時不會犧牲模型質量。只要設備具備16GB系統內存或顯存,這款擁有120億參數的模型便可正常使用。其總體內存占用約為Gemma 4 26B混合專家模型的一半,谷歌聲稱新模型在基準測試方面的表現幾乎與後者不相上下。

谷歌表示,新模型具備複雜的多步推理能力以及智能體工作流處理能力,而這些此前只有更大體量的Gemma版本才能實現。儘管參數量更少,Gemma 4 12B仍搭載了最新設計的多Token預測(MTP)草稿器,該技術能夠利用空閒的處理周期來預測未來可能生成的Token,從而顯著提升運行速度與效率。谷歌此前已為其他Gemma 4模型推出了可選的MTP版本,而Gemma 4 12B是首款將MTP作為默認配置開箱即用的模型。

在多模態處理方面,Gemma 4 12B也採用了全新方案,進一步提升了效率。Gemma 4系列原生支持多模態輸入,可接受文本、音頻和圖像。大多數生成式AI模型(包括其他Gemma 4版本)通常使用專用編碼器處理非文本輸入,再將數據傳遞給大語言模型,這種方式雖然有效,但會增加延遲並占用更多內存。

在這款中等體量的新模型中,谷歌為視覺處理實現了一套精簡的嵌入模組,採用單矩陣乘法與位置嵌入技術,使數據在保留空間感知資訊的前提下直接傳遞至大語言模型,從而省去了臃腫的中間編碼器。而在音頻處理方面,則完全取消了編碼環節——開發團隊找到了一種方法,可將原始音頻信號直接投影為與文本Token相同的向量表示。

如果你想體驗全新的Gemma 4模型,可以通過LM Studio、Google AI Edge Gallery等工具在線直接訪問,無需本地下載。不過,Gemma 4 12B的核心亮點在於支持完全本地、自主運行。只要內存滿足要求,模型權重現已可在Kaggle和Hugging Face上立即下載,文件大小約為18GB。

Q&A

Q1:Gemma 4 12B需要多少內存才能運行?

A:谷歌官方表示,Gemma 4 12B只需設備具備16GB系統內存或顯存即可正常運行,無需昂貴的專用AI加速硬體。模型權重文件大小約為18GB,可在Kaggle和Hugging Face平台上免費下載,適合大多數主流消費級筆記本電腦使用。

Q2:Gemma 4 12B的多Token預測(MTP)功能有什麼作用?

A:多Token預測(MTP)是Gemma 4 12B內置的一項新技術,能夠利用模型運行過程中的空閒處理周期,預先計算未來可能生成的Token。這一機制能夠顯著提升模型的生成速度與整體運行效率。值得注意的是,Gemma 4 12B是Gemma 4系列中首款將MTP作為默認功能直接內置的模型,其他版本僅提供可選安裝。

Q3:Gemma 4 12B如何處理圖像和音頻輸入?

A:Gemma 4 12B在多模態處理上進行了創新優化。視覺方面,採用單矩陣乘法與位置嵌入的精簡嵌入模組,數據可直接傳遞給大語言模型,無需額外的中間編碼器;音頻方面則更為徹底,完全省去編碼過程,直接將原始音頻信號投影為與文本Token相同的向量,從而降低延遲並減少內存消耗。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新