30項評分超越GPT-4V！谷歌推出多模態大模型「Gemini」

原本傳出會延期到明年才能發布的全新大語言模型「Gemini」，在12月如期和大家見面。周三，谷歌公布了這款多模態大模型，可以同時無縫理解和操作文字、代碼、聲音、圖片、影片等多元形式的內容。

贊助商廣告

比如在理解圖片方面，谷歌宣稱Gemini Ultra可以直接跳過從圖片中使用OCR理解文字的步驟，就能直接理解圖片內容。谷歌舉了一個簡單的例子，用兩張非常簡單的手繪汽車圖片問Gemini 哪台比較快，Gemini給出答案：「右邊比較快，因為它更符合空氣力學。」

此外，谷歌也「不免俗」地拿Gemini和GPT進行了比較。谷歌特別強調，Gemini最大型的版本Gemini Ultra在32 項AI測試中，有30項的評分超越了OpenAI 的GPT-4V，同時也是在MMLU（大規模多任務語言理解）測試中，第一個達到90%水平並超越人類專家的大型自然語言模型。

Gemini使用自家設計的晶片TPU v4和v5e進行訓練，Gemini在TPU上也比之前的AI模型表現更佳；谷歌也同時公布了新的TPU v5p晶片供雲端使用。

谷歌表示，Gemini可以理解、產生 Python、Java、C++和Go等流行編程語言。同時，谷歌也使用Gemini推出了新一代AI生成代碼系統「AlphaCode 2」，解決問題數量幾乎是上一代的兩倍。

為了滿足從數據中心等級到移動設備等不同使用環境的需求，Gemini推出 Ultra、Pro、Nano，也就是大、中、小三個版本。最大型的Ultra正在進行一系列安全性測試，將會推出少量試用名額給企業客戶與開發者，不過正式版預計要等到明年才能推出了。

Pro則是即日起就提供給英文版Google Bard使用，另外還會在12月13日Google Cloud的Vertex AI、AI Studio上提供API；最小的Nano則是準備直接給Pixel 8 Pro使用。

Bard接下來將在170多個國家和地區提供英語版本，並逐漸擴展給不同地區，並支撐不同語系，谷歌預告，接下來還會有使用Ultra的Bard Advanced。同時，旗下的廣告、Chrome和 Duet AI等產品和業務也會陸續引入Gemini，最終還將被注入谷歌的搜尋引擎，但具體推出時間尚未明確。

贊助商廣告