媲美GPT-4，谷歌AI大殺器Gemini亮相，能否開創下個AI時代？

今日凌晨，谷歌終於將研究已久的 Gemini AI 抬到眾人面前，這個推遲又推遲的產品，究竟有什麼令人驚艷的功能？

贊助商廣告

據悉，Gemini 是一個原生多模態大模型，具有文本、圖像、影片、音頻和代碼的五大能力。

與主要基於文本的模型 GPT-4 相比，Gemini 可以更加輕鬆地進行本地多模態任務。GPT-4 需要依賴插件和集成才能實現多模態功能，而 Gemini 則可以直接處理圖像和音頻等非文本資訊。

Gemini 1.0 一共分為大中小三個版本：Gemini Nano、Gemini Pro和Gemini Ultra，從雲上到手機、平板都可以跑。Gemini被描述為能夠在數學、物理等領域完成複雜任務，同時能夠理解並生成各種編程語言中的高質量代碼。

Gemini Nano: 針對端側設備的小模型，比如在手機、家電等各類消費設備，特別是Google Pixel8。它專為在設備上執行需要高效AI處理的任務而構建，無需連接到外部伺服器，如在聊天應用中建議回復或總結文本。

Gemini Pro：在谷歌的數據中心運行，旨在為公司最新版本的AI聊天機器人Bard提供動力，能夠快速響應並理解複雜的查詢。

Gemini Ultra：儘管目前還沒有廣泛使用，但谷歌將 Gemini Ultra 描述為其最強大的模型，它專為高度複雜的任務設計，並計劃在完成當前測試階段後發布。

目前，Gemini 1.0 現已在多種Google產品和平台上推出，包括接入聊天機器人Bard和智慧型手機Pixel 8 Pro 上。未來幾個月，Gemini 將應用於 Google 更多的產品和服務，如 Search、Ads、Chrome 和 Duet AI。

谷歌CEO桑達爾•皮查伊（Sundar Pichai）表示：「我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今為止最強大、最通用的模型，它在許多領先的基準測試中都展現出了最先進的性能。」

其實，自 ChatGPT 發布以來，谷歌就一直在研製可以與之抗衡的產品，在 Gemini 發布之前，谷歌在生成式AI和LLM方面主推的兩款模型 PaLM 2 和 LaMDA，在用戶當中收穫的評價一直不高，相對於業界領軍的GPT-4差距很大。

贊助商廣告

由此，傳聞中谷歌重點研發的 Gemini 模型一直被寄予厚望。Gemini 也是谷歌大腦（Google Brain）和DeepMind合併組建Google DeepMind之後的首個重要產品。

這款大模型早在今年3月就有了風聲，5月的 I/O 大會上進入即將推出的狀態。

據悉，在推出之前，谷歌對 Gemini 模型進行了嚴格的測試，並評估了它們在各種任務中的表現。其中，Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中，在其中 30 個測試集的性能超過當前 SOTA 結果，已經超越GPT-4。

而在 MMLU（大規模多任務語言理解）測試中，Gemini Ultra 以90.0%的高分，首次超過了人類專家，成為第一個在MMLU上超越人類專家的模型。在新的 MMMU 基準測試中，Gemini Ultra 的表現也更優，其得分率達59.4%，GPT-4V的得分率為56.8%。

另外，Gemini 1.0 還可以理解、解釋和生成Python、Java、C++、Go編程語言的高質量代碼。

中信證券表示，多模態 Gemini 模型的正式發布，一方面可以拓寬應用場景的拓展，另一方面能夠帶來算力需求的持續升級。我們持續看好後續AI產業的前景，認為後續GPT-5等模型的發布亦將帶來更多的催化。