今日凌晨,谷歌終於將研究已久的 Gemini AI 抬到眾人面前,這個推遲又推遲的產品,究竟有什麼令人驚艷的功能?
據悉,Gemini 是一個原生多模態大模型,具有文本、圖像、影片、音頻和代碼的五大能力。
與主要基於文本的模型 GPT-4 相比,Gemini 可以更加輕鬆地進行本地多模態任務。GPT-4 需要依賴插件和集成才能實現多模態功能,而 Gemini 則可以直接處理圖像和音頻等非文本資訊。
Gemini 1.0 一共分為大中小三個版本:Gemini Nano、Gemini Pro和Gemini Ultra,從雲上到手機、平板都可以跑。Gemini被描述為能夠在數學、物理等領域完成複雜任務,同時能夠理解並生成各種編程語言中的高質量代碼。
Gemini Nano: 針對端側設備的小模型,比如在手機、家電等各類消費設備,特別是Google Pixel8。它專為在設備上執行需要高效AI處理的任務而構建,無需連接到外部伺服器,如在聊天應用中建議回復或總結文本。
Gemini Pro:在谷歌的數據中心運行,旨在為公司最新版本的AI聊天機器人Bard提供動力,能夠快速響應並理解複雜的查詢。
Gemini Ultra:儘管目前還沒有廣泛使用,但谷歌將 Gemini Ultra 描述為其最強大的模型,它專為高度複雜的任務設計,並計劃在完成當前測試階段後發布。
目前,Gemini 1.0 現已在多種Google產品和平台上推出,包括接入聊天機器人Bard和智慧型手機Pixel 8 Pro 上。未來幾個月,Gemini 將應用於 Google 更多的產品和服務,如 Search、Ads、Chrome 和 Duet AI。
谷歌CEO桑達爾•皮查伊(Sundar Pichai)表示:「我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今為止最強大、最通用的模型,它在許多領先的基準測試中都展現出了最先進的性能。」
其實,自 ChatGPT 發布以來,谷歌就一直在研製可以與之抗衡的產品,在 Gemini 發布之前,谷歌在生成式AI和LLM方面主推的兩款模型 PaLM 2 和 LaMDA,在用戶當中收穫的評價一直不高,相對於業界領軍的GPT-4差距很大。
由此,傳聞中谷歌重點研發的 Gemini 模型一直被寄予厚望。Gemini 也是谷歌大腦(Google Brain)和DeepMind合併組建Google DeepMind之後的首個重要產品。
這款大模型早在今年3月就有了風聲,5月的 I/O 大會上進入即將推出的狀態。
據悉,在推出之前,谷歌對 Gemini 模型進行了嚴格的測試,並評估了它們在各種任務中的表現。其中,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果,已經超越GPT-4。
而在 MMLU(大規模多任務語言理解)測試中,Gemini Ultra 以90.0%的高分,首次超過了人類專家,成為第一個在MMLU上超越人類專家的模型。在新的 MMMU 基準測試中,Gemini Ultra 的表現也更優,其得分率達59.4%,GPT-4V的得分率為56.8%。
另外,Gemini 1.0 還可以理解、解釋和生成Python、Java、C 、Go編程語言的高質量代碼。
中信證券表示,多模態 Gemini 模型的正式發布,一方面可以拓寬應用場景的拓展,另一方面能夠帶來算力需求的持續升級。我們持續看好後續AI產業的前景,認為後續GPT-5等模型的發布亦將帶來更多的催化。