看過昨天OpenAI的春季發布後,不難猜到,在今天的谷歌I/O大會上,必然會有關於AI助手的介紹。
畢竟,搶在谷歌I/O大會前發布GPT-4o的Altman,已經顯示出了十足的針對性,憑藉Altman的手段,自然也有著十足的把握做到精準打擊,將這場「紅藍對抗」進行到底。
果不其然,大會上,谷歌CEO Pichai請來了DeepMind創始人Demis,谷歌全新的AI助手Project Astra正是由首次登台谷歌I/O大會的Demis揭開的神秘面紗。
什麼是Project Astra?
Project Astra是一個由谷歌Gemini作為基礎引擎的實時、多模態通用人工智慧助手,相當於是Google Assistant的繼任者。
與Siri、Alexa等以往我們使用的AI助手相同的是,你依然可以用語音與它進行交互;不同的是,藉助生成式AI獨有的特性,它現在擁有了更好的理解能力、可以干更多事情,更重要的是,這次它還有了視覺識別能力,讓AI助手得以睜眼看世界。
在大會上谷歌的影片演示中,著重演示的正是這一AI助手的視覺智能。
在演示影片中,一位谷歌工程師拿著打開攝像頭的手機,讓Gemini識別空間中能發出聲音的物體、識別顯示器螢幕上顯示的代碼的功能,甚至通過戶外街景識別演示者現在所在地址。
除了將AI助手應用到手機上,谷歌還將AI助手應用到了AR眼鏡上,當這位工程師將搭載這一AI助手的智能眼鏡對準黑板上設計的系統並提出如何改善這一系統時,AI助手甚至能給出系統設計的改善建議。
這是谷歌在AI助手上展示出的視覺智能,在Gemini加持下,這樣的AI助手在交互能力上已經得到了極大的增強。
不過,在實際交互的自然度上,這樣的AI助手依然與昨天OpenAI GPT-4o展示出的效果形成了不小的差距。
OpenAI「截胡」成功
就在谷歌I/O大會前一天,OpenAI召開了一場聲勢浩大的春季發布會,GPT-4o是這次春發的主角,部署在手機上的AI助手則是這次發布會重點演示的功能。
從OpenAI發布會上演示的AI助手能力來看,無論是在演示內容的親民程度、交互過程的自然度,還是這一AI助手多模態能力上,演示效果都要更好。
這是因為OpenAI將GPT-4o裝載到手機上時,不僅加入了視覺智能,還讓這個AI助手能夠實時響應(官方給出的平均響應延時是320毫秒),可以被隨時打斷,甚至還能理解人類的情緒。
在視覺智能方面能力演示過程中,OpenAI在紙上寫了一道數學方程讓AI助手一步一步解題,像極了一位小學老師。
而當你和GPT-4o打「影片電話」時,它又可以識別你的面部表情,理解你的情緒,知道你現在看起來是開心還是難過,活脫就是一個human being。
不難發現,在如今大模型技術加持下,谷歌和OpenAI都在試圖將原來粗糙不堪的AI助手進行回爐再造,想讓AI助手能夠像真人一樣與我們自然交互。
而從前後兩個發布會影片演示結果來看,以大模型作為基礎引擎的AI助手,也確實讓我們明顯感受到了,現在的AI助手與此前的Siri、Alexa有了明顯的代際差。
實際上,在生成式AI、大模型技術發展如火如荼的當下,蘋果也在試圖讓Siri脫胎換骨,此前彭博社就曾援引知情人士消息報道稱,蘋果正與OpenAI和谷歌分別在談合作,想要將他們的大模型用到iOS 18作業系統中。
至於這樣的AI助手是否能讓Siri再次翻紅,成為AI手機的殺手級應用,接下來,就看蘋果能否再次為AI助手順利「附魔」了。