OpenAI和Google接連兩天的大動作，都想讓AI助手成「精」

看過昨天OpenAI的春季發布後，不難猜到，在今天的谷歌I/O大會上，必然會有關於AI助手的介紹。

贊助商廣告

畢竟，搶在谷歌I/O大會前發布GPT-4o的Altman，已經顯示出了十足的針對性，憑藉Altman的手段，自然也有著十足的把握做到精準打擊，將這場「紅藍對抗」進行到底。

果不其然，大會上，谷歌CEO Pichai請來了DeepMind創始人Demis，谷歌全新的AI助手Project Astra正是由首次登台谷歌I/O大會的Demis揭開的神秘面紗。

什麼是Project Astra？

Project Astra是一個由谷歌Gemini作為基礎引擎的實時、多模態通用人工智慧助手，相當於是Google Assistant的繼任者。

與Siri、Alexa等以往我們使用的AI助手相同的是，你依然可以用語音與它進行交互；不同的是，藉助生成式AI獨有的特性，它現在擁有了更好的理解能力、可以干更多事情，更重要的是，這次它還有了視覺識別能力，讓AI助手得以睜眼看世界。

在大會上谷歌的影片演示中，著重演示的正是這一AI助手的視覺智能。

在演示影片中，一位谷歌工程師拿著打開攝像頭的手機，讓Gemini識別空間中能發出聲音的物體、識別顯示器螢幕上顯示的代碼的功能，甚至通過戶外街景識別演示者現在所在地址。

除了將AI助手應用到手機上，谷歌還將AI助手應用到了AR眼鏡上，當這位工程師將搭載這一AI助手的智能眼鏡對準黑板上設計的系統並提出如何改善這一系統時，AI助手甚至能給出系統設計的改善建議。

贊助商廣告

這是谷歌在AI助手上展示出的視覺智能，在Gemini加持下，這樣的AI助手在交互能力上已經得到了極大的增強。

不過，在實際交互的自然度上，這樣的AI助手依然與昨天OpenAI GPT-4o展示出的效果形成了不小的差距。

OpenAI「截胡」成功

就在谷歌I/O大會前一天，OpenAI召開了一場聲勢浩大的春季發布會，GPT-4o是這次春發的主角，部署在手機上的AI助手則是這次發布會重點演示的功能。

從OpenAI發布會上演示的AI助手能力來看，無論是在演示內容的親民程度、交互過程的自然度，還是這一AI助手多模態能力上，演示效果都要更好。

這是因為OpenAI將GPT-4o裝載到手機上時，不僅加入了視覺智能，還讓這個AI助手能夠實時響應（官方給出的平均響應延時是320毫秒），可以被隨時打斷，甚至還能理解人類的情緒。

在視覺智能方面能力演示過程中，OpenAI在紙上寫了一道數學方程讓AI助手一步一步解題，像極了一位小學老師。

而當你和GPT-4o打「影片電話」時，它又可以識別你的面部表情，理解你的情緒，知道你現在看起來是開心還是難過，活脫就是一個human being。

不難發現，在如今大模型技術加持下，谷歌和OpenAI都在試圖將原來粗糙不堪的AI助手進行回爐再造，想讓AI助手能夠像真人一樣與我們自然交互。

而從前後兩個發布會影片演示結果來看，以大模型作為基礎引擎的AI助手，也確實讓我們明顯感受到了，現在的AI助手與此前的Siri、Alexa有了明顯的代際差。

實際上，在生成式AI、大模型技術發展如火如荼的當下，蘋果也在試圖讓Siri脫胎換骨，此前彭博社就曾援引知情人士消息報道稱，蘋果正與OpenAI和谷歌分別在談合作，想要將他們的大模型用到iOS 18作業系統中。

至於這樣的AI助手是否能讓Siri再次翻紅，成為AI手機的殺手級應用，接下來，就看蘋果能否再次為AI助手順利「附魔」了。