儘管消費者對 AI 手機、AIPC 的感知大都停留在概念階段,但當蘋果高調宣布要加入其中,整個行業和消費者同樣會抱有不小的期待。
如同去年 WWDC 亮相的 Vision Pro,頭顯行業都期待著蘋果能完成一輪市場教育,打開新的局面。對於目前還飽受爭議的 AI 設備而言,一家巨頭加入的積極意義或許遠大於競爭的威脅。
彭博社記者 Mark Gurman 早早放出風聲——蘋果緊鑼密鼓地開發一系列 AI 功能,並計劃將它們整合進 iOS 18 作業系統中。
從以往蘋果守口如瓶的程度來看,縱使外界風聲四起,蘋果具體的 AI 解題思路往往不到發布會的最後關頭都不能一錘定音,不過,這不妨礙我們從蘋果近期的動態中捕捉到一些蛛絲馬跡。
近期,蘋果發布的一篇大模型論文就向外界展示了蘋果在 AI 領域的最新進展。
通過 ReALM 技術的應用,Siri 現在能夠實時理解並識別用戶螢幕上的內容,而無需依賴敏感的螢幕截圖或圖像數據,在提升智能之餘,也充分保障了用戶的隱私安全。
設想這麼一個場景,當你發出指令「打開我螢幕上第一個 APP」,Siri 就能藉助 ReALM 技術將螢幕上的元素和布局轉化為文本資訊,並據此執行你的命令。
簡而言之,就是你手機上的 Siri 將變得越來越聰明,也越來越懂你。
Siri 十三年漫漫「聰明」路
在變得「聰明」的這條道路上,Siri 已經走了十三年了。
十三年前,你會驚嘆於 Siri 的新鮮感,用它來設定鬧鐘,查看當天的天氣,仿佛一個全新的人機交互時代正在向你揮手致意。
十三年後,你還是用它來設定鬧鐘,查看當天的天氣,只是失望情緒取代了當初的新鮮感,像極瞭望子成龍、望女成鳳卻又恨鐵不成鋼的父母。
2024 年:人工智慧取代程式設計師/藝術家等
2024 年的 Siri:抱歉,我沒聽懂你的意思
即便是 Siri 最忠實的擁躉——史提夫·賈伯斯本人也未曾預料到,Siri 出走半生,歸來仍是少年。
可能很多人不知道的是,和 iTunes 一樣,你每天都在用的 Siri 其實也是蘋果用真金白銀買來的。
2010 年初,賈伯斯向「Siri 之父」的 Dag Kittlaus 撥出了一通電話。一次長達三小時的會談過後,在賈伯斯的一力促成下,Siri 同年四月被蘋果收入麾下。此後, Siri 便通過蘋果「全家桶」滲透到千家萬戶,成為蘋果品牌史上不可磨滅的標誌性符號。
如同當年風靡一時的《水果忍者》讓人們逐漸熟絡了觸控屏體驗,Siri 的普及不僅引領了一種全新的交互方式,更是一種生活習慣的變革。人們開始習慣於用自然語言與機器進行交流,用語音指令來簡化日常任務。
語音控制只是交互形式的變革,2011 年的蘋果對 Siri 的推出抱有巨大的野心和期望。
蘋果不僅僅將 Siri 視為一個簡單的語音助手,而是看作一個能夠理解用戶需求、並解決幫助問題的智能夥伴。正如蘋果營銷主管菲爾·席勒在發布 Siri 時所描述的那樣:
通過語音指令就能幫助你搞定事情的智能助手。
而這一點,在未被蘋果收購前的最初版 Siri 身上,就已經有所體現。
在 Dag Kittlaus 等人的構想中,Siri 應該是一個能夠迅速而精準地獲取資訊的助手,一個能夠熟練處理各種複雜任務的智能助理。
古早版 Siri 能夠與 42 個網路服務進行連接,涵蓋了從 Yelp 的餐館點評到 Rotten Tomatoes 的電影評價,以及 Wolfram Alpha 的數學計算等多個領域。
通過整合這些網站的資訊,Siri 能夠以文本的形式為用戶提供一站式的服務體驗。
Siri 聯合創始人 Norman Winarsky 曾強調,Siri 最初的目標正是理解用戶的意圖,提供精準的答案,並代表用戶去執行那些任務。在執行過程中,Siri 會收集數據,以便在未來提供更加精準的服務。
我們需要的不是一個搜尋引擎,而是一個執行引擎(do engine),這就是我們的創意突破口。
這個產品能像真人一樣和你互動,我們把這叫做「擬人化」,像一個友好周到的助理。
蘋果接手之後,Siri 也的確一度沿著智能助理的發展軌跡穩步前行。它不僅能夠流暢回答用戶的詢問,還能通過語音交互執行一系列日常任務,如設置鬧鐘、發送資訊、查詢天氣等。
在《宅男行不行》的第五季中,印度裔科學家 Raj 對搭載在 iPhone 4S 上的 Siri 一見傾心。這種單方面的「愛情」也是基於 Siri 和 Raj 交流過程中所展現出的基礎語言理解能力。
因此,在 Siri 問世之初,國外科技媒體對其評價也是壓倒性地看好。
The Verge 曾強調,Siri 最牛的地方在於它的工作原理——至少在很多場景下,它的水平都超出了用戶的預期。CNN 形象地將 Siri 比作「我們夢想中的智能助理」,隨叫隨到。《紐約時報》 也不吝讚美之詞,指出 Siri 通過節省時間,減少冗餘操作,深刻重塑了手機的定義。
歷史的步伐,不總是按照既定的節奏前進,有時兜兜轉轉都未必找到前進的韻律。
正如你讓 Siri 往東,但它偶爾也會向西一樣,新鮮感構成了用戶對 Siri 的「乍見之歡」,但停滯不前也造就了用戶的「久處而厭」。
蘋果 Siri 首次登場的第二天,賈伯斯因癌症而不幸去世,給 Siri 的發展之路籠罩上一層難以驅散的陰霾。一位蘋果前員工在接受 The Information 的採訪時不免感嘆道:
jobs (賈伯斯)在 Siri 推出後的第二天就去世了,蘋果也由此失掉了前進的方向。
此外,蘋果高管團隊的頻繁更迭、公司內部派系的爭鬥也對 Siri 的順利發展造成了不小的影響,在之前的文章中,APPSO 也曾分析過 Siri 「變笨」的原因。
內外因素的夾擊之下,一出道即是巔峰的 Siri 的發展步伐也逐漸放緩,從以往的「學霸」逐漸淪為現在的「學渣」。
Siri 「聰明」的終點,也是起點
聽說蘋果 Siri「倒退」了?還有這種好事!
ChatGPT 的一夜躥紅,向世人展示了大型語言模型(LLM)在語言理解、生成、交互和推理領域的出色表現,也使 Siri 有機會回到起點——成為一個能夠真正理解並響應自然語言的智能助理。
不久前,Kittlaus 在社交平台 X 上分享了自己對 AI Siri 的設想,並列舉了一系列應用場景。
Siri,當 Chris Malinchak 發布新歌時,你能提醒我,並讓 Spotify 將其添加到我的「Chill Beats」文件夾嗎?
Siri,請周二和周四早上 7 點、其他工作日早上 8 點叫醒我。周末除非在我的日曆上看到早上的約會,否則不要打擾我;如果有早上的約會,請及時叫醒我。
2024 年,蘋果要在生成式 AI 領域大展拳腳,而 Siri 可能是最重要的交互載體。
在此前的財報會議上,蘋果 CEO 庫克一反常態地對外界透露,公司 2024 年將在生成式 AI 領域「開天闢地」,甚至多次強調,蘋果將在今年晚些時候公布更多重要消息。
比起蘋果十年造車,一朝夢碎的消息,更引人注目的是,蘋果原先負責造車項目的部分員工將被重新分配到生成式 AI 項目的研發。
蘋果在生成式 AI 的投入也不惜血本。作為世界上市值最高的企業,財大氣粗的蘋果主打的就是買買買,通過收購來加速技術的積累和創新的步伐。
據市場調查機構 Stocklytics 公布的最新報告,蘋果在 2023 年一口氣收購了 32 家 AI 公司,位居主要科技企業收購排行榜榜首。
同時翻開蘋果機器學習團隊最近一年來的研究論文,我們可以清晰地看到,蘋果極度重視端側設備上運行大模型的可行性。
今年 1 月,蘋果的機器學習團隊在新發表的論文中,深入探討了一種可以解決「在手機內存上運行大模型」的方法,為解決移動設備上的計算瓶頸提供了新的技術思路。
開頭提到的那篇論文中,蘋果的研究人員也宣布,儘管 ReALM 的參數規模更小,但在某些關鍵指標上,它的表現甚至比 GPT-4 更勝一籌。
那麼 AI Siri 究竟會以哪種形式呈現在我們眼前?在 WWDC 2024 到來之前,我們或許可以從 Android 陣營這邊得到一些啟發。
去年 8 月份的 HamonyOS 4 發布會上,余承東宣布智慧助手小藝接入 AI 大模型的能力。緊接著,雷軍透露小米已經在手機上跑通了 1.3B 參數的大模型,部分場景效果可媲美雲端。
國內手機的「御五家」一個也沒落下。基於 AndersGPT 的 OPPO 小布助手,搭載 7B 端側 AI 大模型的榮耀 Magic 6、搭載藍心大模型矩陣的 vivo 也陸續宣布。
得益於大模型的加持,這些語音助手在文案生成、圖片繪製等方面讓人眼前一亮,但在實際的應用場景上,這些語音助手並無實質性的突破。
AI Siri 要想重塑初心,成為真正意義上的智能助手,起碼得滿足以下幾個基本條件:
首先,變得更聰明,即通過大模型技術提升其自然語言處理能力;其次,採用語音優先界面,優化用戶的交互體驗;再者,打通所有應用的孤島狀態,實現數據和功能的無縫整合,讓 Siri 成為一個真正的全場景智能助手。
上述三個條件,單拎任何一個出來雖絕非易事,但也有一些行業先行者的經驗可供借鑑。
在生成式 AI 的賽道上,最快的捷徑有時是攜手同行,前不久,便有消息傳出,「掉隊」的蘋果正在與 Google、OpenAI 等公司就生成式 AI 服務整合到 iOS 18 展開談判。
比起「聽清楚你的語言」,「聽懂你的意思」才是語音交互的主要障礙。就連賈伯斯生前也覺得這是一件棘手的事情:
語音識別是未來 10 年裡挺美好的一個課題。它面臨的問題其實不單單是如何識別語音。當你和別人說話時,能夠懂得對方的語言比單純識別出語音要難得多。
……這件事情挺難的。所以在我們解決它之前,你也只能憧憬著這個美好的未來了。
如何能夠在各種噪音和複雜環境中準確響應用戶的喚醒需求,如何從語義理解到記憶理解的轉變,讓 Siri 能夠記住並分析用戶的語境、上下文,提供更加智能化的服務和建議,正是 Siri 在智能化道路上邁出的關鍵一步。
而這些恰巧都是當下的 AI 硬體們所擅長的領域。
至於打通應用之間的壁壘問題,軟硬體的交織尚在其次,在當前的應用生態中,諸如數據共享與隱私保護等問題才是橫亘在蘋果面前的攔路虎。
十三年前,人們或許會為體驗 Siri 而購買 iPhone,那時的 Siri 不僅僅是一個功能,更代表了一種全新的交互方式,一種探索生活未來方式的媒介。
十三年後,褪去昔日光環的 Siri 從一個創新焦點逐漸變成了普通的附加功能,甚至在某些用戶的生活中變得可有可無。
在大模型技術的加持下,從冰冷的點擊和敲擊轉變為溫暖的語音交流,我們期待的 Siri 不僅僅是一個智能系統,而是一個能夠理解我們的語言、情感和需求的全面夥伴。
這樣的 Siri 將會為我們提供更加個性化、更加貼心的服務,也讓技術的使用變得更加人性化,更加充滿溫度。