如果說 2024 年有什麼真正的熱點話題,AI 可能是當之無愧的熱門第一名。OpenAI 的 ChatGPT 和 Sora、微軟的 Copilot、谷歌的 Gemini…… 基於大語言模型(LLM)的生成式 AI 工具層出不窮,疊代速度之快讓人應接不暇。
不過對於 Apple 來說,追隨 LLM 的腳步似乎並沒有那麼快。相比 ChatGPT,現如今 Siri 的表現只能說是差強人意——幾乎為 0 的上下文理解能力,常常遇到網際網路連接問題,語音識別也不夠準確。加上這兩天 iOS 18 將集成 ChatGPT 的傳聞已經滿天飛了,Apple「看起來」已經在人工智慧領域落後一大截了。
雖說從 2011 年發布 Siri 開始,Apple 對人工智慧的探索就一直沒有中斷,系統中集成了相當多的人工智慧相關的功能。但在生成式 AI 如此火爆的 2024 年,Apple 的表現並不突出。相比於一年前絕口不提 AI 的 場景 ,Apple 已經在最近兩場發布會裡已經儘可能多得提到了 AI。
今天的文章就來盤點一下 Apple 近年來發布會上提到的與人工智慧相關的軟硬體系統與功能,為一個月後「AbsolutelyIncredible」的 WWDC 2024 準備一些開胃菜。
神經網路引擎:「設備端智能」的硬體基礎
Apple 開發的神經網路引擎能夠加速特定機器學習模型的處理計算,效率比 CPU 和 GPU 更高,被廣泛用於 iPhone、iPad、MacBook 甚至 Apple Watch 等設備。Apple 系統平台的許多人工智慧功能,例如設備端 Siri、聽寫、自動糾錯、Animoji 動話表情、計算攝影等,都依賴神經網路引擎在設備本地實時加速運行,而不會影響系統整體的響應速度。通過 Core ML,第三方開發者也可以利用設備上的神經網路引擎加速機器學習計算。例如,App Store 有不少在本地運行的文本生成圖像應用。
隨著 Apple 平台的功能對智能的要求越來越高,設備也配備的神經網路引擎也越來越快。iPhone X 和 iPhone 8 的 A11 中的雙核神經網路引擎每秒運行 6000 億次運算,到如今 iPhone 15 中 A17 PRO 可以每秒運行 35 萬億次操作。神經網路引擎無疑是 Apple 為其「設備端智能」所搭建的重要硬體「基礎設施」。正因如此,它也從未缺席任何一場 Apple 的硬體發布會,每次在談到處理器性能時,也都會帶上它:

本文所提到的智能功能,都會在一定程度上依賴神經網路引擎在設備本地運行。
相機中的智能
相機定義了現代智慧型手機的核心體驗之一。除了鏡頭、感光元件和處理器外,iPhone 拍攝照片的過程中還涉及大量設備端智能。鏡頭和傳感器的數據需要經過一系列計算,才能最終呈現在人們眼前。照片拍攝完成後,還有許多與機器學習相關的功能進行人臉識別和分類、生成回憶、自動選擇壁紙、提取關鍵資訊等。
▍iPhone 計算攝影
Deep Fusion 最初推出於 iPhone 11 系列,通過機器學習模型進行多達 9 幀的圖像合成,從而提升低光狀態下的照片品質、降低噪點等。這是 iPhone 計算攝影的重要功能,每年都會更新。例如,iPhone 14 系列中的深度融合功能獲得了圖像管線優化。
然而,Deep Fusion 是一項默認開啟且無法關閉的系統功能。如果使用 Apple 設備自帶的相機 app,Deep Fusion 會自動開啟並對每一張照片進行處理。不少用戶反饋,經過 Deep Fusion 處理的照片看起來對比度過於強烈、過度銳化。

Apple ProRAW 隨著 iPhone 12 Pro 的發布而推出,它結合了標準 RAW 格式的資訊與 iPhone 計算攝影的照片處理,給予用戶更大的編輯空間。在 iPhone 14 Pro 上,用戶可以利用全新的主攝拍攝 4800 萬像素的 ProRAW 照片,並結合 iPhone 的機器學習功能,獲得更高的照片細節。

人像模式是另一項 iPhone 的計算攝影功能,通過攝像頭獲取的深度資訊經過機器學習模型計算,突出攝影主體並模糊背景。在 iPhone 15 系列上,用戶無需手動打開人像模式,只要 iPhone 檢測到畫面中有人物或寵物,系統會自動收集並計算深度數據,提供後期調整是否使用人像模式的選項。儘管人像模式已經推出多年,但機器學習得到的效果有時還是不夠自然,常常虛化掉一些主體邊緣的細節,特別是用它拍靜物時。

與此類似,與深度資訊相關的機器學習也已經介入了影片拍攝領域,隨 iPhone 13 Pro 發布的「電影模式」就是一例:

綜上所述,Apple 認為計算攝影具有非常強的機器學習屬性,也是 Apple 每年重點更新的方向。這些技術也被應用到其他設備上,例如 Mac 和 Studio Display 的攝像頭,現在會利用 Apple Silicon 的圖像信號處理器和神經網路引擎提升畫質。

Visual Lookup 與實況文本
Visual Lookup 是 Apple 在 WWDC 2021 上推出的照片主體識別功能,識別後,只需要通過聚焦搜索查找關鍵詞,就可以直接找到相關的照片。例如,在搜索時輸入「手機」,照片 app 就會自動列出已識別出包含手機的照片。在 WWDC 2022,Apple 還更新了提取主體功能。

相關功能還被用在了 Apple TV 和 HomePod 上,通過 HomeKit 安全影片功能,可以識別家門口的 HomeKit 攝像頭看到了什麼資訊,並發出提示通知。

實況文本是另一項在 WWDC 2021 上推出的功能,它能夠識別相機畫框或系統內圖片(包括網頁上的圖片、相冊中的照片、截屏、訪達中的 PDF 文件等)中包含的文本、網址、電話、地址等資訊。在 WWDC 2022 上,實況文本還支持影片中任意暫停幀上的資訊識別。我常常在 Mac 上使用這項功能,尤其是在閱讀一些沒有文字資訊的 PDF 文件時。整體可用性尚可,識別英語的準確率高於中文,印刷體的識別準確率高於手寫體。這項功能雖然使用了機器學習,但基於 Intel 晶片的 Mac 也可以使用。

此外,對照片的分析處理也應用到了系統的其他方面,例如照片回憶與智能建議。它們會利用 Visual Lookup 提供的照片中暗含的場景資訊,如旅行、生日派對、寵物、聚餐等,並將照片自動剪輯成帶有配樂的短影片。短影片的生成也包含一些機器學習功能,會根據照片和影片的資訊以及歌曲的節奏自動調整效果。

⌨️輸入方式的智能
輸入文字也是交互設備的基本操作。除了直接通過鍵盤輸入文字外,還可以使用聽寫和掃描等方式輸入。然而,無論使用哪種輸入方式,都離不開智能技術的應用——聽寫涉及語音轉文字的識別,鍵盤輸入涉及自動糾正文本和文字預測,掃描則涉及對圖片資訊的提取。近些年的 WWDC,Apple 都會著力優化文本輸入體驗。
▍聽寫
從 iOS 5(2011 年)開始,聽寫功能就已經內置於 iPhone,當時聽寫需要完全通過網際網路進行處理;如今,聽寫功能已經可以完全在設備端運行,在輸入文字之外還可以輸入 emoji,聽寫時也可以繼續用鍵盤輸入文字。大多數情況下,新版聽寫的準確率都還不錯,但語氣詞比較多的時候,聽寫也會出現問題,還是需要人工編輯下的。

WWDC 2023 則提到新的 Transformer 模型讓聽寫更加準確 —— 聽寫是在 Apple Watch 和 Apple Vision Pro 等可穿戴設備上輸入文本的一個非常重要且自然的途徑,聽寫的準確率也能夠在很大程度上決定使用這兩款設備的日常體驗如何。


自動糾正與輸入實時預測
對於直接用鍵盤輸入,WWDC 2023 介紹了優化後的自動糾正功能和輸入實時預測功能。自動糾正功能不僅能夠糾正用戶可能拼錯的詞語,還能猜測用戶在打字時按下的具體鍵(包括滑行輸入時判斷的音節,以及 Apple Watch 上的全鍵盤)。

輸入實時預測則能夠根據用戶個人的詞彙表達風格,自動彈出或補全詞語。一般來說,這可以預測下一個詞,或者幫助你補全一個不確定怎麼拼寫的長單詞。實際體驗中,輸入實時預測功能在最近幾個版本中經常會「糾正」出一些奇怪的詞組出來,有的時候我都要懷疑是不是我打錯了。

很奇怪的輸入預測
Apple 機器學習研究網站上有不少跟 Transformer 模型等有關的研究成果,也會披露一些目前已經在系統中出現的技術的背景細節。例如,如何快速高效準確地生成文本段落、Siri 如何通過語音觸發、多模態的大語言模型等等。說不定在下一屆 WWDC 上,一些成果就會變成系統中集成的功能。
⌚️
Apple Watch 的機器學習
2023 年發布的 Apple Watch Series 9 和 Apple Watch Ultra 2 配備了 S9 晶片,內含 4 核神經網路引擎,這是 Series 9 一系列新功能的基礎,包括設備端 Siri、聽寫和雙指互點兩下手勢。此外,Apple Watch 上還有一系列與運動健康相關的功能也涉及機器學習,例如運動檢測和睡眠階段檢測等。

▍系統功能:設備端 Siri、智能疊放、手勢
得益於 Apple Watch Series 9 的四核神經網路引擎,不少機器學習任務可以在 Apple Watch 本地更高效地運行。Siri 可以在設備端執行,無需網際網路連接,因此響應速度更快,還可以在本地處理用戶的健康數據並給出相關回答。例如,除了天氣和計時器等功能外,還可以在 Apple Watch Series 9 上詢問 Siri 自己前一天的睡眠情況、心率情況等。

Apple Watch Series 9 還支持「雙指互點兩下」手勢,可以通過這個手勢來操作 Apple Watch 當前界面上的主要操作,例如接聽電話、開啟計時器、顯示智能疊放等。

watchOS 10 的智能疊放小組件功能也利用機器學習自動建議當前位於最頂部的小組件。每次在錶盤上轉動數碼錶冠,都能看到最及時的資訊,例如即將開始的會議日程、當前播放中的歌曲等。

▍運動與健康:運動檢測、睡眠監測
除了系統相關的功能,Apple Watch 的運動與健康功能也離不開智能技術的參與。例如,2022 年更新的 watchOS 9 增加了對跑姿測量的新指標,其中也包含機器學習成分。

涉及運動健康相關的功能,Apple 也常提到相關模型訓練。例如,watchOS 9 的睡眠階段功能參考了不同人群的睡眠階段臨床研究,並利用設備端機器學習實現。然而令人不解的是,Apple Watch 上的睡眠追蹤功能似乎並不自動監測用戶是否入睡,而是通過睡眠定時功能開啟,用戶只能獲知在睡眠專注模式期間的睡眠階段情況;小睡、鬧鐘關閉後的睡眠都不會繼續跟蹤。

▍安全功能:摔倒檢測、車禍檢測
iPhone 和 Apple Watch 還有一些安全功能,例如 Apple Watch 的摔倒檢測(在 Apple Watch SE、Apple Watch Series 4 或更新機型上可用,我上次在溜冰場觸發了這個功能),也是基於對相關過程的研究分析並形成機器學習模型的。2022 年,Apple 發布了 iPhone 和 Apple Watch 的車禍檢測功能,這個功能背後也有機器學習的影子。

▍輔助功能背後的人工智慧
在 Apple 設備上還有不少輔助功能,幫助在某些知覺或功能方面有障礙的人士更好地使用現代科技,例如我們熟知的放大鏡、VoiceOver 螢幕閱讀器、AirPods 助聽器等。其中也有一些輔助功能涉及到 Apple 設備的神經網路引擎和設備端智能,例如創建個人語音、聲音識別等。
個人聲音是一項輔助功能,通過對 150 個用戶短語錄音的分析,iPhone 或 iPad 可以在設備端創建擬合個人聲線的合成聲音。在進行 FaceTime 通話、打電話、使用輔助交流 App 以及面對面交談時,用戶可以讓系統使用仿真語音朗讀,目前支持英語。對於面臨失語風險的人來說,這項功能可以幫助他們保存自己的聲音,並與他人交流。
聲音識別 (SoundAnalysis) 是 WWDC 2021 推出的一套框架,內置了 300 多種聲音類別的分類數據,開發者可以直接在 app 中調用,系統會通過麥克風對聲音進行識別。在 iOS 中,基於這個框架,Apple 在輔助功能中加入了聲音識別功能,可以識別環境中的各類聲音,例如門鈴聲、警報器聲、貓狗叫聲等,還可以學習一些特定類別的聲音——這對聽障人士提供了一定的幫助。

▍寫在最後:Apple 的 AI 野心
近期有關 Apple 可能與 OpenAI 等開展合作、WWDC 將重點提升 Apple 平台的 AI 能力等等相關的傳聞不斷。我也在思考,在生成式 AI 的這股大潮中,Apple 到底會何去何從呢?
從這篇文章,我們看到 Apple 有深厚的機器學習研究和應用基礎。然而,現如今較大的 LLM 模型似乎已經複雜到在設備上直接處理不可能的地步,它是否還能堅守自己「設備端智能」的價值觀?它又會如何將有更強大能力的 AI 工具帶入自己的軟體平台?
或許答案要等 6 月 10 日 WWDC 2024 才能見分曉了。