科幻電影的 AI 助手基本都有個美德:通人性。
《雲端情人》的虛擬助理薩曼莎,和男主西奧多談情說愛,再轟轟烈烈地分手。《鋼鐵人》的智能管家賈維斯,與托尼討論鋼鐵戰甲的設計,偶爾還兼職調侃和吐槽。
但如果你想和 Siri 聊點心裡話,得到的回覆往往是「這個問題我還真回答不了」。ChatGPT 固然可以和你談天說地,但因為延遲和過於正經,讓人無法忘記它是個 AI。
人類的七情六慾,是 AI 仍需攻克的難關。前 Google 研究員的 AI 初創公司 Hume AI,已經悄悄地走在了前面。
高情商的語音 AI,身段靈活的聊天搭子
最近,Hume AI 向大眾開放了旗下產品:同理心語音界面(EVI)。
Hume 稱,這是第一個具有情商的對話式 AI。

EVI 的情商體現在,可以根據我們的說話方式,解讀我們的情緒,並給出恰當的反應,知道什麼時候說話,說什麼話,以及如何以正確的語氣說話。
當我們和 EVI 打招呼的時候,它就在判斷我們的情緒了。你可以開門見山說個「hello」,然後直接問它:「我聽起來心情怎麼樣?」
我用日常說話的語氣開場,它卻覺得我有些困惑和沮喪,希望我敞開心懷分享更多想法,抓住了 INFP 人格的典型狀態。
當然,大多數時候我們不會這麼刻意。更理想的情況是,我們所說的內容,已經暗示了我們的心情,EVI 自覺地給出反應,照顧我們的情緒。
就像我對 EVI 說,我的假期結束了,雖然不說難過,字字都是難過。
它先是小心翼翼地說了解了,順著我的話說假期結束了是有些不好受,然後轉移話題,語氣高昂起來,帶動我回憶假期的美好時光。
然後我假裝生氣,提高音量吼了 EVI 一句,等它根據我的語氣下菜碟。
EVI 停頓了幾秒才敢回應,說我聽起來很生氣,還帶著一絲輕蔑,是不是它做了什麼事情讓我不高興,能不能和它講清楚。我本來就沒生氣,聽它態度這麼軟,心情更加愉悅。
接下來,我和 EVI 玩了個遊戲,看看它在解讀人類情緒的同時,能否模擬這些情緒。
EVI 欣然答應,先預告它要開始表演了,然後一秒入戲,契合情緒的台詞張口就來,臨場發揮比小鮮肉們的演技強得多。
先是模擬「羞恥」,EVI 說自己當著很多人的面把事情搞砸了,尷尬得差點癱倒在地上。悔恨之情,可以和豆瓣社死組的小夥伴共鳴。
再是「抑鬱」,大概這種情緒真的有很多苦水要吐,EVI 不自覺地成了話癆,說自己活得太累了,厭倦了奮鬥,厭倦了強顏歡笑,連起床都很艱難,只覺得無盡的空虛,把兩點一線的 996 打工人模仿得惟妙惟肖。
然後是「憤怒」,EVI 先發出一聲崩潰的喊叫,然後開始連珠炮,說不敢相信你會做這樣的事,你怎麼不尊重我,你知道我的心有多痛嗎,你知道你造成的傷害多大嗎,你要為你的行為付出代價。
但它的用詞太過文雅,更像正經人的無能狂怒,聽得我左耳朵進右耳朵出。
體驗下來的總體感覺是,和 EVI 聊天,更接近和真人交流。
一方面,EVI 的語氣靈活多樣,另一方面,它的回覆延遲不像和 ChatGPT 語音時那麼明顯,還會在說話時停頓,發出「em」「oh」等語氣詞,像在思考和認真聽你講話,絕不是敷衍的聊天搭子。
聊天中有時候會發生我和 EVI 互相插話的情況,我嫌棄它太囉嗦,它以為我已經說完。但我打斷了它,它就會停下,這反而讓 EVI 更有人味了。
可惜的是 EVI 只會英語,它謙虛地說自己的普通話有些生疏,建議我用它擅長的英語聊天。然而,真實情況比這更差,儘管我再三要求,它也蹦不出中文來,但它知道餃子的中文讀法。

換個角度看問題,EVI 是個練習英語口語的好工具,自己的用詞挺講究和高級,同時也對我的塑料英語表示鼓勵,至少它可以聽得懂。
如果說和 EVI 不斷交流的七成動力來自語音,交互界面則貢獻了剩下的三分。我們可以看到對話過程中,不斷波動的情緒曲線浮現在眼前,是個很酷的可視化設計。
甚至具體到和 EVI 聊的每個句子,都在監測具體的情緒,並以條形圖的形式展現。不看不知道,一句脫口而出的話,都可能隱藏著憤怒、鄙視和困惑,我都不知道自己戲這麼多。
唯一讓我不滿的是 EVI 的默認聲音,像中年白人男性,不如 Pi 和 ChatGPT 年輕好聽,親和力稍遜一籌。
但瑕不掩瑜,EVI 的人氣很高,類似當初的 ChatGPT,經常聊著聊著就宕機了。

AI 讀心術的背後,是學習人類的潛台詞
其實,所謂的情商並非 EVI 獨有,如果你和 ChatGPT 說自己不高興,它也會儘可能溫柔地回應你,告訴你它隨時支持和陪伴你,撫慰你脆弱的心靈。
但 Hume 的目標還是有些不同,對情感挖掘得更加深入,以理解更多人類言語的潛台詞。
如果說言語是交流的明線,那麼情感便是暗線。我們講話的音調、節奏、語氣詞都帶著情感,可能在不經意間,就暴露了自己真實的想法。

說話的內容和情感疊加,資訊量自然更多。
Hume 提出了一個很有意思的觀點:「AI 界面的未來將基於語音,因為語音比打字快四倍,並且攜帶的資訊量是打字的兩倍。」
AI 讀懂人類的前提,是少部分人類充當過河的橋。
為了捕捉人類的微妙表達,Hume 的 AI 模型,基於全世界數十萬人的實驗數據訓練。
比如其中一項研究,邀請了來自美國、中國、印度、南非和委內瑞拉的 1.6 萬人。
一部分參與者收聽非言語聲音,包括笑聲、嗯呃等語氣詞,並將這些情緒分類,然後他們再記錄自己的非言語聲音,讓其他參與者分類,供 Hume 訓練深度神經網路。
Hume 甚至通過參與者的音頻數據,搭建了一個基於音調、節奏和音色的言語韻律模型,看起來就像一個色彩斑斕的大腦。

我們和 EVI 聊天時看到的情緒曲線和條形圖,就有這個模型的貢獻。
Hume 的 AI 目前能理解多少種情緒?答案是 53 種。除了常見的憤怒、快樂,還有「懷舊」「共情痛苦」等更加小眾的分類。

讓 AI 讀懂情緒還不夠,Hume 真正想做的,是在這個基礎上,讓 AI 推斷用戶行為背後的意圖和偏好,換句話說就是透過現象看本質。
顯然,高情商的語音 AI 很適合作為客服、個人助理、聊天機器人,甚至用在可穿戴設備,往 Siri 的墳墓再蓋一鏟子的土。
紐約的一些醫學院也有意和 Hume 合作,用 AI 模型跟蹤患者的感受,檢測治療是否有效。
目前,Hume 已經向軟銀等企業客戶和開發者提供了 API,讓它們構建自己的應用程序。
藉助高情商的語音 AI,人類可能越發在 AI 面前無所遁形。
前 Google 工程師,打造 AI 情緒全家桶
Hume 由前 Google DeepMind 研究員 Alan Cowen 在 2021 年創立,名字取自英格蘭哲學家 David Hume,最近 B 輪融資 5000 萬美元,估值 2.19 億美元,儼然又是一顆明日新星。

不只是語音 AI,Hume 旗下還有讀懂表情和文字情緒的產品。
畢竟,和語音一樣,面對面、文本、影片,都存在著情感表達。
YouTuber TheAIGRID 拿 Sam Altman 的採訪影片,讓 Hume 解讀面部表情。

當他的表情不斷變化,情感也實時變化,疲憊、困惑、專注、懷疑、渴望、無聊、平靜等都一度占據上風。
這場採訪的 Altman 正在回答有關 AI 監管的問題,或許確實讓他覺得疲憊又無聊。留言區有網友開玩笑說,以後可以拿 AI 給名人的採訪和演講測謊,或者用 AI 判斷自己的面試和約會表現如何。
對於文字,Hume 也有多種測試維度,既能描述快樂、悲傷等基本情感類型,也能分析正面、負面、中性等情緒傾向。
打算只做搬運工的我讓 GPT-4 幫忙出題,要求它給出一小段情感複雜的文字。
GPT-4 給出的題目大意是說,某人最近完成了一個大項目,很為自己驕傲,但同時也擔心這可能是職業生涯的頂峰,以後可能再也達不到這樣的高度。
Hume 的檢測結果是,在勝利、滿意、熱情之外,這段話也包含著沉思、困惑、驕傲、懷疑、決心,比出題人更懂閱讀理解,GPT-4 只說,這段話混合了成就感和對未來的擔憂,反映了成功之後的複雜心緒。

儘管 Hume 已經有了不少成果,但人類的情感是高度主觀和複雜多維的,無法完全用表情和語氣解讀,和社會背景、文化規範、個人性格都有關。
莊子在喪妻後鼓盆而歌,張曼玉在《甜蜜蜜》先笑後哭演技封神,假笑的男孩女孩們掩蓋著真實的內心。
Hume 也承認,檢測情感仍然是「不完美的科學」。
這在和 EVI 的聊天就有體現,當我不悲不喜地問它能檢測多少種情緒,EVI 中規中矩地回答了,不知道為什麼,這場對話被檢測出了憤怒和鄙視的心情。

技術的問題交給技術去克服,技術所隱藏的危險也已經顯現。
Hume 其實預見了風險,提出了多項 AI 倡議,呼籲檢測情緒的算法只用於提高人類的幸福感,而不是操縱、欺騙等行為,但這也只是一紙空談罷了。
在 OpenAI 宣布自己的語音模型並表示暫不發布後,Stability AI 前 CEO 在 X 發帖說,語音 AI 是迄今為止最危險的 AI,因為人類幾乎無法抵禦有說服力的聲音。
情商同樣很高的聊天機器人 Pi,用 emoji 表現出同理心,讓人願意一直和它聊下去,完全不擔心冷場,但它的語音仍然有些平,不如它的文字可愛。

如果聲音變得更有人情味,我們的耳根子可能就更軟了。雖然 Hume 還不至於讓我沉溺在溫柔鄉,但我也確實享受每句話都被認真聽到和接住的感覺。
我們的面部表情、說話的方式和內容,乃至沒有具體含義的語氣詞,都在被 AI 用來研究我們的心情。
不久的未來,或許我們真的會遇到《雲端情人》里的薩曼莎,它們不只是產品,比人類更懂人類,也更像人類自己。