宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

ChatGPT語音創造者創業,致力打造現實版「Her」中的AI語音技術

2026年05月12日 首頁 » 熱門科技

Alexis Conneau對電影《雲端情人》(Her)有著近乎痴迷的熱情。過去數年間,他一直致力於將片中那個虛構的語音AI"薩曼莎"變為現實。他甚至將電影主角瓦昆·菲尼克斯的劇照設為自己的Twitter橫幅封面。

在OpenAI主導ChatGPT高級語音模式(Advanced Voice Mode)項目期間——此前他在Meta也從事過類似工作——Conneau在某種程度上實現了這個目標。這套AI系統能夠原生處理語音,並以近似真人的方式進行回應。

如今,他創立了全新的初創公司WaveForms AI,立志打造更出色的語音AI技術。

Conneau在接受TechCrunch採訪時表示,他花了大量時間思考如何避免電影中呈現的那種反烏托邦景象。《雲端情人》是一部科幻電影,描繪了一個人們與AI系統建立親密關係、而非與真實人類交往的世界。

"這部電影本質上是一個反烏托邦,不是我們想要的未來,"Conneau說,"我們希望將這項技術——它現在已經存在,未來也將繼續存在——用於造福人類。我們的目標,恰恰與電影中那家公司的做法相反。"

在構建技術的同時避免其帶來的反烏托邦效應,聽起來似乎自相矛盾。但Conneau仍然堅定地推進這一目標,他相信自己的新AI公司能讓人們"用耳朵感受到通用人工智慧(AGIChatGPT語音創造者創業致力打造現實版Her中的AI語音技術)的存在"。

本周一,Conneau正式發布WaveForms AI,這是一家專注於訓練自有基礎模型的音頻大語言模型公司。公司計劃在2025年推出音頻AI產品,直接與OpenAI和谷歌的相關產品展開競爭。公司同日宣布完成4000萬美元種子輪融資,由Andreessen Horowitz領投。Conneau透露,曾撰文呼籲AI融入人類生活方方面面的Marc Andreessen本人對這一項目抱有濃厚的個人興趣。

值得一提的是,Conneau對《雲端情人》的痴迷曾一度給OpenAI帶來麻煩。史嘉蕾·喬韓森此前向這家初創公司發出法律威脅,最終迫使OpenAI下架了一款與她在影片中的角色聲音高度相似的ChatGPT語音。OpenAI否認曾刻意模仿其聲音。

儘管如此,這部電影對Conneau的影響毋庸置疑。《雲端情人》於2013年上映時,還是徹頭徹尾的科幻構想——彼時蘋果的Siri剛剛推出,功能極為有限。而今天,這項技術已觸手可及,令人不寒而慄。

Character.AI等AI陪伴平台每周吸引數百萬用戶與聊天機器人互動交流,該領域正成為生成式AI的熱門應用場景——儘管偶有令人憂慮的負面事件發生。不難想像,那些整天通過文字與聊天機器人交流的用戶,一定渴望能直接與其對話,尤其是使用像ChatGPT高級語音模式這樣逼真的技術。

WaveForms AI的CEO對AI陪伴領域持謹慎態度,這也並非公司的核心業務方向。儘管他預見用戶會以全新方式使用WaveForms的產品——例如在駕車途中與AI對話二十分鐘學習某個話題——Conneau表示,他希望公司走"橫向平台"路線。

"WaveForms AI可以成為那位給人啟迪的老師,也許是你在現實生活中從未遇到過的老師,"這位CEO說道。

他相信,與生成式AI對話將成為人們與各類技術交互的主流方式,涵蓋與汽車對話、與電腦對話等場景。WaveForms的目標是提供能夠貫穿其中的"情感智能"AI。

"我不認為人機交互會取代人與人之間的交互,"Conneau說,"如果說有什麼影響,那也是相輔相成的。"

他表示,AI可以從社交媒體的錯誤中汲取教訓。例如,他認為AI不應將"用戶在平台上的停留時長"作為核心成功指標——這一常見的社交應用衡量標準往往助長了刷屏上癮等不健康習慣。從更宏觀的層面看,他希望確保WaveForms的AI始終服務於人類的最大利益,並將這稱為"最重要的工作"。

Conneau認為,OpenAI為其項目起的名字"高級語音模式"並不能充分體現這項技術與普通語音模式之間的本質差異。

舊版語音模式的工作流程實際上是:將用戶語音轉為文字,交由GPT-4處理,再將文字轉換為語音輸出,是一套拼湊式的解決方案。而在高級語音模式中,GPT-4o會將用戶聲音的音頻直接解析為Token(據悉每秒音頻大約對應三個Token),並將這些Token直接輸入專為音頻設計的Transformer模型進行處理。正是這一機制,使高級語音模式得以實現極低的響應延遲。

在談到AI音頻模型時,"能夠理解情緒"是一個被頻繁提及的說法。與基於海量文本訓練的文本大語言模型類似,音頻大語言模型也通過大量人類語音片段進行學習。人工標註人員將這些片段標註為"悲傷"或"興奮"等情緒標籤,使AI模型在聽到類似的聲音模式時能夠識別,甚至在回應時加入相應的情感語調。因此,與其說它們"理解情緒",不如說它們系統性地識別了人類與特定情緒相關聯的音頻特徵。

Conneau判斷,當前的生成式AI無需在底層智能上取得重大突破,就足以打造出更優質的產品。與OpenAI通過o1系列提升模型底層智能的思路不同,WaveForms專注的方向是讓AI變得更易於交流。

"會有一批用戶在使用生成式AI時,純粹選擇他們覺得最愉快的交互方式,"Conneau說。

正因如此,WaveForms相信自己有能力開發出專屬的基礎模型——理想情況下是更輕量、更低成本、運行更快的小型模型。鑑於近期舊有的AI擴展定律增益已趨於放緩,這一判斷並非沒有依據。

Conneau表示,他昔日在OpenAI的同事Ilya Sutskever曾多次與他談及"感受AGI"的想法——即用直覺判斷我們是否已經邁入超級智能時代的門檻。WaveForms的CEO深信,達到AGI更多是一種感受,而非某項基準測試的達成,而音頻大語言模型將是觸發這種感受的關鍵所在。

"我認為,當你能夠與AGI對話、聆聽AGI的聲音、真正和Transformer本身交流的時候,你對AGI的感知將會深刻得多,"Conneau說,這也是他曾在一次晚餐上對Sutskever說過的話。

然而,隨著初創公司不斷優化AI的對話體驗,如何防止用戶對AI產生依賴也是不可迴避的責任。對此,參與領投WaveForms的Andreessen Horowitz普通合伙人Martin Casado認為,人們更頻繁地與AI交談,未必是一件壞事。

"在網上和陌生人聊天,對方可能會欺負你、利用你;玩電子遊戲,內容可能充斥暴力;而與AI對話則不同,"Casado在接受TechCrunch採訪時說,"我認為這是一個值得深入研究的重要問題,如果最終發現與AI對話實際上更為健康,我不會感到意外。"

一些公司或許會將用戶對AI產生深厚情感視為成功的標誌,但從社會層面審視,這同樣可能是一種徹底失敗的信號——就如同電影《雲端情人》所試圖揭示的那樣。這正是WaveForms如今必須小心翼翼走過的一道鋼絲。

Q&A

Q1:WaveForms AI是一家什麼樣的公司,主要做什麼?

A:WaveForms AI是由ChatGPT高級語音模式的創造者Alexis Conneau創立的音頻大語言模型初創公司,專注於訓練自有音頻基礎模型。公司計劃於2025年推出音頻AI產品,目標是打造情感智能AI,使人與技術之間的語音交互更加自然流暢,並與OpenAI、谷歌等公司的產品展開競爭。公司已完成由Andreessen Horowitz領投的4000萬美元種子輪融資。

Q2:ChatGPT高級語音模式和普通語音模式有什麼區別?

A:普通語音模式的工作方式是將語音轉為文字,再由GPT-4處理,最後將文字轉回語音,是一套拼湊式的流程。而高級語音模式中,GPT-4o會直接將音頻解析為Token(每秒音頻約對應三個Token),並輸入專為音頻設計的Transformer模型進行處理,從而實現更低的響應延遲和更自然的對話體驗。

Q3:AI音頻模型真的能理解人類情緒嗎?

A:並非真正意義上的"理解情緒"。音頻大語言模型通過大量帶有情緒標註的人類語音片段進行訓練,學會識別與特定情緒相關聯的音頻特徵,並在回應時模擬相應的情感語調。本質上是對音頻模式的系統性識別,而非像人類一樣真正感知和理解情緒。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新