ChatGPT語音創造者創業，致力打造現實版「Her」中的AI語音技術

Alexis Conneau對電影《雲端情人》（Her）有著近乎痴迷的熱情。過去數年間，他一直致力於將片中那個虛構的語音AI"薩曼莎"變為現實。他甚至將電影主角瓦昆·菲尼克斯的劇照設為自己的Twitter橫幅封面。

贊助商廣告

在OpenAI主導ChatGPT高級語音模式（Advanced Voice Mode）項目期間——此前他在Meta也從事過類似工作——Conneau在某種程度上實現了這個目標。這套AI系統能夠原生處理語音，並以近似真人的方式進行回應。

如今，他創立了全新的初創公司WaveForms AI，立志打造更出色的語音AI技術。

Conneau在接受TechCrunch採訪時表示，他花了大量時間思考如何避免電影中呈現的那種反烏托邦景象。《雲端情人》是一部科幻電影，描繪了一個人們與AI系統建立親密關係、而非與真實人類交往的世界。

"這部電影本質上是一個反烏托邦，不是我們想要的未來，"Conneau說，"我們希望將這項技術——它現在已經存在，未來也將繼續存在——用於造福人類。我們的目標，恰恰與電影中那家公司的做法相反。"

在構建技術的同時避免其帶來的反烏托邦效應，聽起來似乎自相矛盾。但Conneau仍然堅定地推進這一目標，他相信自己的新AI公司能讓人們"用耳朵感受到通用人工智慧（AGI ChatGPT語音創造者創業致力打造現實版Her中的AI語音技術）的存在"。

本周一，Conneau正式發布WaveForms AI，這是一家專注於訓練自有基礎模型的音頻大語言模型公司。公司計劃在2025年推出音頻AI產品，直接與OpenAI和谷歌的相關產品展開競爭。公司同日宣布完成4000萬美元種子輪融資，由Andreessen Horowitz領投。Conneau透露，曾撰文呼籲AI融入人類生活方方面面的Marc Andreessen本人對這一項目抱有濃厚的個人興趣。

值得一提的是，Conneau對《雲端情人》的痴迷曾一度給OpenAI帶來麻煩。史嘉蕾·喬韓森此前向這家初創公司發出法律威脅，最終迫使OpenAI下架了一款與她在影片中的角色聲音高度相似的ChatGPT語音。OpenAI否認曾刻意模仿其聲音。

贊助商廣告

儘管如此，這部電影對Conneau的影響毋庸置疑。《雲端情人》於2013年上映時，還是徹頭徹尾的科幻構想——彼時蘋果的Siri剛剛推出，功能極為有限。而今天，這項技術已觸手可及，令人不寒而慄。

Character.AI等AI陪伴平台每周吸引數百萬用戶與聊天機器人互動交流，該領域正成為生成式AI的熱門應用場景——儘管偶有令人憂慮的負面事件發生。不難想像，那些整天通過文字與聊天機器人交流的用戶，一定渴望能直接與其對話，尤其是使用像ChatGPT高級語音模式這樣逼真的技術。

WaveForms AI的CEO對AI陪伴領域持謹慎態度，這也並非公司的核心業務方向。儘管他預見用戶會以全新方式使用WaveForms的產品——例如在駕車途中與AI對話二十分鐘學習某個話題——Conneau表示，他希望公司走"橫向平台"路線。

"WaveForms AI可以成為那位給人啟迪的老師，也許是你在現實生活中從未遇到過的老師，"這位CEO說道。

他相信，與生成式AI對話將成為人們與各類技術交互的主流方式，涵蓋與汽車對話、與電腦對話等場景。WaveForms的目標是提供能夠貫穿其中的"情感智能"AI。

"我不認為人機交互會取代人與人之間的交互，"Conneau說，"如果說有什麼影響，那也是相輔相成的。"

他表示，AI可以從社交媒體的錯誤中汲取教訓。例如，他認為AI不應將"用戶在平台上的停留時長"作為核心成功指標——這一常見的社交應用衡量標準往往助長了刷屏上癮等不健康習慣。從更宏觀的層面看，他希望確保WaveForms的AI始終服務於人類的最大利益，並將這稱為"最重要的工作"。

Conneau認為，OpenAI為其項目起的名字"高級語音模式"並不能充分體現這項技術與普通語音模式之間的本質差異。

舊版語音模式的工作流程實際上是：將用戶語音轉為文字，交由GPT-4處理，再將文字轉換為語音輸出，是一套拼湊式的解決方案。而在高級語音模式中，GPT-4o會將用戶聲音的音頻直接解析為Token（據悉每秒音頻大約對應三個Token），並將這些Token直接輸入專為音頻設計的Transformer模型進行處理。正是這一機制，使高級語音模式得以實現極低的響應延遲。

贊助商廣告

在談到AI音頻模型時，"能夠理解情緒"是一個被頻繁提及的說法。與基於海量文本訓練的文本大語言模型類似，音頻大語言模型也通過大量人類語音片段進行學習。人工標註人員將這些片段標註為"悲傷"或"興奮"等情緒標籤，使AI模型在聽到類似的聲音模式時能夠識別，甚至在回應時加入相應的情感語調。因此，與其說它們"理解情緒"，不如說它們系統性地識別了人類與特定情緒相關聯的音頻特徵。

Conneau判斷，當前的生成式AI無需在底層智能上取得重大突破，就足以打造出更優質的產品。與OpenAI通過o1系列提升模型底層智能的思路不同，WaveForms專注的方向是讓AI變得更易於交流。

"會有一批用戶在使用生成式AI時，純粹選擇他們覺得最愉快的交互方式，"Conneau說。

正因如此，WaveForms相信自己有能力開發出專屬的基礎模型——理想情況下是更輕量、更低成本、運行更快的小型模型。鑑於近期舊有的AI擴展定律增益已趨於放緩，這一判斷並非沒有依據。

Conneau表示，他昔日在OpenAI的同事Ilya Sutskever曾多次與他談及"感受AGI"的想法——即用直覺判斷我們是否已經邁入超級智能時代的門檻。WaveForms的CEO深信，達到AGI更多是一種感受，而非某項基準測試的達成，而音頻大語言模型將是觸發這種感受的關鍵所在。

"我認為，當你能夠與AGI對話、聆聽AGI的聲音、真正和Transformer本身交流的時候，你對AGI的感知將會深刻得多，"Conneau說，這也是他曾在一次晚餐上對Sutskever說過的話。

然而，隨著初創公司不斷優化AI的對話體驗，如何防止用戶對AI產生依賴也是不可迴避的責任。對此，參與領投WaveForms的Andreessen Horowitz普通合伙人Martin Casado認為，人們更頻繁地與AI交談，未必是一件壞事。

"在網上和陌生人聊天，對方可能會欺負你、利用你；玩電子遊戲，內容可能充斥暴力；而與AI對話則不同，"Casado在接受TechCrunch採訪時說，"我認為這是一個值得深入研究的重要問題，如果最終發現與AI對話實際上更為健康，我不會感到意外。"

贊助商廣告

一些公司或許會將用戶對AI產生深厚情感視為成功的標誌，但從社會層面審視，這同樣可能是一種徹底失敗的信號——就如同電影《雲端情人》所試圖揭示的那樣。這正是WaveForms如今必須小心翼翼走過的一道鋼絲。

Q&A

Q1：WaveForms AI是一家什麼樣的公司，主要做什麼？

A：WaveForms AI是由ChatGPT高級語音模式的創造者Alexis Conneau創立的音頻大語言模型初創公司，專注於訓練自有音頻基礎模型。公司計劃於2025年推出音頻AI產品，目標是打造情感智能AI，使人與技術之間的語音交互更加自然流暢，並與OpenAI、谷歌等公司的產品展開競爭。公司已完成由Andreessen Horowitz領投的4000萬美元種子輪融資。

Q2：ChatGPT高級語音模式和普通語音模式有什麼區別？

A：普通語音模式的工作方式是將語音轉為文字，再由GPT-4處理，最後將文字轉回語音，是一套拼湊式的流程。而高級語音模式中，GPT-4o會直接將音頻解析為Token（每秒音頻約對應三個Token），並輸入專為音頻設計的Transformer模型進行處理，從而實現更低的響應延遲和更自然的對話體驗。

Q3：AI音頻模型真的能理解人類情緒嗎？

A：並非真正意義上的"理解情緒"。音頻大語言模型通過大量帶有情緒標註的人類語音片段進行訓練，學會識別與特定情緒相關聯的音頻特徵，並在回應時模擬相應的情感語調。本質上是對音頻模式的系統性識別，而非像人類一樣真正感知和理解情緒。