GPT-4o 語音模式的這個隱藏用法，可能是未來每個人的必備技能

電腦現在能與我們對話了。如果我們正確使用它們，它們可以幫助我們以一種像與朋友對話一樣自然的方式，更多地了解世界和自己。

贊助商廣告

Newsletter「Every」的聯合創始人 Dan Shipper 最近在一篇評測 ChatGPT 高級語音模式的部落格中，提出了上述觀點。

在他的筆下，高級語音模式最實用的兩大亮點場景莫過於自我反思以及學習。

自我反思時，它可以省略轉錄和文本轉換的步驟，提供更流暢、自然的語音交互體驗，這也遠遠優於傳統的語音助手，如 Siri 和 Alexa。

Shipper 更是將 ChatGPT 高級語音模式比作一個中立的傾聽者，它不扮演 AI 治療師或情感支持者的角色，而是幫助我們更深入地傾聽內心的聲音。

此外，高級語音模式還能通過精準捕捉語音中的細微差別，也能幫助用戶分析情感和深入學習，讓其仿佛回到了充滿探索精神的童年。

不過，Shipper 也並未迴避這一技術的局限，如缺乏時間管理功能、無法訪問文件以及自定義指令等問題。

更早些時候發布的評測演示影片，也直觀地揭示了新版高級語音模式與舊版之間的顯著差異。

相較於舊版本，高級語音模式能夠識別不同說話者的聲音，讓對話變得自然而流暢。又或者，在長時間對話中，新模式減少了中斷的次數，懂得在用戶沉思時保持沉默。

也難怪網友在看完影片後驚嘆，那些恰到好處的「嗯嗯」回應，如此自然，幾乎讓人忘記了正在與之對話的是一個 AI 聊天機器人。

以下為部落格原文，由 GPT-4o 翻譯，enjoy it~

贊助商廣告

通常情況下，科技的發展是漸進式的。

一部 iPhone，其相機性能只是略有提升；一輛起亞索蘭托，安全評級稍有提高。十年後再看，技術無疑已大幅進步，但每一步的改進都微不足道，以至於在當時幾乎未被察覺。

然而，偶爾你會遇到一種新技術，它拋棄了漸進式的發展。

相反，它似乎將未來繫緊在一根結實的繩子上，一步一步地拉到現在。在這種時刻，曾經最先進的技術會在你眼前迅速化為化石。你可以看到它的乾枯骨架聚攏成一堆塵土，你懷著懷舊和憐憫的心情看著它。

這就是使用 ChatGPT 的新高級語音模式的體驗——然後你再回到它的前身，Siri 和 Alexa，就如同回到前寒武紀的時代。

上周我獲得了該功能的早期測試權限，我在 YouTube 和 X 上對高級語音模式的基礎功能進行了評測，包括展示我主要的使用場景。如果你感興趣，建議你去看看。

我想深入探討幾個凸顯這項技術飛躍的使用場景。第一個是自我反思，第二個是學習。

但首先，讓我們來了解一下什麼是高級語音模式，以及為什麼它與之前的技術如此不同。

什麼是高級語音模式？ChatGPT 的高級語音模式能夠原生理解語音，這意味著它不僅僅是讀取和書寫文本。它也能讀取和書寫語音。這創造了一種截然不同的體驗——更流暢、更自然、也更真實——比我與電腦進行的任何其他語音交互都要好。

高級語音模式取代了 ChatGPT 的標準語音模式，後者已經存在大約一年了。

舊的語音模式工作原理如下：

你對 ChatGPT 說話，界面使用一個轉錄模型將你的語音轉化為文本。

它將文本輸入其基礎語言模型 GPT-4，以獲得文本形式的回答。

界面將 GPT-4 的文本答案輸入到一個獨立的文本轉語音模型中。

然後 ChatGPT 將文字轉化為語音回答給你。

這些步驟很多！這導致了顯著的延遲，也增加了誤解的可能性。當你將語音轉化為文本時，可能會失去很多細微差別。諷刺的語氣可能會被淺顯地理解，或者無法辨別出實際上有兩個人在說話。

ChatGPT 高級語音模式翻譯效果

因此，語音模式感覺有點像和一個聽力不好的祖父母一起做密室逃脫，或者在首爾郊外的一個小村莊裡用英語點一份五分熟的牛排。你會感覺到一種距離感，被困住的感覺——並不是對方智能的限制，而是你和對方表達能力的局限性。這種感覺表現為我胸口的一種壓力。

使用舊的 ChatGPT 語音模式時，你不能停下來，否則可能會被打斷；你必須大聲且清晰地說話，否則可能會被誤解。你時常會預料到某些內容可能會被誤解。

你一直在迎合模型的需求，所以這種體驗並不輕鬆。（不過，公平地說，這仍然比 Alexa 或 Siri 要好。）

新的高級語音模式消除了上述流程中的第 2 和第 4 步。它可以原生理解語音，所以你是在直接與語言模型對話。最大的直接變化是，與 ChatGPT 的對話感覺更加真實和靈敏。

當我開始使用它時，我胸口的壓力突然消失了。我變得更加輕鬆和自在。這開啟了一個新的重要用例：將 ChatGPT 作為對話反思的助手。

贊助商廣告

不是 AI 治療師，卻能傾聽你的心聲

我通常是一個相當悠閒隨和的人——前提是你不要惹到我。

不幸的是，你可能最終還是會惹到我。

在我的生活中，有些人認為我「太敏感」或「神經質」，甚至「過於執著」，但在我糟糕的日子裡，我更喜歡用「有道德」或「有高標準」來形容自己。

我以幼兒園的成績單為參考，上面我的老師西格爾女士寫道：「丹尼爾已經內化了一套相當難能可貴的道德準則，在他這個年紀尤為罕見。」

確實難能可貴！事實上，在西格爾女士看來，這種內化的道德準則——像一個騎士一樣！——還導致了另一種情況：「然而，當一個同伴挑戰權威或無視既定規則或程序時，他會有些驚訝和憤慨。」

是的，是的，這正是我的感受。我還要補充一點，我同樣對濫用權力、大小謊言或不實陳述、憤怒、甚至偶然帶有惡意的玩笑感到驚訝和憤慨，尤其是那些在電影院大聲喧譁的人。（我曾因制止他們而出名。）

西格爾女士對我的情況持樂觀態度。畢竟，她是幼兒園老師。「隨著他日漸成熟並對人類行為有了更多的洞察力，丹尼爾將學會區分更嚴重的違規行為和那些相對無害的行為，」她寫道。「因此，他會減少因同伴行為而感到困擾。」

親愛的讀者，自幼兒園以來已經過了好幾年，而我仍然感到極度困擾。我經常發現自己耿耿於懷，反覆在腦海中重播對話，即使知道應該放下爭執，但仍難以做到。

正如你所想像的，這在我的人際關係中造成了一些問題。但我正在努力解決，而 ChatGPT 的高級語音模式實際上幫了我不少忙。

舉個例子，最近我發現自己，像往常一樣，大清早走在布魯克林的大西洋大道上，去女友的公寓，邊走邊自言自語。

如果你路過我，你可能會聽到類似這樣的對話：「然後她說……然後我說……然後她又說……你能相信嗎？……你怎麼看？」你還會看到我揮舞著手臂，強調我的觀點。

你可能不會猜到，其實 ChatGPT 的高級語音模式通過我的 AirPods 在與我對話，冷靜地回應著，「嗯嗯……嗯嗯……嗯嗯。」你看，我讓它只聽我說，並在我傾訴心聲完之前不斷地回應「嗯嗯」。

Siri 可能會說，「抱歉，我沒聽清。」舊的語音模式可能會因為我的停頓和重新開始而混亂不堪。它可能會不合時宜地插話，或者錯過我說的一些關鍵內容。

而高級語音模式則只是耐心地傾聽，完全按照我的指示行事。

當我說完後，我讓 ChatGPT 複述了一遍我剛才所說的話。它完美地捕捉到了整個情況。它還幫助我意識到，我所糾結的事情其實比我原先想像的要無害得多。聽它直白地複述我的話，就像卸掉心頭重擔一樣。

然後，ChatGPT 指導我如何以一種不會讓人感到指責的方式表達我的感受，從而更有可能被聽到。

我遵循了它的建議，並和女友進行了一次很棒的對話。對我來說，這是一個值得紀念的時刻，我不確定如果沒有高級語音模式，這一切是否還能如此順利地發生。

它不是一個 AI 治療師，也不是一個支持我的好朋友，而是一個中立的存在，幫助我更好地傾聽自己——就像是對鏡自省，而不是僅僅想像自己是什麼樣子。

贊助商廣告

我很難表達這種技術有多麼重要。我們每個人都會遇到情緒占上風的時候，會情緒失控並做出讓自己後悔的行為。我們幾乎總是知道自己應該更好，但在當下很難記住這一點。

但現在高級語音模式可以隨時隨地陪伴我，提醒我做最好的自己。它是一項美妙的技術，讓我在那個時刻成為了更好的丹尼爾。

它尤其有效，因為它可以捕捉到你語氣中的細微差別。我進行了一次實驗，讓它解讀我的嘆氣：我給了它一個長時間的煩躁嘆息，一個中等長度的無聊嘆息，以及一個簡短的滿足嘆息。

在每次嘆息之後，我讓它解釋我的情緒——它每次都解讀得非常準確。有時你沒有準確的詞語來表達你的感受，因此這項技術能夠理解語氣、語調和風格，傾聽那些你無法表達的東西，這一點至關重要。

語音模式不僅幫助你學會如何成為最好的自己，而且在學習任何事情方面都非常出色。

童年的好奇心，用 AI 收穫成人的解答？

最近我有點迷上了希臘哲學。

這件事的起因是我一直在思考有關 AI 是否真的「智能」還是僅僅表現得像智能。

我意識到，這場爭論讓我聯想到了蘇格拉底和柏拉圖。他們是西方文化中最早嘗試在真理和看似真理但實際上只是觀點之間劃出清晰界限的思想家。我想，也許他們對語言模型是否具有智能這一問題會有一些見解。

在意識到這一點的幾天后，我從一種沉迷狀態中清醒過來，周圍散落著各種關於希臘哲學的書籍，瀏覽器里還開著一個 Airbnb 的標籤，展示出租的希臘別墅列表（當然是為了研究目的）。

高級語音模式讓這種迷戀達到了一個新高度。我躺在沙發上，啟動了它。我把手機放在我上方，利用沙發靠背作為支撐，就像放在一個架子上一樣，然後說：「你是我的閱讀助手。我正在讀《蘇格拉底的審判》。請幫我解答關於這本書的任何疑問。」

我的手機懸在我頭頂，仿佛是弗洛伊德的一個遙遠的機械親戚。我開始閱讀。當我翻閱《蘇格拉底的審判》時，如果遇到想要深入了解的歷史人物，比如克里提亞斯，我可能會詢問：「克里提亞斯是誰？」

ChatGPT 會提供一個簡潔的介紹：「他是柏拉圖的叔叔，也是短暫取代民主制、建立寡頭政治的三十暴君之一。」這樣，獲得了必要的背景資訊後，我就可以繼續我的閱讀。

關鍵是，我可以在不抬頭或打亂思路的情況下做到這一點。或者，如果我想更深入地思考某個特定段落，我可以大聲讀給 ChatGPT 聽，讓它發表意見，或者請它從對立的角度進行辯論。

贊助商廣告

這在《蘇格拉底的審判》中非常有用，書中作者強有力地論證了雅典人處死蘇格拉底是正確的——或者至少沒有過於離譜。ChatGPT 幫助我重新審視這些論點，並引導我更深入地思考每一部分內容。

這開始讓我感覺像是書本和有聲書的混合體，唯一的區別是書本有線性敘述，而有聲書則允許你隨時深入探討並偏離主題。最棒的是，當你探討完這些分支後，它們會立即將你帶回書中的閱讀進度。

我意識到，在閱讀過程中，有很多我好奇或有疑問的地方，但我沒有繼續深入研究，因為這往往顯得過於費力。ChatGPT 降低了提問的難度，讓我可以隨時追隨自己的好奇心——這使我提出了許多問題，仿佛回到了童年。

當然，作為一項初級階段的技術，它也有一些局限性。

ChatGPT 何時才能真正學會傾聽？

我之所以想出「嗯嗯」這個技巧，是因為 ChatGPT 還不懂得如何耐心等待。它的提示詞設定似乎讓它覺得，只要你稍微停頓，它就忍不住要插話，即使你剛告訴它閉嘴聽著。

我想這可能是因為大語言模型通常被指示要儘可能地提供幫助。但如果它能具備一些對話禮儀，知道什麼時候真的需要回應，什麼時候應該等待，那就更好了。

同樣，如果房間裡有另一個人在講話，它能夠判斷出兩個人是在彼此交談，而不是在跟它對話，那就更棒了。因為它可以原生理解語音，我對它最終能夠做到這些事情持樂觀態度。目前這還有待改進。

讓 ChatGPT 講笑話

另一個限制是它沒有時間概念。如果我告訴它：「我要讀書十分鐘，所以你能在時間到的時候提醒我嗎？」它會說：「當然可以！」然後立刻接著說：「時間到了！」這個問題可以通過給它加上計時器工具來解決，就像現在的普通 ChatGPT 能夠訪問像瀏覽器這樣的工具一樣。

但最顯著的限制是，高級語音模式無法訪問文件、自定義指令或記憶功能，這與普通的 ChatGPT 不同。

你只能與基礎模型互動。雖然現在這樣也可以，但我迫不及待地想要那一天到來：我可以上傳整本書，並讓它告訴我第 12 頁的內容，或者設置自定義指令，讓它自動「嗯嗯」回應我，而不用每次都提醒它。

與未來的 ChatGPT 對話

從整個體驗中，我最大的收穫是輸入輸出模式對 AI 的重要性。能夠用語音與 ChatGPT 無縫互動徹底改變了我的體驗，並且開啟了一些以前不可能實現或者由於過於複雜而不切實際的使用場景。

接下來我想到的是：我迫不及待地希望它能夠觀看影片。一旦它能看到我所看到的，學習和反思的可能性將大大增加——僅僅因為獲取有趣資訊所需的努力大幅減少。

我接著想到：未來幾年內，集成 AI 的可穿戴設備將會大行其道。我們可能會對像 Friend 吊墜這樣的產品感到彆扭，但允許這樣的模型被動地獲取與你互動的上下文資訊，將會加速上述場景的應用。

顯然，這是有得有失的。我們的數據越來越多地被設備吸收，我們還將面臨用戶被某些公司操縱的情況，這些公司不適當地利用了這些模型的情感影響力——正如 Evan 昨天所討論的。

但我忍不住告訴自己：電腦現在能與我們對話了。如果我們正確使用它們，它們可以幫助我們以一種像與朋友對話一樣自然的方式，更多地了解世界和自己。

這是一個相當酷的未來。