去年這個時候,如果你在辦公室,原地突然就開始對著電腦說話,一次兩次會被人以為是在打電話,三番五次就不禁讓人懷疑——工作壓力是不是太大了,都開始自言自語了?
但到了今年,可能就是用語音解放雙手了。越來越多的員工選擇對著螢幕口述,而不是敲鍵盤。不管是寫代碼、寫方案,還是跟 AI 交流,用說的,開始變得越來越方便。
從「對話」到「操作」
3 月 3 日,Anthropic 向約 5% 的用戶推送了 Claude Code 的語音模式。操作極簡:在終端輸入 `/voice`,按住空格鍵說話,鬆手即執行,轉錄 token 完全免費。

語音轉文字,早就不是什麼新鮮事兒了,但是,Claude Code 不是一個聊天應用——它是一個 AI 編程工具,年化收入在今年 2 月已突破 25 億美元,兩個月內翻倍。
當一個以「寫代碼」為核心場景的產品開始支持語音輸入,它傳遞的信號是:語音不再是一個「更方便」的選項,而是被嚴肅對待的生產能力。
Bloomberg 也發現了這個現象,並且走訪了紐約銷售平台 Clay 的教育負責人 Yash Tekriwal 說,他用語音輸入的速度是每分鐘 205 個詞,打字只有 110 到 120 個。更關鍵的是,他發現口述的 prompt 質量更高。

打字時工程師會寫「fix bug」,但說話時會自然地給出更長、更具體的上下文描述。轉錄創業公司 Wispr 的 CEO Tanay Kothari 把這總結為:「打字時,你的 prompt 就是垃圾。」
200 毫秒,技術的拐點
語音作為生產工具之所以出現已久,卻現在才真正可用,背後有一個關鍵的技術閾值被突破:端到端延遲降到了 200 毫秒以內。
一條完整的語音 AI 鏈路需要三步——語音轉文字(STT)、大語言模型處理(LLM)、文字轉語音(TTS)。一年前,這條鏈路的總延遲在 500 到 800 毫秒,用戶能明顯感覺到「卡頓」。今年 3 月的多項基準測試確認,這個數字已經被壓縮到 200 到 250 毫秒。最典型的是 Deepgram Aura-2(TTS),首字節延遲 90–200ms,支持 7 種語言。
You can now call your @openclaw over the phone using Deepgram 📞 👉 Flux built-in turn detection (knows when you're actually done talking) 👉 Aura-2 TTS at 90ms latency 👉 40% cheaper than alternatives 👉 fully open source Setup is wild: have OpenClaw clone the repo below, say "I want to call you on the phone", and it walks you through everything https://github.com/deepgram/deepclaw.git
200 毫秒是一個什麼概念?人類面對面對話中,輪換間隔的中位數大約在 200 到 300 毫秒。這就意味著,AI 語音交互的響應速度已經達到了人類對話的自然節奏。這意味著用戶不再需要「等待」AI 回應——對話可以像和真人說話一樣流暢地進行。
語音的用戶心智一度跌入低谷。在社交中,發語音甚至成了一種帶有壓迫感的行為,觀感很不好。
然而風水輪流轉,AI 的介入讓語音的價值結構發生了根本性的變化。過去,語音消息的問題在於:說的人省事了,但聽的人要花更多時間去解碼——資訊的負擔從發送方轉移到了接收方。而現在,AI 充當了中間層:你對著 AI 說話,AI 把你的語音轉化為結構化的文字、代碼、指令。語音的「輸入快」優勢被保留了,而「輸出亂」的劣勢被 AI 吸收了。
這也是 Typeless 這樣的產品正在驗證的邏輯。它們不是在做「語音消息 2.0」,而是讓語音回歸為一種輸入方式——你說話,但對方看到的是整理好的文字。語音不再是一個需要被「忍受」的溝通格式,而是一個被 AI 翻譯過的高效輸入通道。

從微信語音消息到 Wispr、Typeless、Claude Code 語音模式,這條線畫出了一個完整的弧線:語音的第一次崛起靠的是低門檻,它的衰落是因為低效率,而它的第二次崛起靠的是 AI 解決了效率問題。同一個技術,運作方式已經完全不同。
一個 77 億美元的市場
Grand View Research 估算,AI 語音生成市場今年的規模約為 77 億美元,到 2030 年將達到 218 億美元。但數字背後隱藏著一個更有趣的問題:技術已經準備好了,人準備好了嗎?
Clay 的 Tekriwal 承認,當他最初在開放辦公區對著電腦說話時,同事的反應是困惑的,「這是在跟人說話,還是在自言自語?」儘管他的整個團隊後來都轉向了語音輸入,但這個「尷尬期」本身就說明,語音作為工作界面面臨的最大阻力不是技術問題,而是社會規範問題。

多倫多投資管理平台 Boosted.ai 經驗更能說明問題。該公司去年在平台中加入了語音功能,一個名為 Alfa 的 AI 語音助手,可以朗讀投資報告並接受語音指令。大多數機構客戶試過讓 AI 朗讀報告,但主動對 AI 說話的人少得多。
Wispr 的 Kothari 估計,用戶從鍵盤切換到語音大約需要兩到三周的適應期。他說了一句很有意味的話:「需要改變的是社會觀念——你不是因為對著電腦說話就成了瘋子。」
語音 AI 的故事,表面上是一個交互方式的升級——從打字到說話,從鍵盤到麥克風。但更準確地說,它是一次輪迴:語音從來不缺「自然」的優勢,它缺的一直是一個足夠聰明的中間層,來彌合「說」和「被理解」之間的鴻溝。2026 年,這個中間層第一次真正就位了。
接下來的問題不再是「語音能不能用」,而是:當說話比打字更高效的時候,我們的工作方式、協作習慣、甚至思考節奏,會被怎樣改寫?






