辦公室里對著AI說話的人，可能會比用鍵盤打字的人更早下班

去年這個時候，如果你在辦公室，原地突然就開始對著電腦說話，一次兩次會被人以為是在打電話，三番五次就不禁讓人懷疑——工作壓力是不是太大了，都開始自言自語了？

贊助商廣告

但到了今年，可能就是用語音解放雙手了。越來越多的員工選擇對著螢幕口述，而不是敲鍵盤。不管是寫代碼、寫方案，還是跟 AI 交流，用說的，開始變得越來越方便。

從「對話」到「操作」

3 月 3 日，Anthropic 向約 5% 的用戶推送了 Claude Code 的語音模式。操作極簡：在終端輸入 `/voice`，按住空格鍵說話，鬆手即執行，轉錄 token 完全免費。

語音轉文字，早就不是什麼新鮮事兒了，但是，Claude Code 不是一個聊天應用——它是一個 AI 編程工具，年化收入在今年 2 月已突破 25 億美元，兩個月內翻倍。

當一個以「寫代碼」為核心場景的產品開始支持語音輸入，它傳遞的信號是：語音不再是一個「更方便」的選項，而是被嚴肅對待的生產能力。

Bloomberg 也發現了這個現象，並且走訪了紐約銷售平台 Clay 的教育負責人 Yash Tekriwal 說，他用語音輸入的速度是每分鐘 205 個詞，打字只有 110 到 120 個。更關鍵的是，他發現口述的 prompt 質量更高。

打字時工程師會寫「fix bug」，但說話時會自然地給出更長、更具體的上下文描述。轉錄創業公司 Wispr 的 CEO Tanay Kothari 把這總結為：「打字時，你的 prompt 就是垃圾。」

200 毫秒，技術的拐點

語音作為生產工具之所以出現已久，卻現在才真正可用，背後有一個關鍵的技術閾值被突破：端到端延遲降到了 200 毫秒以內。

一條完整的語音 AI 鏈路需要三步——語音轉文字（STT）、大語言模型處理（LLM）、文字轉語音（TTS）。一年前，這條鏈路的總延遲在 500 到 800 毫秒，用戶能明顯感覺到「卡頓」。今年 3 月的多項基準測試確認，這個數字已經被壓縮到 200 到 250 毫秒。最典型的是 Deepgram Aura-2（TTS），首字節延遲 90–200ms，支持 7 種語言。

贊助商廣告

You can now call your @openclaw over the phone using Deepgram 📞 👉 Flux built-in turn detection (knows when you're actually done talking) 👉 Aura-2 TTS at 90ms latency 👉 40% cheaper than alternatives 👉 fully open source Setup is wild: have OpenClaw clone the repo below, say "I want to call you on the phone", and it walks you through everything https://github.com/deepgram/deepclaw.git

200 毫秒是一個什麼概念？人類面對面對話中，輪換間隔的中位數大約在 200 到 300 毫秒。這就意味著，AI 語音交互的響應速度已經達到了人類對話的自然節奏。這意味著用戶不再需要「等待」AI 回應——對話可以像和真人說話一樣流暢地進行。

語音的用戶心智一度跌入低谷。在社交中，發語音甚至成了一種帶有壓迫感的行為，觀感很不好。

然而風水輪流轉，AI 的介入讓語音的價值結構發生了根本性的變化。過去，語音消息的問題在於：說的人省事了，但聽的人要花更多時間去解碼——資訊的負擔從發送方轉移到了接收方。而現在，AI 充當了中間層：你對著 AI 說話，AI 把你的語音轉化為結構化的文字、代碼、指令。語音的「輸入快」優勢被保留了，而「輸出亂」的劣勢被 AI 吸收了。

這也是 Typeless 這樣的產品正在驗證的邏輯。它們不是在做「語音消息 2.0」，而是讓語音回歸為一種輸入方式——你說話，但對方看到的是整理好的文字。語音不再是一個需要被「忍受」的溝通格式，而是一個被 AI 翻譯過的高效輸入通道。

從微信語音消息到 Wispr、Typeless、Claude Code 語音模式，這條線畫出了一個完整的弧線：語音的第一次崛起靠的是低門檻，它的衰落是因為低效率，而它的第二次崛起靠的是 AI 解決了效率問題。同一個技術，運作方式已經完全不同。

贊助商廣告

一個 77 億美元的市場

Grand View Research 估算，AI 語音生成市場今年的規模約為 77 億美元，到 2030 年將達到 218 億美元。但數字背後隱藏著一個更有趣的問題：技術已經準備好了，人準備好了嗎？

Clay 的 Tekriwal 承認，當他最初在開放辦公區對著電腦說話時，同事的反應是困惑的，「這是在跟人說話，還是在自言自語？」儘管他的整個團隊後來都轉向了語音輸入，但這個「尷尬期」本身就說明，語音作為工作界面面臨的最大阻力不是技術問題，而是社會規範問題。

多倫多投資管理平台 Boosted.ai 經驗更能說明問題。該公司去年在平台中加入了語音功能，一個名為 Alfa 的 AI 語音助手，可以朗讀投資報告並接受語音指令。大多數機構客戶試過讓 AI 朗讀報告，但主動對 AI 說話的人少得多。

Wispr 的 Kothari 估計，用戶從鍵盤切換到語音大約需要兩到三周的適應期。他說了一句很有意味的話：「需要改變的是社會觀念——你不是因為對著電腦說話就成了瘋子。」

語音 AI 的故事，表面上是一個交互方式的升級——從打字到說話，從鍵盤到麥克風。但更準確地說，它是一次輪迴：語音從來不缺「自然」的優勢，它缺的一直是一個足夠聰明的中間層，來彌合「說」和「被理解」之間的鴻溝。2026 年，這個中間層第一次真正就位了。

接下來的問題不再是「語音能不能用」，而是：當說話比打字更高效的時候，我們的工作方式、協作習慣、甚至思考節奏，會被怎樣改寫？