當AI開口說話的同時還能寫代碼——來自多所高校聯合團隊的語音大模型新突破

這項研究由多所高校及科研機構聯合團隊完成，論文以預印本形式於2026年5月4日發布在arXiv平台，編號為arXiv:2606.07547，有興趣深入了解的讀者可通過該編號查詢完整原文。

贊助商廣告

---

假設你正在和一個AI語音助手交流，用說話的方式請它幫你寫一段Python代碼。它聽完之後，嘴裡流利地說著"好的，給你一個經典的二分查找實現"——但與此同時，一段完整、可以直接運行的代碼也同步出現在你面前的螢幕上，就像有人邊解釋邊寫黑板一樣。這不是科幻電影裡的場景，而是這篇論文正在做到的事情。

這項研究的核心問題，其實可以用一句話來描述：當AI通過聲音和你交流時，它有沒有辦法同時保留文字的能力？

### 一、說出來的答案，未必是最好的答案

人類在交流的時候有一個默契：嘴巴說出來的話和手寫下來的內容，天生就適合做不同的事情。說話擅長的是節奏、輪換、互動，而寫下來的東西——無論是代碼、表格、數學推導，還是會議紀要——才是需要被精確保留、反覆查閱、逐字核對的內容。想想一個技術評審會：與會者口頭討論，但最終要簽字確認的是那份書面文件，沒有人會把核心架構決策只寄托在聲音上。

大語言模型本質上是一種"文字動物"。它最拿手的那些事情——寫代碼、生成結構化報告、推導數學步驟、製作Markdown表格——都需要在文字的空間裡展開。但當這類模型被接上麥克風和揚聲器，變成一個"語音助手"之後，一道無形的牆就出現了：所有輸出都必須經過"能不能說出口"這道關卡。結果就是，一個本來可以輸出漂亮Python代碼的模型，只能對著用戶把代碼一個字母一個字母地念出來，逼得用戶手忙腳亂地轉錄；一個本來可以生成整潔Markdown表格的模型，只能把表格拍扁成一段線性的口頭敘述，讓人聽完一頭霧水。

這就是這篇論文要解決的核心矛盾——研究團隊把它稱為"語音模態對LLM能力的壓制"。

贊助商廣告

### 二、前人走過的路，以及那條沒人走的路

在這項工作之前，已經有不少研究團隊嘗試為語音AI引入"思考"能力。這些嘗試大致分成幾條路線，可以用一場音樂會來打比方：有的方案是"演出前先排練"，也就是讓模型先在腦子裡把推理做完，再開口說話，這樣雖然質量好但響應慢，而且在用戶說話期間模型什麼都沒有做；有的方案是"邊演奏邊翻譜"，也就是把思考和說話交織在一起，但這種思考過程用戶根本看不到，仍然是隱藏在幕後的；還有一類方案專注於解決"全雙工"問題，也就是讓AI在說話的同時也能聽用戶說話，但這類系統的輸出只有聲音，沒有文字。

這篇論文的研究團隊把這些方案整理成了一張對比表，沿著四個維度衡量每個方案：能不能實現真正的全雙工互動（一邊說話一邊還在聽）？能不能輸出自由格式的文字？能不能在聽的時候就開始認知處理？能不能在說話的同時繼續產出文字？現有的任何一個方案，都在這四個維度里至少缺一項。有的模型可以全雙工但沒有文字輸出，有的模型有文字輸出但不是全雙工，有的模型在聽的時候有思考但一開口說話就停止了。

沒有人走過這樣一條路：讓文字輸出成為一個始終開著的、用戶可見的"第一輸出通道"，同時保持全雙工的聽和說。這就是研究團隊選擇開闢的方向，他們把它叫做**Listen-Write-Speak（聽-寫-說，簡稱LWS）**。

### 三、三個同時開著的頻道，一個模型來承擔

LWS的核心設計理念，可以用一個廣播直播間的畫面來理解。直播間裡有三件事同時發生：主播的耳機里一直在收聽外部的聲音（聽）；主播面前有一塊白板，他用筆在上面實時寫下結構化的資訊——圖表、代碼、大綱（寫）；同時主播的嘴也在對著麥克風說話，用口語化的方式向聽眾解說（說）。這三件事並不是依次進行的，而是真正同時運作的，共享同一個意識上下文。

贊助商廣告

LWS把整個對話時間軸切成一段一段的"單元（Unit）"，每個單元的時長是1秒。每一秒里，模型都在做以下的事情：接收這一秒的用戶音頻，生成這一秒的可見文字，以及（如果到了該說話的階段）生成這一秒的語音內容。

當用戶還在說話的時候，每個單元叫做"監聽單元"。在這種單元里，模型一邊消化音頻，一邊在螢幕上實時寫出它正在理解到的內容——比如用戶說"幫我寫一個二分查找"，模型在用戶話說到一半時，螢幕上可能已經出現了"用戶在問關於二分查找的Python實現"這樣的中間理解筆記。這些文字就像一個人邊聽邊做的速記，用戶可以全程看到。

當用戶說完、模型進入回應階段時，單元變為"發言單元"。在這種單元里，三件事同時運行：耳機還開著（模型仍在監聽，以備用戶隨時打斷）；嘴裡開始說口語化的回應（"好的，這是一個經典的二分查找實現"）；白板上同時出現完整的代碼（`def binary_search(arr, target): ...`）。說出來的話是對寫出來的內容的口語解說版本，兩者內容一致但形式不同，各司其職。

這個設計最巧妙的地方在於：它不需要改變模型的架構。整個三頻道行為完全通過一套叫做"Token Schema（詞元方案）"的特殊標記來實現，在標準的自回歸Transformer里就能跑。沒有額外的解碼器，沒有跨頻道的對齊模組，模型還是那個模型，只是學會了用一套特殊的標點符號來分隔三條並行的輸出流。

### 四、一套特殊的標記，讓模型知道自己在幹什麼

Token Schema的設計思路，類比起來就像是一本有格式規範的會議記錄模板。每一頁（每個單元）的開頭寫``，然後先填入這一秒的音頻內容，接著用特定的開閉標籤包住這一秒的認知筆記或語音內容，最後以``收尾。

監聽單元的格式是：單元開始標記，然後是10個音頻詞元（對應1秒的音頻），然後是監聽認知開始標記，接著是這一秒的可見文字內容，然後是監聽認知結束標記，最後是單元結束標記。

贊助商廣告

發言單元則更複雜一些：單元開始，10個音頻詞元，然後是說話開始標記，接著是這一秒的口語詞元，然後是語音塊結束標記，隨後切換到回應認知開始標記，再是這一秒的可見寫作內容，最後是回應認知結束標記和單元結束標記。

研究團隊特意把"聽的時候寫的文字"和"說的時候寫的文字"用不同的標籤區分開來，而不是用一個統一的標籤。這背後有一個資訊論上的道理：這兩段文字所處的"時間位置"不同，所依賴的上下文也不同。聽的時候寫的內容，只能基於已經聽到的音頻；說的時候寫的內容，除了音頻還可以參考模型自己說出的話。把這兩種狀態明確區分開，可以讓模型更清楚地知道自己當下處於哪種資訊環境，從而減少下一個詞的預測難度，並且避免在全雙工互動中產生"時間因果污染"——也就是避免模型用還沒說到的資訊來影響當前的輸出。

### 五、數據從哪裡來：一條兩階段的流水線

訓練這樣一個模型需要特殊的數據：每一秒都有認知標註、與音頻時間軸嚴格對齊的訓練樣本。這種數據在任何公開語料庫里都不存在。研究團隊因此設計了一套兩階段的數據構建流水線，從零開始合成這類數據。

第一階段叫"離線認知合成"。起點是普通的文字問答對，然後用一個強大的"教師模型"（Qwen3-235B）來為這些問答對生成三條並行的文字流。第一條流是"流式推理鏈"，模擬一個人在逐秒聽取用戶提問時腦子裡產生的理解過程，用來監督監聽階段的寫作；第二條流是"語音回應"，是一個簡潔的口語化改寫版本，用來監督說話內容；第三條流就是原始的結構化回應本身，用來監督發言階段的寫作。這一步有個關鍵約束：模擬流式推理的時候，教師模型只能看到"到第t秒為止已經被說出的那部分輸入"，不能提前知道用戶後面還會說什麼。這就像讓一個人閉上右眼、只用左眼看逐漸展開的字幕，而不是一開始就看完整的文本。

贊助商廣告

第二階段叫"在線時間軸構建"。這一步把第一階段生成的文字流和真實的音頻錄音結合起來，利用CTC（一種字符級對齊技術）把每個字、每個詞精確對應到音頻里的時間點，然後按秒把整個對話分配成一系列單元，填入對應的音頻詞元和文字內容。為了讓模型學會處理打斷和接話，團隊還對一部分訓練樣本做了"打斷增強"——模擬用戶在模型說話途中插話的情況。最終的訓練集包含50萬個中英文混合的樣本，全部按照1秒單元的格式排列好。

### 六、實驗結果：四個方向的測試

研究團隊在四個不同的評測維度上檢驗了LWS的表現。

在語音理解與推理能力方面，研究團隊使用了URO-Bench——一個分理解（U）、推理（R）、口語（O）三個維度、並且區分基礎和進階難度的多語言評測集。LWS在中文進階（Pro）部分的整體平均分拿到了84.6，是所有測試模型里最高的，顯著超過GPT-4o-Audio（67.1）和GPT-Realtime（70.6）。在中文進階的理解和推理子項上，LWS分別拿到92.5和85.9，也都是最高分。英文部分的表現相對均衡，整體處於競爭水平。更關鍵的是，研究團隊做了兩個消融實驗——一個去掉了"聽的時候寫"的功能，一個去掉了"說的時候寫"的功能——結果顯示，這兩項功能任何一個被去掉，模型的表現都會系統性地下降，無論是中文還是英文、基礎還是進階，LWS完整版都穩定地優於兩個消融版本。訓練損失曲線也顯示，三條頻道在聯合訓練過程中都平滑收斂，沒有出現互相干擾或不穩定的情況。

在回應質量方面，研究團隊使用了VoiceBench AlpacaEval，這是一個語音轉文字的評測協議：模型接受語音輸入，但被評分的是文字輸出，因此直接反映的是可見寫作頻道的質量。LWS拿到了4.72分，超過了所有列出的開源基線（VITA-1.5拿4.21，Step-Audio拿4.13，Freeze-Omni拿4.03，GLM-4-Voice拿3.97），與GPT-4o-Audio的4.78分只差0.06。

贊助商廣告

在寫說一致性方面，研究團隊擔心的一個潛在問題是：同時生成寫的內容和說的內容，會不會出現兩者互相矛盾的情況？為了量化這個風險，研究團隊抽取了636個樣本，用GPT-5作為裁判，判斷每個樣本中說出來的內容是否與寫出來的內容在事實上一致。結果是636個樣本里有589個通過，一致性達到92.6%，說明兩個用戶面向頻道在絕大多數情況下是協調的，引入可見寫作並沒有實質性地破壞回應的連貫性。

在全雙工互動能力方面，研究團隊使用了Full-Duplex-Bench，這個評測集包含四種場景：停頓處理（模型應該在用戶暫停時正常接話）、反饋信號（模型應該在合適的時機發出"嗯"、"對"等簡短回應）、輪次交替（流暢地從聽轉換到說）和打斷處理（用戶在模型說話時插話，模型能否正常響應）。在停頓處理上，LWS在合成停頓和自然停頓兩個子項上都達到了0.01的接管率，與GPT-Realtime持平，是所有測試模型里最低的（越低說明模型越不會搶話）。在輪次交替上，LWS以0.48秒的延遲實現了0.97的Candor接管率，比大型商業實時模型快很多，同時保持了有競爭力的交替質量。在打斷處理上，LWS以0.65秒的延遲獲得了4.02的GPT-4o質量評分，說明它在被用戶打斷後仍然能夠給出有質量的回應。

### 七、這個設計有什麼局限性

研究團隊坦誠地指出了兩個當前的短板。

第一個局限是推理深度受限於實時性。因為每個單元只有1秒，模型必須在這1秒內同時完成聽、寫、說三件事，這對時間資源的要求很高。當遇到需要多步驟推導、長時間規劃或者調用外部工具的複雜任務時，1秒內能寫出的文字量是有限的，深度不足。如果要做更複雜的推理，可能需要一種機制讓模型在說話之前多寫幾秒，但目前的框架還沒有這樣的功能。

第二個局限是輸入界面比較窄。目前LWS只接受語音輸入，用戶不能同時給它看代碼截圖、粘貼表格或者上傳圖片。在真實的工作場景中，人們經常需要邊說話邊分享螢幕或文件，這種多模態輸入場景目前還沒有被覆蓋，研究團隊把它列為未來的重要方向。

贊助商廣告

### 八、這意味著什麼

說到底，這篇論文提出的答案其實是一個很直接的想法：語音AI和文字AI不應該是兩個分開的東西，而應該是同一個系統用不同的通道輸出。聲音負責流暢的對話體驗，文字負責精確的、持久的、可以被檢查和修改的內容。這兩件事可以同時進行，而且不需要建一個全新的複雜架構，只需要給模型一套"標點規範"，讓它知道每一秒該往哪個頻道寫什麼。

這種思路對於未來的人機交互方式有一定的參考意義。當你對著設備說話，不再需要在"對話體驗"和"得到有用的結構化輸出"之間二選一。工程師可以口頭討論需求，同時看到代碼在螢幕上成形；學生可以和AI口頭探討數學題，同時看到推導步驟被寫出來；會議參與者可以在討論進行的同時，看到摘要和決策被實時記錄下來。嘴巴和筆，終於可以屬於同一個AI。

值得思考的一個問題是：當AI既能說又能寫，而且寫出來的東西看起來精心完整，用戶會不會更容易把這些輸出當作權威答案，從而減少自己的核查？研究團隊在倫理聲明部分也提到了這個擔憂，他們建議在部署時對兩個輸出頻道同步做內容審核，並明確告知用戶可見寫作是一種輔助性的中間輸出，而非經過驗證的事實。這個提醒值得記住。

有興趣進一步了解技術細節的讀者，可以通過arXiv編號2606.07547找到完整的原始論文，其中附錄部分包含了完整的推理流程示例、數據構建的詳細參數和所有評測的評判提示詞，資訊量相當豐富。

---

**Q&A**

Q1：Listen-Write-Speak模型和普通的語音助手有什麼區別？

A：普通語音助手只能輸出聲音，你問它寫代碼，它只能把代碼一個字一個字地念出來。Listen-Write-Speak在回答的同時會把完整的代碼或結構化內容同步顯示在螢幕上，說出來的是口語解釋，寫出來的是可以直接使用的精確內容，兩個頻道同時工作，各自做最擅長的事。

贊助商廣告

Q2：Listen-Write-Speak的"全雙工"是什麼意思？

A：全雙工意味著模型在說話的同時，耳朵也沒有關掉，還在持續監聽你說的話。如果你在它回答的中途打斷它，它能立刻感知到並作出反應，不像很多語音助手說話時完全"失聰"，必須等它說完才能接收新的指令。這讓對話更接近真實的人與人之間的交流節奏。

Q3：Listen-Write-Speak在寫出來的內容和說出來的內容之間會不會出現矛盾？

A：研究團隊專門測試了這個問題，在636個測試樣本中，兩個頻道內容一致的有589個，一致率達到92.6%。也就是說絕大多數時候寫的和說的是協調的，但仍有約7%的情況存在出入，因此研究團隊建議部署時對兩個輸出都做審核，不要只看螢幕上的文字就直接使用。