這項研究由多所高校及科研機構聯合團隊完成,論文以預印本形式於2026年5月4日發布在arXiv平台,編號為arXiv:2606.07547,有興趣深入了解的讀者可通過該編號查詢完整原文。
---
假設你正在和一個AI語音助手交流,用說話的方式請它幫你寫一段Python代碼。它聽完之後,嘴裡流利地說著"好的,給你一個經典的二分查找實現"——但與此同時,一段完整、可以直接運行的代碼也同步出現在你面前的螢幕上,就像有人邊解釋邊寫黑板一樣。這不是科幻電影裡的場景,而是這篇論文正在做到的事情。
這項研究的核心問題,其實可以用一句話來描述:當AI通過聲音和你交流時,它有沒有辦法同時保留文字的能力?
### 一、說出來的答案,未必是最好的答案
人類在交流的時候有一個默契:嘴巴說出來的話和手寫下來的內容,天生就適合做不同的事情。說話擅長的是節奏、輪換、互動,而寫下來的東西——無論是代碼、表格、數學推導,還是會議紀要——才是需要被精確保留、反覆查閱、逐字核對的內容。想想一個技術評審會:與會者口頭討論,但最終要簽字確認的是那份書面文件,沒有人會把核心架構決策只寄托在聲音上。
大語言模型本質上是一種"文字動物"。它最拿手的那些事情——寫代碼、生成結構化報告、推導數學步驟、製作Markdown表格——都需要在文字的空間裡展開。但當這類模型被接上麥克風和揚聲器,變成一個"語音助手"之後,一道無形的牆就出現了:所有輸出都必須經過"能不能說出口"這道關卡。結果就是,一個本來可以輸出漂亮Python代碼的模型,只能對著用戶把代碼一個字母一個字母地念出來,逼得用戶手忙腳亂地轉錄;一個本來可以生成整潔Markdown表格的模型,只能把表格拍扁成一段線性的口頭敘述,讓人聽完一頭霧水。
這就是這篇論文要解決的核心矛盾——研究團隊把它稱為"語音模態對LLM能力的壓制"。
### 二、前人走過的路,以及那條沒人走的路
在這項工作之前,已經有不少研究團隊嘗試為語音AI引入"思考"能力。這些嘗試大致分成幾條路線,可以用一場音樂會來打比方:有的方案是"演出前先排練",也就是讓模型先在腦子裡把推理做完,再開口說話,這樣雖然質量好但響應慢,而且在用戶說話期間模型什麼都沒有做;有的方案是"邊演奏邊翻譜",也就是把思考和說話交織在一起,但這種思考過程用戶根本看不到,仍然是隱藏在幕後的;還有一類方案專注於解決"全雙工"問題,也就是讓AI在說話的同時也能聽用戶說話,但這類系統的輸出只有聲音,沒有文字。
這篇論文的研究團隊把這些方案整理成了一張對比表,沿著四個維度衡量每個方案:能不能實現真正的全雙工互動(一邊說話一邊還在聽)?能不能輸出自由格式的文字?能不能在聽的時候就開始認知處理?能不能在說話的同時繼續產出文字?現有的任何一個方案,都在這四個維度里至少缺一項。有的模型可以全雙工但沒有文字輸出,有的模型有文字輸出但不是全雙工,有的模型在聽的時候有思考但一開口說話就停止了。
沒有人走過這樣一條路:讓文字輸出成為一個始終開著的、用戶可見的"第一輸出通道",同時保持全雙工的聽和說。這就是研究團隊選擇開闢的方向,他們把它叫做**Listen-Write-Speak(聽-寫-說,簡稱LWS)**。
### 三、三個同時開著的頻道,一個模型來承擔
LWS的核心設計理念,可以用一個廣播直播間的畫面來理解。直播間裡有三件事同時發生:主播的耳機里一直在收聽外部的聲音(聽);主播面前有一塊白板,他用筆在上面實時寫下結構化的資訊——圖表、代碼、大綱(寫);同時主播的嘴也在對著麥克風說話,用口語化的方式向聽眾解說(說)。這三件事並不是依次進行的,而是真正同時運作的,共享同一個意識上下文。
LWS把整個對話時間軸切成一段一段的"單元(Unit)",每個單元的時長是1秒。每一秒里,模型都在做以下的事情:接收這一秒的用戶音頻,生成這一秒的可見文字,以及(如果到了該說話的階段)生成這一秒的語音內容。
當用戶還在說話的時候,每個單元叫做"監聽單元"。在這種單元里,模型一邊消化音頻,一邊在螢幕上實時寫出它正在理解到的內容——比如用戶說"幫我寫一個二分查找",模型在用戶話說到一半時,螢幕上可能已經出現了"用戶在問關於二分查找的Python實現"這樣的中間理解筆記。這些文字就像一個人邊聽邊做的速記,用戶可以全程看到。
當用戶說完、模型進入回應階段時,單元變為"發言單元"。在這種單元里,三件事同時運行:耳機還開著(模型仍在監聽,以備用戶隨時打斷);嘴裡開始說口語化的回應("好的,這是一個經典的二分查找實現");白板上同時出現完整的代碼(`def binary_search(arr, target): ...`)。說出來的話是對寫出來的內容的口語解說版本,兩者內容一致但形式不同,各司其職。
這個設計最巧妙的地方在於:它不需要改變模型的架構。整個三頻道行為完全通過一套叫做"Token Schema(詞元方案)"的特殊標記來實現,在標準的自回歸Transformer里就能跑。沒有額外的解碼器,沒有跨頻道的對齊模組,模型還是那個模型,只是學會了用一套特殊的標點符號來分隔三條並行的輸出流。
### 四、一套特殊的標記,讓模型知道自己在幹什麼
Token Schema的設計思路,類比起來就像是一本有格式規範的會議記錄模板。每一頁(每個單元)的開頭寫`
監聽單元的格式是:單元開始標記,然後是10個音頻詞元(對應1秒的音頻),然後是監聽認知開始標記,接著是這一秒的可見文字內容,然後是監聽認知結束標記,最後是單元結束標記。
發言單元則更複雜一些:單元開始,10個音頻詞元,然後是說話開始標記,接著是這一秒的口語詞元,然後是語音塊結束標記,隨後切換到回應認知開始標記,再是這一秒的可見寫作內容,最後是回應認知結束標記和單元結束標記。
研究團隊特意把"聽的時候寫的文字"和"說的時候寫的文字"用不同的標籤區分開來,而不是用一個統一的標籤。這背後有一個資訊論上的道理:這兩段文字所處的"時間位置"不同,所依賴的上下文也不同。聽的時候寫的內容,只能基於已經聽到的音頻;說的時候寫的內容,除了音頻還可以參考模型自己說出的話。把這兩種狀態明確區分開,可以讓模型更清楚地知道自己當下處於哪種資訊環境,從而減少下一個詞的預測難度,並且避免在全雙工互動中產生"時間因果污染"——也就是避免模型用還沒說到的資訊來影響當前的輸出。
### 五、數據從哪裡來:一條兩階段的流水線
訓練這樣一個模型需要特殊的數據:每一秒都有認知標註、與音頻時間軸嚴格對齊的訓練樣本。這種數據在任何公開語料庫里都不存在。研究團隊因此設計了一套兩階段的數據構建流水線,從零開始合成這類數據。
第一階段叫"離線認知合成"。起點是普通的文字問答對,然後用一個強大的"教師模型"(Qwen3-235B)來為這些問答對生成三條並行的文字流。第一條流是"流式推理鏈",模擬一個人在逐秒聽取用戶提問時腦子裡產生的理解過程,用來監督監聽階段的寫作;第二條流是"語音回應",是一個簡潔的口語化改寫版本,用來監督說話內容;第三條流就是原始的結構化回應本身,用來監督發言階段的寫作。這一步有個關鍵約束:模擬流式推理的時候,教師模型只能看到"到第t秒為止已經被說出的那部分輸入",不能提前知道用戶後面還會說什麼。這就像讓一個人閉上右眼、只用左眼看逐漸展開的字幕,而不是一開始就看完整的文本。
第二階段叫"在線時間軸構建"。這一步把第一階段生成的文字流和真實的音頻錄音結合起來,利用CTC(一種字符級對齊技術)把每個字、每個詞精確對應到音頻里的時間點,然後按秒把整個對話分配成一系列單元,填入對應的音頻詞元和文字內容。為了讓模型學會處理打斷和接話,團隊還對一部分訓練樣本做了"打斷增強"——模擬用戶在模型說話途中插話的情況。最終的訓練集包含50萬個中英文混合的樣本,全部按照1秒單元的格式排列好。
### 六、實驗結果:四個方向的測試
研究團隊在四個不同的評測維度上檢驗了LWS的表現。
在語音理解與推理能力方面,研究團隊使用了URO-Bench——一個分理解(U)、推理(R)、口語(O)三個維度、並且區分基礎和進階難度的多語言評測集。LWS在中文進階(Pro)部分的整體平均分拿到了84.6,是所有測試模型里最高的,顯著超過GPT-4o-Audio(67.1)和GPT-Realtime(70.6)。在中文進階的理解和推理子項上,LWS分別拿到92.5和85.9,也都是最高分。英文部分的表現相對均衡,整體處於競爭水平。更關鍵的是,研究團隊做了兩個消融實驗——一個去掉了"聽的時候寫"的功能,一個去掉了"說的時候寫"的功能——結果顯示,這兩項功能任何一個被去掉,模型的表現都會系統性地下降,無論是中文還是英文、基礎還是進階,LWS完整版都穩定地優於兩個消融版本。訓練損失曲線也顯示,三條頻道在聯合訓練過程中都平滑收斂,沒有出現互相干擾或不穩定的情況。
在回應質量方面,研究團隊使用了VoiceBench AlpacaEval,這是一個語音轉文字的評測協議:模型接受語音輸入,但被評分的是文字輸出,因此直接反映的是可見寫作頻道的質量。LWS拿到了4.72分,超過了所有列出的開源基線(VITA-1.5拿4.21,Step-Audio拿4.13,Freeze-Omni拿4.03,GLM-4-Voice拿3.97),與GPT-4o-Audio的4.78分只差0.06。
在寫說一致性方面,研究團隊擔心的一個潛在問題是:同時生成寫的內容和說的內容,會不會出現兩者互相矛盾的情況?為了量化這個風險,研究團隊抽取了636個樣本,用GPT-5作為裁判,判斷每個樣本中說出來的內容是否與寫出來的內容在事實上一致。結果是636個樣本里有589個通過,一致性達到92.6%,說明兩個用戶面向頻道在絕大多數情況下是協調的,引入可見寫作並沒有實質性地破壞回應的連貫性。
在全雙工互動能力方面,研究團隊使用了Full-Duplex-Bench,這個評測集包含四種場景:停頓處理(模型應該在用戶暫停時正常接話)、反饋信號(模型應該在合適的時機發出"嗯"、"對"等簡短回應)、輪次交替(流暢地從聽轉換到說)和打斷處理(用戶在模型說話時插話,模型能否正常響應)。在停頓處理上,LWS在合成停頓和自然停頓兩個子項上都達到了0.01的接管率,與GPT-Realtime持平,是所有測試模型里最低的(越低說明模型越不會搶話)。在輪次交替上,LWS以0.48秒的延遲實現了0.97的Candor接管率,比大型商業實時模型快很多,同時保持了有競爭力的交替質量。在打斷處理上,LWS以0.65秒的延遲獲得了4.02的GPT-4o質量評分,說明它在被用戶打斷後仍然能夠給出有質量的回應。
### 七、這個設計有什麼局限性
研究團隊坦誠地指出了兩個當前的短板。
第一個局限是推理深度受限於實時性。因為每個單元只有1秒,模型必須在這1秒內同時完成聽、寫、說三件事,這對時間資源的要求很高。當遇到需要多步驟推導、長時間規劃或者調用外部工具的複雜任務時,1秒內能寫出的文字量是有限的,深度不足。如果要做更複雜的推理,可能需要一種機制讓模型在說話之前多寫幾秒,但目前的框架還沒有這樣的功能。
第二個局限是輸入界面比較窄。目前LWS只接受語音輸入,用戶不能同時給它看代碼截圖、粘貼表格或者上傳圖片。在真實的工作場景中,人們經常需要邊說話邊分享螢幕或文件,這種多模態輸入場景目前還沒有被覆蓋,研究團隊把它列為未來的重要方向。
### 八、這意味著什麼
說到底,這篇論文提出的答案其實是一個很直接的想法:語音AI和文字AI不應該是兩個分開的東西,而應該是同一個系統用不同的通道輸出。聲音負責流暢的對話體驗,文字負責精確的、持久的、可以被檢查和修改的內容。這兩件事可以同時進行,而且不需要建一個全新的複雜架構,只需要給模型一套"標點規範",讓它知道每一秒該往哪個頻道寫什麼。
這種思路對於未來的人機交互方式有一定的參考意義。當你對著設備說話,不再需要在"對話體驗"和"得到有用的結構化輸出"之間二選一。工程師可以口頭討論需求,同時看到代碼在螢幕上成形;學生可以和AI口頭探討數學題,同時看到推導步驟被寫出來;會議參與者可以在討論進行的同時,看到摘要和決策被實時記錄下來。嘴巴和筆,終於可以屬於同一個AI。
值得思考的一個問題是:當AI既能說又能寫,而且寫出來的東西看起來精心完整,用戶會不會更容易把這些輸出當作權威答案,從而減少自己的核查?研究團隊在倫理聲明部分也提到了這個擔憂,他們建議在部署時對兩個輸出頻道同步做內容審核,並明確告知用戶可見寫作是一種輔助性的中間輸出,而非經過驗證的事實。這個提醒值得記住。
有興趣進一步了解技術細節的讀者,可以通過arXiv編號2606.07547找到完整的原始論文,其中附錄部分包含了完整的推理流程示例、數據構建的詳細參數和所有評測的評判提示詞,資訊量相當豐富。
---
**Q&A**
Q1:Listen-Write-Speak模型和普通的語音助手有什麼區別?
A:普通語音助手只能輸出聲音,你問它寫代碼,它只能把代碼一個字一個字地念出來。Listen-Write-Speak在回答的同時會把完整的代碼或結構化內容同步顯示在螢幕上,說出來的是口語解釋,寫出來的是可以直接使用的精確內容,兩個頻道同時工作,各自做最擅長的事。
Q2:Listen-Write-Speak的"全雙工"是什麼意思?
A:全雙工意味著模型在說話的同時,耳朵也沒有關掉,還在持續監聽你說的話。如果你在它回答的中途打斷它,它能立刻感知到並作出反應,不像很多語音助手說話時完全"失聰",必須等它說完才能接收新的指令。這讓對話更接近真實的人與人之間的交流節奏。
Q3:Listen-Write-Speak在寫出來的內容和說出來的內容之間會不會出現矛盾?
A:研究團隊專門測試了這個問題,在636個測試樣本中,兩個頻道內容一致的有589個,一致率達到92.6%。也就是說絕大多數時候寫的和說的是協調的,但仍有約7%的情況存在出入,因此研究團隊建議部署時對兩個輸出都做審核,不要只看螢幕上的文字就直接使用。






