阿里巴巴造出「數字人」：能看、能聽、能說，還能和你同時對話，延遲不到一秒

這項由阿里巴巴集團Wan團隊完成的研究，以技術報告形式於2026年6月23日公開發布，論文編號為arXiv:2606.25041v1，任何感興趣的讀者都可以通過這個編號在arXiv平台上查閱完整原文。

贊助商廣告

**一個奇怪的現實：明明是多模態AI，卻像個"啞巴接線員"**

人和人之間的對話是什麼感覺？你說一句話，對方的眼神就會有反應；你還沒說完，對方可能已經點頭；你突然打斷，對方會停下來聽。這一切都在毫秒之間發生，雙向、同時、連續不斷。

然而現有的AI對話系統，哪怕打著"多模態"的旗號，實際上大多是這樣工作的：先把你的聲音送給一個語音識別模組轉成文字，再把文字送給語言模型生成回答，再把回答送給語音合成模組讀出來，如果還要生成一個會動的數字人臉，還得再送給一個動畫生成模組。這個流程就像接力賽——每一棒都要等上一棒跑完才能起跑，每個"接棒點"都會多耗時間，而且每個模組的錯誤都會疊加傳遞下去。更關鍵的是，當AI正在說話的時候，它根本沒有在"看"你或"聽"你，更別說感知你想要打斷它了。

這就是阿里巴巴Wan團隊想要解決的問題。他們給出的答案叫做**Wan-Streamer**，一個從零開始專門為"實時雙向音影片交流"設計的端到端基礎模型。

**一、把"接力賽"變成"一人表演"**

Wan-Streamer的核心思路可以用一個極簡的類比來理解：過去的AI對話系統像一個由多名演員接力完成的廣播劇——配音員、音效師、混音師各司其職，每個人處理完自己的部分才遞給下一位；而Wan-Streamer更像一位全能的單口喜劇演員，他能同時聽到台下的反應、調整自己的節奏、說話、做表情，所有這些都在同一個人、同一個時間進行，不存在"等上一個人完成"的問題。

技術上說，Wan-Streamer用一個單一的Transformer神經網路（可以理解為一個超級大腦）同時處理和生成文字、聲音、影片三種模態，而且這三種模態既可以作為輸入（用戶給AI看的、說的、寫的），也可以作為輸出（AI回應給用戶的影片、語音和文字）。沒有外部的語音識別模組、沒有單獨的語言模型、沒有獨立的語音合成器、沒有額外的動畫生成引擎——一切都在一個模型里完成。

贊助商廣告

這個設計帶來的最直接好處是：感知、思考、生成回應、決定什麼時候該說話、怎麼管理對話輪次，以及讓嘴型和聲音同步——所有這些都被作為一個整體來學習，而不是被拆分成彼此不知道對方存在的若干部件。

**二、"流水線"的秘密：一切都必須能實時"流動"**

要實現真正的實時互動，光有一個統一的模型還不夠。Wan-Streamer還要求這個模型的每一個組件都能夠"因果式"地工作——也就是說，它只能利用已經發生的資訊，不能等到未來的資訊到齊了再回頭處理。

這個要求聽起來理所當然，但實現起來非常有挑戰性。以影片生成為例，傳統的高質量影片生成模型往往需要看完整段影片才能生成，就像一個裁縫必須先量好全身尺寸才能開始剪裁；而Wan-Streamer需要的是那種只量了上半身尺寸就能開始裁上衣的裁縫——既不能等，又不能出大錯。

為了滿足這個要求，研究團隊重新設計了整個技術棧。音頻和影片都配備了"嚴格因果"的變分自編碼器（VAE，一種用於壓縮和解壓數據的神經網路組件），負責把原始音影片壓縮成模型可以處理的緊湊"潛碼"，同時確保這個壓縮過程只往後看，不往前看。與此同時，負責理解輸入的編碼器和負責生成輸出的解碼器也都是因果設計的。整個Transformer核心使用"塊因果注意力"（block-causal attention）機制協調，每160毫秒處理一個流式單元，在每秒25幀的影片速率下實現增量式流式生成。

用更接地氣的方式來描述：整個系統就像一條裝配流水線，每隔160毫秒，就有一個新的"零件包"（包含用戶的音影片畫面）被送進來，流水線上的每個工位立刻處理手頭的零件，不等不停，同時向下傳遞。

**三、訓練過程：從"分科補習"到"模擬實戰"**

Wan-Streamer的訓練分三個階段進行，每個階段針對不同的能力目標。

第一階段是"獨立任務預訓練"。研究團隊從一個已有的語言模型出發，在這個基礎上加入了大量來自不同領域的訓練數據：圖像理解、音頻理解、影片理解、文字對話、語音識別、語音合成、音頻對話，以及各類語言-音頻-視覺聯合監督數據。在生成方向，訓練數據覆蓋圖像生成、音頻生成、影片生成、以及音影片聯合生成任務。這一階段的目標，是讓模型掌握"基本功"——能看懂、能聽懂、能生成，而且這些能力要同時存在於一個模型中，而不是互相干擾。

贊助商廣告

第二階段是"端到端交互訓練"。這一階段使用的是真正的雙向交互數據——用戶的文字、聲音、影片和AI的文字、聲音、影片交織在同一條時間線上，模型必須學會：當用戶在說話時，自己要有恰當的"傾聽"反應；當自己在說話時，要隨時感知用戶的變化；何時該開口、何時該停，都需要通過這些數據來學習，而不是靠人工規則來硬編程。

第三階段是"低延遲流式蒸餾"。研究團隊用一個更強大、但更慢的"老師模型"（它使用了分類器自由引導技術和更多的流匹配求解步驟）來訓練一個更快的"學生模型"。蒸餾的核心目的是把老師的生成質量"壓縮"進學生的快速推理中，同時減少所需的求解步驟。為了防止學生模型在長時間連續運行中越來越"跑偏"（學術上叫做"訓練-推理分布不匹配"），研究團隊還使用了"滾動蒸餾"策略：讓學生模型自己滾動生成多個連續的流式單元，然後用自己生成的歷史來訓練自己，同時用分布匹配技術讓學生的生成軌跡儘量貼近老師的軌跡。

**四、推理時的"雙人接力"：思考者與執行者**

Wan-Streamer雖然是一個統一的模型，但在實際部署運行時，研究團隊將其拆分為兩個協作角色：**思考者（Thinker）**和**執行者（Performer）**，分別運行在兩塊GPU上，相互交替、重疊運行，以最大化硬體利用率、最小化用戶感知延遲。

思考者負責：處理當前幀的用戶音影片輸入，通過因果編碼器將其轉化為潛碼；運行輕量的語言預測和狀態更新（生成或更新KV緩存，這是Transformer記憶歷史交互狀態的核心數據結構）；將上一幀由執行者生成的音影片潛碼解碼成真正的音影片信號輸出給用戶。

執行者只負責一件事：接收思考者傳來的當前狀態切片，在完整的歷史上下文下，運行計算量最大的流匹配求解器，生成下一幀的乾淨音影片潛碼，然後把這個潛碼傳回給思考者在下一幀解碼輸出。

贊助商廣告

兩者的協作節奏像一個"交錯的流水線"：在第k幀，思考者在編碼當前用戶輸入、更新狀態、解碼上一幀輸出的同時，執行者正在為下一幀生成潛碼；兩者的工作高度重疊，幾乎不存在閒置等待。在工程實現上，研究團隊還使用了CUDA圖捕獲、核心編譯優化和KV緩存交換等技術進一步提升吞吐。

這種設計的最終結果是：模型側的信號到信號響應延遲約為**200毫秒**。加上350毫秒的雙向網路延遲，端到端的總交互延遲約為**550毫秒**，不到一秒，這意味著用戶說完話後不到半秒鐘，就能看到AI的音影片回應。

**五、橫向對比：Wan-Streamer在同類系統中處於什麼位置**

研究團隊在論文中詳細整理了與其他實時語音和全模態交互系統的延遲對比，並特別強調了"測量邊界"的重要性——因為不同系統報告的延遲數字，其起止點各不相同，直接比較容易產生誤導。

以幾個有代表性的系統為例：字節跳動的Doubao Realtime Voice報告的整體延遲約1秒，裸模型延遲約700毫秒，但這是一個純語音系統，沒有視覺輸出。OpenAI的GPT-4o/Realtime API報告的官方音頻響應延遲為232至320毫秒，但這個數字混合了模型響應時間、API首字節延遲和網路端點檢測時間，並且該系統雖然接受音影片輸入，但不會生成同步的視覺智能體輸出。Moshi是一個原生全雙工語音模型，理論延遲160毫秒、實際約200毫秒，但它不生成視覺智能體，也不處理用戶影片輸入。Qwen3/3.5-Omni系列能接受音影片文字輸入並輸出語音或文字，但沒有同步的虛擬形象影片生成。

在視覺智能體方向，VASA-1可以以40幀每秒生成音頻驅動的說話人臉，前置延遲約170毫秒，但它是一個純渲染組件，沒有對話推理或用戶影片感知能力。TalkingMachines提供實時音頻驅動的影片生成，但依賴外部音頻語言模型處理對話和語音。StreamAvatar的影片延遲約1.2秒。LiveTalk以24.82幀每秒運行、首幀延遲約0.33秒，但影片推理依賴外部的Qwen3-Omni，兩者延遲是分開的。

贊助商廣告

Wan-Streamer在這個比較中的特殊之處在於：它是唯一一個在同一個模型里閉合了"用戶音影片感知→語言推理→語音生成→25幀每秒影片生成"完整迴路的系統，且以約200毫秒模型側延遲、約550毫秒總交互延遲完成這一閉合迴路。

**六、"活著"的智能體：不止是快，還要自然**

除了速度指標，研究團隊還特別描述了Wan-Streamer在交互自然性上的表現。

當AI處於"安靜等待"狀態時，它不會像一張凍住的照片一樣固定不動。它的面部會保持細微的運動：視線游移、姿態調整、呼吸起伏——這些細節維持了數字人的"活著"感，讓整個等待過程不顯得突兀。

當用戶在說話、AI在"傾聽"時，AI能生成有反饋感的非言語行為：點頭、眼神變化、微表情和姿勢變化，而且這些行為在時間上與用戶的聲音和視覺信號是耦合的，而不是隨機發生。這是因為語音和影片潛碼在解碼前就已經從同一個因果上下文裡聯合預測，嘴型動作、面部表情和語調是"天生同步"的，而不是靠事後對齊修復出來的。

在輪次管理上，Wan-Streamer的全雙工行為不是靠工程師手寫的"你說完了我再說"規則實現的，而是從真實交互數據里學出來的。訓練時，用戶的輸入和AI的輸出混合在同一條時間線上，模型見過人類如何繼續說、如何停頓、如何重疊、如何打斷、如何讓步或恢復。因此在推理時，AI在自己還在說話的時候，依然會持續感知用戶的音影片信號，一旦用戶自然地打斷，AI能夠停止、縮短或轉向其表達。

更進一步，Wan-Streamer具備主動發起對話的能力。當影片流中出現了顯著的視覺事件——比如用戶的表情變化、手中的物品、環境裡的某個動作——模型可以基於自己所看到的內容主動提出相關問題或評論，而不是被動等待用戶先開口。這把交互從"問答機器"推向了更接近真人對話的連續交流。

**七、局限與未來**

研究團隊在論文中坦誠地指出，v0.1版本的影片輸出解析度僅為192p——這是一個相對較低的解析度，屬於概念驗證階段的選擇。團隊明確表示，擴展到更高解析度在技術路線上是順理成章的，留待後續工作推進。換句話說，當前版本證明了端到端流式全雙工音影片交互的可行性和延遲可控性，而畫面清晰度方面還有明顯的提升空間。

贊助商廣告

此外，這套系統目前需要兩塊GPU來實現思考者與執行者的並行運行，硬體門檻對於大規模普及也是一個需要持續優化的方向。

說到底，Wan-Streamer做的這件事，可以用一句話來概括：把原本需要五六個獨立軟體模組拼在一起才能勉強實現的"AI實時音影片對話"，壓縮進了一個統一的神經網路，讓它從根本上學會了"邊聽邊看邊說"，而不是"聽完再想、想完再說"。這個轉變，對於未來的虛擬助手、數字人直播、遠程陪伴、具身機器人交互等應用場景，意味著一條完全不同的技術路線。

對這個方向感興趣的讀者，可以通過arXiv編號**2606.25041**查閱完整的技術報告，項目網站也可通過論文中標註的wan-streamer.com進一步了解演示效果。

---

Q&A

Q1：Wan-Streamer和普通的AI語音助手有什麼本質區別？

A：普通AI語音助手通常是"接力式"的：語音識別→語言模型→語音合成，各模組排隊工作，AI說話時不感知用戶。Wan-Streamer用單一神經網路同時處理輸入和輸出，能在自己說話時持續感知用戶，支持真正的打斷和實時音影片回應，延遲約550毫秒。

Q2：Wan-Streamer生成的數字人影片在AI說話時嘴型為什麼能自然同步？

A：因為Wan-Streamer的語音和影片在同一個因果上下文裡聯合預測，嘴型、面部表情和語調是"天生捆綁"在一起生成的，而不是先生成語音再事後去對齊影片，所以不需要額外的同步修復步驟，同步是模型本身的輸出結果。

Q3：Wan-Streamer的200毫秒模型延遲和550毫秒總延遲分別指的是什麼？

A：200毫秒是"模型側信號到信號延遲"，即從用戶這一幀音影片到達模型，到對應的AI回應音影片被解碼完畢的時間。550毫秒是加上350毫秒雙向網路傳輸後的總延遲，也就是遠端用戶實際感知到的等待時間，不到一秒。