宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

阿里巴巴Qwen團隊打造的"全感官"AI助手,究竟有多強?

2026年04月27日 首頁 » 熱門科技

這項由阿里巴巴Qwen團隊開發的研究成果發表於2026年4月,論文編號為arXiv:2604.15804v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。

人類感知世界的方式從來都不是單一的。當你和朋友聊天時,你同時在聽他說話、看他的表情、理解文字資訊,然後開口回應——這種"多通道"的資訊處理能力,對人類而言再自然不過。然而對AI來說,這一直是一道難以跨越的門檻。大多數AI系統要麼只能看圖,要麼只能聽聲音,要麼只能讀文字,真正能同時駕馭所有這些的系統鳳毛麟角。

Qwen3.5-Omni,正是阿里巴巴為填補這道鴻溝而打造的"全感官"AI模型。它不僅能同時理解文字、圖片、音頻和影片,還能實時用語音回應你——換句話說,它可以真正和你"說話",而不只是打字回復。這個模型分為兩個版本:能力更強的Plus版本和速度更快的Flash版本,兩者都支持長達256k個詞元(token)的超長上下文理解,相當於可以一口氣讀完一本厚厚的書。

在數據規模上,這個模型的訓練量令人咋舌:超過1億小時的音影片內容,外加海量的圖文配對數據。靠著這些"營養",Qwen3.5-Omni-Plus在215個音頻和音影片理解、推理與交互的子任務和基準測試中達到了當前最優水平,在多項關鍵音頻任務上甚至超過了谷歌的Gemini-3.1 Pro,在綜合音影片理解方面也與之並駕齊驅。

要理解這個模型的意義,可以把它類比成一位"全能翻譯官"。以前的AI就像只懂某一種語言的翻譯,你說中文他能翻英文,但你同時播放一段影片、用英文提問,讓他一邊看一邊聽一邊回答,他就手忙腳亂了。Qwen3.5-Omni則像是一位天賦異稟的翻譯官,耳朵、眼睛、大腦同時開動,還能用流利的語言當場回答你——這種能力,在AI領域被稱為"全模態"(Omni-modal)能力。

一、"思考者"與"說話者":一個AI里住著兩個角色

要真正理解Qwen3.5-Omni的工作方式,需要先了解它的核心設計思路。研究團隊給這個模型設計了一套"雙角色"架構,稱為"Thinker-Talker"結構,直譯過來就是"思考者-說話者"架構。

"思考者"(Thinker)負責的是大腦層面的工作:它接收所有輸入——文字、圖片、音頻、影片——然後進行理解、分析和推理,最終生成文字形式的回答。"說話者"(Talker)則是嘴巴的角色:它接收"思考者"輸出的文字和內部高層次資訊,把這些內容轉化為流暢自然的語音輸出。兩者分工明確,但又緊密協作。

這種設計的好處在哪裡?舉個例子,當你問AI"影片裡那個人說的是什麼?"時,"思考者"負責理解影片畫面、聽懂影片裡的聲音、綜合分析,給出文字答案;"說話者"則立刻把這個文字答案轉化為語音,讓你聽到回復,而不需要你盯著螢幕等文字出現。整個過程快速流暢,就像和真人對話一樣。

這套架構並非全新發明——它最初在上一代模型Qwen2.5-Omni中提出,之後在Qwen3-Omni中進一步演進。Qwen3.5-Omni在此基礎上進行了五項關鍵升級。第一,"思考者"和"說話者"都採用了一種叫做"混合注意力混合專家(Hybrid Attention MoE)"的架構,這讓模型在處理超長內容時效率大幅提升。第二,上下文長度從之前的版本擴展到了256k詞元,支持超過10小時的音頻理解,以及每秒1幀的720P畫質影片長達400秒。第三,語音生成採用了多碼本編解碼器表示,能在單幀內立即合成語音。第四,引入了一種全新技術ARIA來解決流式語音生成的穩定性問題。第五,多語言支持大幅擴展,語音識別覆蓋113種語言和方言,語音生成支持36種語言。

二、聽懂世界的"耳朵":音頻變換器AuT

在深入了解這個模型如何處理聲音之前,先考慮這樣一個場景:你用手機錄了一段影片,裡面既有環境噪音、又有人說話聲、背景音樂也隱約可聞。要讓AI正確理解這段影片裡"發生了什麼",它首先得有一雙足夠靈敏的"耳朵"。

Qwen3.5-Omni的"耳朵"叫做音頻變換器,簡稱AuT。這個組件從頭開始訓練——意思是研究團隊沒有借用現成的音頻處理工具,而是從零打造了一套專門的音頻理解系統。訓練這雙"耳朵"用掉了4000萬小時的音頻-文字配對數據,這些數據由阿里巴巴自研的Qwen3-ASR系統生成。

AuT的工作原理可以用一個日常場景來理解:它就像一位速記員,把連續的聲音波形先轉換成一種叫做"濾波器組特徵"的中間表示(可以理解為聲音的"頻譜圖"),然後通過4個卷積模組將資訊壓縮成更緊湊的格式,再交給自注意力層進行深度分析,最終以每秒6.25個詞元的速率輸出音頻特徵。每個輸出詞元大約對應原始音頻中約160毫秒的內容。

與上一代相比,Qwen3.5-Omni的AuT在多語言數據上的訓練比例大幅提升,覆蓋了超過20種語言,中文、英文和多語言數據的比例約為3.5比3.5比3。此外,訓練時還採用了動態注意力窗口大小機制,確保模型在實時語音流和離線音頻理解兩種場景下都能表現均衡。

三、"理解大腦"如何同時消化多種資訊

現在來談談"思考者"(Thinker)這個核心組件。它的任務是把來自不同渠道的資訊統一起來,形成完整的理解。

文字輸入方面,Qwen3.5-Omni使用了Qwen3.5的分詞器,採用字節級別的字節對編碼方式,詞彙表大小從之前的15萬個詞元擴展到了25萬個,對大多數語言的編解碼效率提升了10%到60%。通俗地說,這就像升級了一本更厚的詞典,讓模型能用更少的"單詞"表達同樣的意思,處理速度更快。

圖像和影片的處理則採用了來自Qwen3.5的視覺編碼器,這個編碼器在圖文混合數據上訓練,能同時處理靜態圖片和動態影片。為了在保留儘量多影片資訊的同時與音頻流保持同步,模型會以動態幀率對影片進行採樣。

在時間感知方面,模型採用了一種叫做TM-RoPE的位置編碼技術來實現音影片同步感知,但相比上一代做了重要改進。上一代直接用絕對時間戳作為位置ID,導致長影片中位置索引過於稀疏,影響模型對長時間範圍內資訊關聯的理解,且需要大量均勻分布的不同幀率訓練數據。新版本的解決方案更優雅:在每個影片或音頻片段前面直接插入以秒為單位的文字時間戳,讓模型像讀文字一樣自然地學習時間資訊。音頻序列中還會在隨機間隔處插入時間戳,進一步增強跨模態的時間對齊能力。

在多模態同時出現時,系統會給音頻每160毫秒分配一個時間ID,影片則以幀為單位、根據實際時間戳動態調整時間ID,確保每個時間ID統一對應160毫秒的內容。不同模態之間的位置編號保持連續,每種模態的編號從上一種模態最大位置ID加1開始,防止位置衝突。這種設計讓模型可以靈活支持任意時長的流式輸入。

四、讓語音"說得自然":ARIA技術與多碼本語音合成

如果說"思考者"是大腦,"說話者"(Talker)就是嘴巴。嘴巴說話的難題在於:如何讓輸出的語音既快速、又自然、又穩定?

Qwen3.5-Omni的"說話者"直接操作一種叫做RVQ(殘差向量量化)詞元的語音表示格式,由專門的音頻分詞器產生。為了建模語音的細節層次,它採用了多詞元預測(MTP)模組,配合因果卷積網路進行波形重建,實現高保真度的語音合成。在多輪對話中,"說話者"能接收"思考者"提供的豐富上下文資訊——包括歷史文字詞元、多模態表示和當前輪次的流式文字——動態調整韻律、音量和情感表達,讓語音聽起來更像是在自然對話中產生的,而非機械朗讀。

然而,流式語音生成存在一個棘手問題:文字分詞器和語音分詞器的"編碼效率"不一樣。打個比方,同樣是"說一句話",文字分詞器可能只需要10個詞元,而語音分詞器可能需要50個詞元;但如果是另一種語言或另一種說法,這個比例可能完全不同。如果固定按照某個比例交替生成文字詞元和語音詞元,就容易出現跳字、發音錯誤、數字念錯等問題,就像一台樂器按固定節拍演奏,但曲譜的節奏忽快忽慢,必然會亂掉。

ARIA(自適應速率交織對齊,Adaptive Rate Interleave Alignment)正是為解決這個問題而生。它的核心思路是:不再預先固定文字詞元和語音詞元的交替比例,而是施加一個自適應的速率約束——在已生成序列的任何前綴中,累計的語音-文字詞元比例不能超過對應條目級別的全局比例。這個約束簡單而有效:它讓文字和語音的生成始終保持彈性同步,自然適應不同語言的編碼效率差異,同時支持任意的文字前綴後接連貫的語音詞元續寫。ARIA還把原來"說話者"的雙通道生成模式(文字和語音分別走兩條軌道)統一成了單通道交織生成,減少了通道間的同步開銷,使流式交互更流暢、更高效。

"說話者"還有另一項重要設計:專屬系統提示詞。研究團隊為"說話者"引入了一個專門描述目標聲音特徵的系統提示,既可以是文字描述,也可以包含語音片段,這使得零樣本聲音克隆(用戶提供一段自己的聲音樣本,模型就能模仿這個聲線說話)和可控語音生成(控制音量、語速、情感等)成為可能,比傳統的說話人嵌入向量能攜帶更豐富的聲學控制資訊。

五、流式交互與並發:讓對話快到感覺不出延遲

對於一個語音對話AI來說,響應速度至關重要。假如你說完一句話,AI停頓了兩三秒才回答,對話感覺就完全破碎了。為此,Qwen3.5-Omni在架構和算法層面做了大量優化。

模型整體骨幹採用了混合MoE(混合專家)架構,其中包含門控Delta網路(GDN)模組,這個模組在處理長音影片序列時能顯著降低KV緩存的輸入輸出開銷,提升生成吞吐量,支持更高的並發服務能力。此外,音頻和視覺編碼器都支持沿時間維度輸出數據塊,配合分塊預填充機制,大幅降低了"思考者"和"說話者"的首詞元時間(即從收到輸入到輸出第一個詞元的延遲)。

從實測數據來看,在單並發場景下,Qwen3.5-Omni-Plus的端到端首包延遲(從輸入到第一個可播放音頻包)在音頻輸入時為435毫秒,影片輸入時為651毫秒;更輕量的Flash版本則分別低至235毫秒和426毫秒。隨著並發數增加到4路或8路,延遲雖有所增加,但整體保持在可接受的範圍內,解碼效率基本穩定。生成實時因子(Generation RTF,即每生成1秒語音所需的處理時間)始終低於0.35,說明系統有充足的餘量支撐流暢的流式語音輸出。

六、三階段預訓練:從零到"博學多才"

要讓一個模型真正"博學多才",訓練數據的組織方式和訓練策略同樣至關重要。Qwen3.5-Omni的預訓練分為三個階段,就像一個孩子的成長曆程:先學基礎,再拓寬視野,最後挑戰"馬拉松閱讀"。

第一階段是編碼器對齊階段。此時,模型的語言大腦部分用Qwen3.5的參數初始化,視覺編碼器來自Qwen3.5,音頻編碼器用AuT初始化。這個階段先鎖定語言大腦,專注訓練視覺和音頻編碼器,讓它們先學會把各自領域的資訊轉化為語言大腦能理解的形式,就像先教兩位新翻譯員學會把外語翻譯成普通話,再讓他們和大腦對接。

第二階段是通用階段。解凍所有參數,用約4萬億詞元的大規模多模態數據集訓練,其中文字約占0.92萬億詞元,音頻約1.99萬億詞元,圖像約0.95萬億詞元,影片約0.14萬億詞元,音影片結合約0.29萬億詞元。序列長度為32768詞元。這個階段讓模型真正學會融合多種資訊、理解跨模態內容。

第三階段是長上下文階段。將最大序列長度從32768詞元擴展到262144詞元,並提高訓練數據中長音頻和長影片的比例。實驗結果顯示,這些調整讓模型在理解長序列數據方面有了顯著提升,就像一個原本只能背幾頁書的學生,經過專項訓練後能一口氣讀完一整本書並準確複述內容。

七、三階段後訓練:從"會做"到"做得好"

預訓練讓模型獲得了廣博的知識,後訓練則讓它學會在實際使用中表現出色。"思考者"的後訓練分三個階段進行。

第一階段是專家蒸餾。研究團隊先獨立訓練了一批領域專家模型,涵蓋文字相關任務(如智能代理、編程、基礎推理)以及視覺和音頻專項任務,這些專家模型都基於預訓練的Qwen3.5基礎檢查點微調而來。隨後,用這些專家模型生成領域專屬數據,將各領域的專項能力"蒸餾"進統一模型——就像把多位專家的經驗總結成一份手冊,讓全科醫生也能掌握各科要點。

第二階段是在策略蒸餾。經過第一階段後,模型在基於文字輸入的任務上表現不錯,但基於音頻輸入的任務響應質量與文字輸入相比仍有差距。原因很直觀:音頻理解比文字理解難,資訊損耗更多。解決思路是:對每個音頻-文字配對問題,先用文字條件生成一個高質量答案,再把這個答案作為音頻條件下的蒸餾目標,讓模型逐步把"用文字思考"的能力遷移到"用音頻思考"的場景中。

第三階段是交互對齊強化學習。前兩個階段解決了能力問題,但在實際多輪對話中,研究團隊發現模型存在無意間切換語言、角色不一致、在長對話中指令遵循能力下降等問題。為此,他們引入了交互對齊強化學習,構建多輪交互軌跡,並圍繞用戶體驗目標設計獎勵信號,讓模型專門學習在長期對話中保持穩定、一致、聽話的行為。

"說話者"的後訓練則分四個階段:通用階段(在超過2000萬小時的多語言語音數據上訓練,引入指令遵循等多樣化任務)、長上下文階段(通過數據質量分層和精選子集的持續預訓練,提升語音自然度和質量,上下文長度擴展到6.4萬詞元)、強化學習階段(通過直接偏好優化即DPO構建多語言偏好對,並結合規則獎勵和GSPO方法進一步提升能力和訓練穩定性),以及說話人微調階段(在基礎模型上進行輕量級說話人微調,讓模型能準確捕捉目標說話人特徵,提升語音的自然度、表達力和可控性)。

八、多模態理解能力實測:成績單逐項解讀

經過如此大規模的訓練,Qwen3.5-Omni在實際測試中表現如何?研究團隊對Flash和Plus兩個版本進行了全面評測,覆蓋文字、音頻、視覺和音影片四大維度。

在文字理解方面,Qwen3.5-Omni-Plus的表現與同規模的純文字模型Qwen3.5-Plus-NoThinking基本持平。在通用知識測試MMLU-Pro上,Plus版本得分85.9,文字版本為86.8;在指令遵循測試IFEval上,兩者均達到89.7。在推理任務HMMT Nov 25上,Plus版本得分84.4,接近文字版本的86.2。這說明加入多模態能力並沒有拖累模型的文字處理水平——兩者兼顧到了這個程度,在技術上並不容易。

在音頻理解方面,Qwen3.5-Omni-Plus在音頻綜合理解測試MMAU上得分82.2,超過Gemini-3.1 Pro的81.1;在多模態音頻推理測試MMSU上得分82.8,同樣高於Gemini-3.1 Pro的81.3;在音樂結構測試RUL-MuchoMusic上得分72.4,大幅領先Gemini-3.1 Pro的59.6;在歌曲形態識別測試SongFormBench上也全面領先。在端到端語音對話測試VoiceBench上,Plus版本得分93.1,顯著高於Gemini-3.1 Pro的88.9。在多語言語音識別方面,Qwen3.5-Omni-Plus在FLEURS測試集上的平均詞錯誤率(WER)為6.6%,低於Gemini-3.1 Pro的7.3%和GPT-4o Transcribe的10.4%;在中文、粵語、台灣普通話等測試上,Qwen3.5-Omni-Plus分別達到3.46%、1.95%、2.27%的詞錯誤率,遠低於競品。

在視覺理解方面,Qwen3.5-Omni-Plus同樣表現出色。在數學推理測試MathVista上得分86.1,接近文字版本的86.9;在通用視覺問答RealWorldQA上得分84.1,超過文字版本的79.1;在影片理解測試Video-MME上得分81.9,高於文字版本的81.0;在長影片理解測試MLVU上得分86.8,同樣超越文字版本的85.1。在醫療視覺問答測試SLAKE上,Plus版本得分84.7,高於文字版本的82.8。

在音影片聯合理解方面,Qwen3.5-Omni-Plus在DailyOmni測試上得分84.6,超過Gemini-3.1 Pro的82.7;在Qualcomm IVD真實音影片交互場景評測上得分68.5,高於Gemini-3.1 Pro的66.2;在音影片字幕測試OmniCloze上得分64.8,優於Gemini-3.1 Pro的57.2。在工具使用測試OmniGAIA上,Plus版本達到57.2%,而Flash版本為33.9%,這也體現了兩個版本在複雜推理任務上的能力差異。

九、語音生成能力:從零樣本克隆到跨語言遷移

語音生成是Qwen3.5-Omni的另一個重要能力維度,研究團隊從四個角度進行了評測。

在零樣本語音生成方面,研究團隊在SEED-TTS基準上進行了測試,用詞錯誤率(WER)衡量生成語音的內容準確性。Qwen3.5-Omni-Plus在中文測試集上的WER為0.99%,在英文測試集上為1.26%,英文部分達到了所有測試模型中的最優成績。相比之下,上一代的Qwen2.5-Omni-7B為1.42%和2.33%,Qwen3-Omni-30B-A3B為1.07%和1.39%,CosyVoice 3為0.71%和1.45%,MiniMax-Speech為0.83%和1.65%。

在多語言語音生成方面,Qwen3.5-Omni支持29種語言的語音輸出(另有7種中國方言)。與MiniMax-Speech和ElevenLabs兩個商業系統相比,Qwen3.5-Omni-Plus在評測的29種語言中,有22種語言的詞錯誤率最低,在大多數情況下以明顯優勢領先。在說話人相似度方面,Qwen3.5-Omni也在大多數語言上取得最高的餘弦相似度分數,在中文上達到0.800、英文0.833、芬蘭語0.859、波蘭語0.839,全面超越競品。

在跨語言語音克隆方面,模型需要在保持說話人音色的同時,用不同的目標語言生成語音。在12個測試語言對方向中,Qwen3.5-Omni-Plus在10個方向上達到最優。以中文到韓語的方向為例,其混合錯誤率(英文用詞錯誤率,其他語言用字符錯誤率)為4.03%,相比CosyVoice3的14.4%降低了約72%。在常用的中文到英文方向上,Qwen3.5-Omni-Plus的錯誤率為2.18%,同樣優於競品。

在自定義聲音語音生成方面,研究團隊在29種語言上與ElevenLabs、Gemini-2.5 Pro、GPT-Audio和MiniMax四個商業系統進行了對比。儘管Qwen3.5-Omni僅在單語言數據上進行了說話人微調,它仍然展示出強大的跨語言泛化能力,能把目標說話人的音色特徵遷移到全部29種評測語言中。在10種語言上取得最低詞錯誤率,在日語(3.306%)、韓語(1.309%)等挑戰性語言上表現尤為突出。

十、三大新能力:字幕生成、實時交互與多模態編程

除了上述基礎能力的全面提升,Qwen3.5-Omni還解鎖了三項此前不存在於同類模型中的新能力。

第一項是可控音影片字幕生成。模型能夠生成可控的、詳細的、結構化的字幕,以及劇本級別的精細描述,包括自動場景分割、時間戳標註,以及對畫面中角色及其與音頻關係的詳細描述。這種能力對影視字幕自動生成、內容審核、無障礙服務等場景有重要價值。

第二項是全方位實時交互。這包括通過原生輪換意圖識別實現的語義級別的打斷(模型能理解你是真的要打斷它,還是只是發出了一個沒有實質含義的聲音),以及端到端的語音控制(直接用聲音控制音量、語速和情感),還有通過用戶提供樣本實現的聲音克隆。

第三項是原生多模態智能體行為,其中最引人注目的是一種研究團隊稱為"音影片氛圍編程"(Audio-Visual Vibe Coding)的新興能力。這是一種在全模態模型中自然湧現出來的能力:模型可以直接根據音影片指令生成可執行的代碼,用來響應實時查詢,無需外部編排。換句話說,你可以對著攝影機說"幫我寫一個處理這個影片的腳本",模型不僅能理解你的影片內容,還能直接生成對應的代碼——這種能力並非研究團隊預先設計的,而是在大規模訓練後自然出現的,因此被稱為"湧現能力"。此外,模型還支持自主調用WebSearch和複雜FunctionCall。

說到底,Qwen3.5-Omni代表的是AI從"工具"向"夥伴"演進的一次重要嘗試。以往的AI要麼只會看、要麼只會聽、要麼只會說,而這個模型試圖把所有這些能力整合成一個真正完整的"感官系統"。在實測數據上,它在大量音頻和音影片基準上超過了谷歌Gemini-3.1 Pro,同時維持了與同規模純文字模型相當的文字處理水平,沒有因為多了眼睛和耳朵而變得"腦子不好使"。

當然,沒有哪項技術是完美的。這個模型在某些具體任務上仍與最強的專項模型存在差距,比如在xx2en翻譯的整體平均分上,Qwen3.5-Omni-Plus為37.0,略低於Gemini-3.1 Pro的37.4。在某些語言的語音識別上,如北印度語,Gemini-3.1 Pro的4.5%低於Qwen3.5-Omni-Plus的9.7%,說明在特定語言上仍有提升空間。

更有意思的問題或許在於:當AI真正擁有完整的感官系統之後,它能做什麼?"音影片氛圍編程"這個湧現能力給了我們一個有趣的提示——隨著能力的積累,模型會以我們意料之外的方式展現新本領。這也意味著,我們現在看到的,可能只是這類全感官AI能做到的事情的冰山一角。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2604.15804v1查閱完整論文。

Q&A

Q1:Qwen3.5-Omni支持哪些語言的語音識別和語音生成?

A:Qwen3.5-Omni在語音識別方面支持113種語言和方言,包括74種語言和39種中國方言;語音生成方面支持36種語言,包含29種語言和7種中國方言,如四川話、北京話、粵語、閩南語等。

Q2:ARIA技術解決了什麼問題?

A:ARIA(自適應速率交織對齊)解決的是流式語音生成中文字詞元和語音詞元編碼效率不匹配的問題。不同語言或不同表達方式下,生成同一內容所需的文字詞元數和語音詞元數比例差異很大,固定比例交替生成會導致跳字、發音錯誤等問題。ARIA通過自適應速率約束動態對齊兩者,顯著提升了語音生成的穩定性和自然度。

Q3:Qwen3.5-Omni-Plus和Qwen3.5-Omni-Flash有什麼區別?

A:兩者都是Qwen3.5-Omni的正式版本,Plus版本能力更強,在各項基準測試中表現更好,首包延遲約435毫秒(音頻輸入);Flash版本更輕量快速,首包延遲約235毫秒(音頻輸入),在資源受限或對速度要求更高的場景中更適用。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新