騰訊混元發布並開源語音數字人模型

近日，騰訊混元發布並開源了一款語音數字人模型——HunyuanVideo-Avatar。

贊助商廣告

據悉，HunyuanVideo-Avatar 是騰訊混元依託其自研的影片大模型（HunyuanVideo），並與騰訊音樂天琴實驗室的 MuseV 技術展開聯合研發的成果。該模型功能強大，支持頭肩、半身以及全身等多種景別，還能適配多風格、多物種以及雙人場景，能夠為影片創作者提供具備高一致性和高動態性的影片生成能力。

用戶只需上傳人物圖像和對應的音頻，HunyuanVideo-Avatar 模型就會自動對圖片和音頻進行分析理解，例如精準捕捉人物所處的環境資訊、音頻中蘊含的情感色彩等。在此基礎上，模型能讓圖中的人物以自然流暢的狀態說話或者唱歌，最終生成包含自然生動的表情、精準的唇形同步以及協調的全身動作的影片內容。

目前，該模型支持用戶上傳時長不超過 14 秒的音頻來生成影片。後續，團隊還將陸續上線並開源更多的功能。