你願意和一個數字人影片通話嗎?如果它的嘴型、表情跟說話的聲音完美配合,宛如真人。而且這場對話可以持續幾個小時甚至更久,這個數字人始終保持著同一張臉、同樣的膚色,不會突然變臉或者出現詭異的色彩偏差。

2025年12月,中科大和阿里巴巴的研究團隊,發布了一項名為Live Avatar的突破性技術。這項研究的核心成果是:他們成功讓一個擁有140億參數的大規模AI模型,實現了實時、無限時長的高清數字人影片生成。簡單來說,就是讓超級大腦也能實時說話,而且可以一直說下去,不會越說越糟糕。
讓AI生成的數字人持續說話,究竟難在哪裡?
你可以把AI生成影片想像成一個特別挑剔的廚師在做飯。這位廚師(AI模型)需要一道菜一道菜地做(一幀一幀地生成畫面),而且每道菜都要和前面的菜完美搭配(保持視覺連貫性)。問題來了:如果這位廚師要連續做幾百道菜,甚至上千道菜呢?
第一個大麻煩是速度。目前最厲害的AI影片生成技術叫擴散模型,它的工作原理有點像用橡皮擦慢慢擦掉一幅畫上的塗鴉。想像一下,一幅被完全塗花的畫,AI需要一點一點地把雜亂的塗鴉擦掉,最終還原出清晰的圖像。這個擦除過程需要反覆進行很多次(通常幾十次甚至上百次),每次都要讓整個超大模型運算一遍。對於140億參數的模型來說,這簡直就像讓一頭大象跳芭蕾舞,雖然理論上可能,但實際操作起來慢得讓人抓狂。結果就是,生成一秒鐘的影片可能需要好幾秒甚至更長時間,完全無法實時使用。
第二個大麻煩是記憶衰退。當數字人持續生成影片時,就像一個人在不斷地複印複印件。你可能玩過這個遊戲:把一張紙複印一份,再把複印件複印一份,如此反覆。最後你會發現,字跡變得越來越模糊,甚至面目全非。AI生成長影片時也會出現類似的問題,數字人可能慢慢變臉,膚色可能漸漸偏移,整體畫面質量也會逐漸下降。這種現象被研究者們稱為身份漂移和色彩偏差。

在Live Avatar之前,市面上的技術要麼只能做到實時但質量一般(因為用的是小模型),要麼質量很好但速度太慢(因為用的是大模型)。就好比你只能選擇騎自行車快速到達目的地,或者坐豪華轎車舒適地慢慢抵達,但沒法既快又舒適。研究團隊在論文中專門做了一個對比表格,展示了目前主流方法的局限:大多數方法無法同時實現"流式生成"、"實時速度"和"無限時長"三個目標,而Live Avatar是第一個全部做到的。
那麼,Live Avatar是怎麼破解這個難題的呢?研究團隊想出了一個特別巧妙的辦法,叫做"時間步流水線並行"(Timestep-forcing Pipeline Parallelism,簡稱TPP)。

還記得我們說過,擴散模型生成圖像就像擦除塗鴉嗎?通常情況下,這個擦除過程是串行的,必須先擦第一遍,等擦完了才能開始擦第二遍,以此類推。這就像一個人在流水線上獨自完成所有工序,效率自然很低。
Live Avatar的做法是:請來一群幫手,讓每個人只負責一道工序。具體來說,他們用了5塊高性能顯卡(H800 GPU),每塊顯卡只負責擦除過程中的一個特定步驟。比如說,如果整個擦除過程需要4步,那麼第一塊顯卡只做第一步(把塗鴉從最亂擦到稍微清晰一點),第二塊顯卡只做第二步(繼續擦得更清晰),以此類推。最後一塊顯卡負責把完成的畫面解碼成真正的影片畫面。
這樣一來,當第一塊顯卡處理完一幀畫面的第一步,它就可以把半成品傳遞給第二塊顯卡,然後立刻開始處理下一幀畫面的第一步。與此同時,第二塊顯卡在處理第一幀的第二步,第三塊顯卡可能在處理更早一幀的第三步……就像真正的工廠流水線一樣,每塊顯卡都在不停地忙碌,沒有人需要等待。
這個方法有一個特別關鍵的細節:每塊顯卡都有自己的"記憶本"(KV緩存),記錄著它處理過的歷史資訊。而且,每塊顯卡的記憶本只記錄同樣"擦除程度"的資訊。這聽起來有點奇怪,為什麼要這樣設計呢?
研究團隊專門做了實驗來回答這個問題。他們發現,讓AI看著"同樣模糊程度"的歷史資訊來處理當前畫面,效果比看著"完全清晰"的歷史資訊要好。這可能是因為AI在訓練時就是這樣學習的,它習慣了在特定的"模糊度"下工作,突然給它太清晰的參考反而會讓它困惑。就好比一個習慣戴眼鏡看譜的鋼琴家,你突然給他換成高清大螢幕顯示,他反而可能彈錯音。
通過這套流水線系統,Live Avatar在5塊顯卡上實現了每秒20幀的生成速度,這意味著它可以實時生成流暢的影片,你說話的同時,數字人就在同步"說話"。更重要的是,這種並行方式幾乎不需要顯卡之間傳輸太多數據(只傳遞半成品畫面,不傳遞記憶本),通信開銷非常小,效率極高。
解決了速度問題,還有一個更棘手的挑戰:如何讓數字人在長時間對話中保持一致的外貌?
想像你正在畫一幅連環畫,每一格都要畫同一個人物。如果你畫了幾百格甚至幾千格,很可能畫著畫著就跑偏了,臉型變了一點,發色深了一點,背景色調也不太對了。AI生成長影片時也會遇到同樣的問題,研究者稱之為"推理模式漂移"和"分布漂移"。
Live Avatar提出了一套叫做"滾動錨點幀機制"(Rolling Sink Frame Mechanism,簡稱RSFM)的解決方案。這個名字同樣很學術,但背後的思想非常直觀。
核心想法是:給AI一張"標準照",讓它在整個生成過程中不斷參考這張照片,確保畫出來的人物始終像照片上的樣子。但這裡有兩個精妙的設計。

第一個設計叫"自適應注意力錨點"(Adaptive Attention Sink,簡稱AAS)。一開始,AI會參考用戶提供的原始參考圖片。但是,當AI生成了第一幀影片畫面後,系統會用這第一幀畫面來替換原始參考圖片。為什麼要這樣做呢?因為AI生成的畫面和原始照片在風格上可能有微妙的差異。如果一直參考原始照片,這種差異會持續存在並慢慢累積。但如果參考的是AI自己生成的第一幀,後續所有畫面都會和第一幀保持一致,整體風格也就統一了。這就像一個樂隊在演奏時,指揮不是按照樂譜的節拍走,而是跟著樂隊實際演奏的節奏來調整,這樣雖然可能和原譜有一點點出入,但整個演奏會非常和諧統一。

第二個設計叫"滾動位置編碼"(Rolling RoPE)。這涉及到AI如何理解"時間"的問題。AI在處理影片時,需要知道每一幀畫面在時間軸上的位置,這一幀是第1幀還是第1000幀?位置編碼就是告訴AI這個資訊的方式。問題是,AI在訓練時只見過幾分鐘長度的影片,它的"時間尺度"是有限的。如果你讓它處理一個幾小時長的影片,那些時間位置數字會變得巨大,超出AI的認知範圍。
滾動位置編碼的解決方案很聰明:它不讓錨點幀的位置數字固定不變,而是讓它隨著影片進度滾動。具體來說,錨點幀的位置總是被設定為當前幀位置加上一個固定偏移。這樣一來,無論影片生成到第100幀還是第10000幀,錨點幀和當前幀之間的"相對距離"始終保持在一個合理的範圍內,就像一個永遠走在你前面固定距離的嚮導,無論你走多遠,他都在那個位置等你。
研究團隊還在訓練階段引入了一個叫歷史污染(History Corrupt)的技術。這聽起來有點反直覺,為什麼要污染歷史資訊呢?原因是這樣的:在實際使用時,AI參考的歷史幀都是它自己生成的,難免有一些小瑕疵;但在訓練時,如果給AI參考的都是完美的真實影片幀,AI就會變得嬌氣,一遇到有瑕疵的歷史幀就不知道該怎麼辦了。通過在訓練時故意給歷史幀加一些噪聲,AI學會了在"不完美"的條件下依然能做出好的判斷,就像一個在嘈雜環境中練習過的歌手,到了正式演出時反而更穩定。
Live Avatar的訓練過程分為兩個階段,就像培養一個技能一樣,先學基礎動作,再學高級技巧。

第一階段叫擴散強迫預訓練(Diffusion Forcing Pretraining)。在這個階段,研究團隊教AI學會一個關鍵能力:逐塊生成影片。他們把影片分成一小塊一小塊的(每塊包含3幀畫面),讓AI學會一次只關注一塊,同時參考前面已經生成的塊。這就像教一個人寫連載小說,先學會寫好每一章,同時記住前面的劇情,保持故事連貫。
在這個階段,研究團隊使用了一種特殊的"因果遮罩"策略。簡單來說,就是告訴AI:"你只能看到過去發生的事情,不能偷看未來。"每一塊畫面在生成時,只能參考它前面的塊,不能參考後面的塊。這確保了AI能夠真正做到"邊走邊生成",而不是必須等整個影片都規劃好才能開始。
第二階段叫自強迫分布匹配蒸餾(Self-Forcing Distribution Matching Distillation)。核心思想是:讓AI學會偷懶,用更少的步驟完成同樣質量的工作。
還記得我們說過,擴散模型生成圖像需要反覆"擦除塗鴉"很多次嗎?在第一階段訓練完後,AI還是需要很多步驟才能生成高質量的畫面。第二階段的目標就是把這個步驟數大幅壓縮,從幾十步壓縮到只要4步。
這種壓縮不是簡單的加速,而是一種知識轉移,學術上叫蒸餾。想像一下,有一個經驗豐富的老師傅(原始的多步模型),做一道菜需要慢工出細活,走很多步驟。現在要訓練一個學徒(蒸餾後的少步模型),讓他用更少的步驟做出同樣好吃的菜。方法是:讓學徒先嘗試做菜,然後讓老師傅品嘗評價,告訴學徒哪裡做得不夠好。學徒根據反饋調整,反覆練習,最終學會了用更簡潔的方法達到同樣的效果。
研究團隊發現,這種蒸餾過程不僅加快了速度,還意外地提升了畫面質量。這個發現和之前一些研究的結論一致,蒸餾過程中使用的"分布匹配"損失函數,某種程度上起到了類似"強化學習"的作用,能夠優化模型的美學表現和整體質量。就好比學徒在學習老師傅技藝的過程中,居然發展出了一些老師傅都沒有的新技巧。
說了這麼多技術細節,Live Avatar的實際表現到底怎麼樣呢?研究團隊做了大量的實驗來驗證他們的系統。
首先是速度測試。在5塊H800顯卡上,Live Avatar實現了每秒20幀的端到端生成速度,這意味著它可以流暢地實時生成影片。作為對比,其他使用類似規模模型的方法,速度通常只有每秒0.16到0.26幀,比Live Avatar慢了將近100倍。有一些方法確實能達到實時速度(比如Ditto方法能達到每秒21.8幀),但它們使用的模型規模只有Live Avatar的七十分之一(2億參數對比140億參數),畫面質量自然也有差距。

關於畫面質量,研究團隊使用了多個標準指標來評估,包括美學得分(ASE)、圖像質量(IQA)、唇形同步度(Sync-C和Sync-D)以及身份一致性(Dino-S)。在短影片測試中,Live Avatar的各項指標都達到了競爭力水平,與使用相同基礎模型但速度慢100倍的方法相當甚至更好。
更令人印象深刻的是長影片測試。研究團隊測試了7分鐘長度的影片生成,發現Live Avatar在所有指標上都大幅領先競爭對手。其他方法在長時間生成時普遍出現明顯的畫質下降,而Live Avatar的畫面質量始終保持穩定。論文中的對比圖清楚地展示了這一點:在生成400秒影片後,其他方法的數字人或者臉型變了,或者色調偏了,或者細節模糊了;而Live Avatar生成的數字人依然保持著和開始時一樣的清晰面貌。
研究團隊甚至做了一個極限測試:讓系統連續生成10000秒(將近3小時)的影片。要知道,他們的模型在訓練時只見過5秒鐘長度的影片片段。按照常理,讓模型處理比訓練時長幾千倍的內容,肯定會"崩潰"。但實驗結果顯示,無論是在10秒、100秒、1000秒還是10000秒的時間點上採樣,影片的畫質指標幾乎沒有變化。這證明了滾動錨點幀機制的強大有效性。

除了客觀指標,研究團隊還進行了主觀評測。他們邀請了20位參與者,對各種方法生成的影片進行盲評,從"自然度"、"同步性"和"一致性"三個維度打分。結果顯示,雖然有些方法在某些客觀指標上表現更好(比如OmniAvatar在唇形同步度指標上得分很高),但人類評審反而給它的打分較低。原因是這些方法為了優化客觀指標,讓數字人的嘴巴動作變得過於誇張,反而顯得不自然。而Live Avatar在三個維度上的人類評分都名列前茅,這說明它確實做到了讓數字人看起來自然、同步、一致。
為了證明每個技術組件都是必要的,研究團隊還做了詳細的消融實驗,也就是把各個組件一個一個去掉,看看效果會變差多少。
關於流水線並行(TPP),如果去掉這個設計,速度會從每秒20幀降到每秒4幀,減慢了5倍。嘗試用傳統的多GPU並行方式(序列並行)來代替,也只能達到每秒5幀,遠不如TPP高效。這證明了TPP不只是一個簡單的工程優化,而是一個真正突破性的系統設計。

關於長影片生成的各個組件,去掉自適應注意力錨點後,美學得分從3.38降到3.13,圖像質量從4.73降到4.44;去掉滾動位置編碼後,身份一致性分數從0.93降到0.86;去掉歷史污染機制後,美學得分更是暴跌到2.90,圖像質量降到3.88。這些數據清楚地表明,每個組件都在發揮重要作用,缺一不可。
研究團隊還專門對比了"同步驟記憶"和"清晰記憶"兩種策略。所謂同步驟記憶,就是讓AI在處理第N步去噪時,參考歷史幀的第N步中間結果;清晰記憶則是讓AI始終參考歷史幀的最終清晰版本。實驗結果令人意外,同步驟記憶在所有指標上都優於清晰記憶,而且還能支持流水線並行(因為不需要等待歷史幀完全處理完)。這個發現對於理解擴散模型的工作原理很有價值。
Live Avatar的應用場景非常廣泛。最直接的應用是虛擬主播和數字人直播。想像一下,一個24小時不間斷的新聞播報數字人,它可以持續工作幾個小時,始終保持一致的形象和高質量的畫面。又或者是在線教育場景中的虛擬教師,能夠實時回答學生的問題,用自然的表情和口型進行講解。
另一個重要應用是實時影片通話中的虛擬形象。你可以用自己的聲音說話,但螢幕上顯示的是一個定製的數字人形象,這在隱私保護、匿名交流等場景中很有價值。Live Avatar的實時性能意味著這種應用可以流暢地進行,不會有明顯的延遲。
研究團隊特意展示了Live Avatar的泛化能力,它不僅能處理真實人臉,還能驅動卡通角色、動畫人物,甚至是擬人化的非人類對象。論文中展示的一個有趣例子是讓一團火焰說話,火焰的形態隨著音頻節奏變化,仿佛真的在開口說話一樣。這種創造性的應用展示了技術的靈活性和想像空間。
當然,研究團隊也坦誠地指出了當前技術的局限性。雖然TPP大幅提升了幀率(每秒能生成多少幀),但"首幀延遲"(從收到音頻到輸出第一幀畫面的時間)並沒有明顯改善,這在需要極低延遲的交互場景中可能是個問題。另外,系統對錨點幀機制的依賴很強,在一些複雜場景中可能影響長時間的時序一致性。團隊表示,未來會繼續研究如何降低延遲和進一步提升時序連貫性。
Live Avatar研究團隊通過巧妙的流水線並行系統設計和滾動錨點幀機制算法創新,同時解決了速度和質量兩個看似矛盾的問題。而且他們的方法具有很強的通用性,同樣的思路可以應用到其他需要實時生成的AI任務中。
我們離真假難辨的數字人又近了一步。未來,你在影片通話中看到的人,可能是一個AI驅動的數字形象,而你完全無法分辨。這帶來了便利,也帶來了新的思考:我們應該如何應對這種技術帶來的信任問題?如何防止技術被濫用於欺騙?研究團隊在論文中也特別提到了倫理考量,表示他們的技術僅用於合法的遠程呈現和交互應用,並建議在實際部署時採取訪問控制和數字水印等措施。
科技的發展總是比我們想像的更快。而Live Avatar,正是這個加速進程中的一個重要節點。
Q&A
Q1:Live Avatar是什麼?
A:Live Avatar是由阿里巴巴集團聯合中國科學技術大學等高校研發的AI數字人影片生成技術,它能夠根據音頻實時生成高清數字人說話影片,而且可以無限時長地持續生成而不出現畫質下降或"變臉"問題。
Q2:Live Avatar需要什麼硬體才能運行?
A:論文中的實驗使用了5塊NVIDIA H800顯卡才能達到每秒20幀的實時生成速度。這意味著目前它還是一個需要高端硬體支持的專業級技術,短期內可能主要用於企業級應用而非普通消費者設備。
Q3:這項技術會不會被用來製作"深度偽造"假影片?
A:這確實是一個值得關注的問題。研究團隊在論文中專門討論了倫理考量,強調技術僅用於合法用途,並建議採用訪問控制和數字水印等措施來防止濫用。不過,任何強大技術都存在被誤用的風險,社會需要在技術普及的同時建立相應的監管和檢測機制。






