復旦大學與騰訊團隊提出基於風格增強的生動肖像(Style-Enhanced Vivid Portrait,SVP)框架,以改進現有的說話人頭生成(Talking Head Generation,THG)技術,使其能夠更有效地捕捉個性化特徵,如說話習慣和面部表情。

THG是一項重要的生成式人工智慧任務,廣泛應用於虛擬現實、電影製作等領域。然而,由於對偽影容忍度低且要求高精度的唇形、面部表情及頭部運動,對該技術的優化具有挑戰性。
傳統基於生成對抗網路(GAN)的方法雖然在視覺質量和口型精度方面表現出色,但穩定性和一致性較差。而基於擴散模型的THG方法在生成高質量、高解析度的內容方面更具優勢,但往往忽略了個體獨有的內在風格特徵,導致生成的影片內容缺乏生動性和多樣性。
在此背景下,SVP框架旨在通過自監督學習結合音頻資訊,提取個體獨有的內在風格特徵,並將其應用於擴散模型,以提升THG的真實感和表現力。

具體來說研究人員採用基於Transformer骨幹網路的概率先驗學習方法,使影片的音頻和視覺資訊在Transformer編碼器中交互,從而將內在風格建模為高斯分布。通過對比學習優化風格嵌入,使不同身份和情緒間的風格特徵更具區分度,提高模型對個體風格的理解能力。
在穩定擴散(Stable Diffusion,SD)模型的基礎上,研究團隊通過交叉注意力機制將學習到的風格先驗資訊注入目標影片的去噪過程。結合頭部運動的簡化面部關鍵點資訊、唇形及嘴周圍運動的音頻資訊,使生成影片更具個性化特徵和情感表達。

據了解,團隊已在MEAD和HDTF數據集上進行了大量實驗,並在多個關鍵指標(如FVD、FID、PSNR、SSIM、SyncNet和StyleSim)上均優於現有方法。定性評估表明,SVP不僅能夠生成高度自然的說話人頭影片,還能在同一影片中實現不同情緒和表情的變化,提供更豐富的視覺體驗。
總體而言,SVP框架通過創新性地引入概率風格先驗學習,使THG能夠更準確地提取和轉移個體風格,提高生成影片的整體質量。該研究為更先進、更全面的THG方法提供了新的視角,並推動了該領域的進一步發展。