近日,字節跳動和清華大學在 GitHub 上聯合推出了一款最新的人像動畫技術「X-Portrait 2」。
具體來講,X-Portrait 2 是一款「生成式人像轉移模型」,其使用方法非常直觀和簡單:用戶只需要提供一張靜態肖像圖和一段含有表情變化的「表演」影片,這個技術就能一鍵將表情「遷移」至肖像上面,從而使前者也「動起來」。
就像下面這樣:

可以看到,左下角是「靜態肖像」,右下角則是「表演影片」,而 X-Portrait 2 的功能就是讓左邊的角色做出同右邊人物幾乎一模一樣的表情。
除了「表情」以外,就連「神態」也幾乎是像素級復刻:

眉眼和笑容之中所包含的「狡黠」和「頑皮」,全部都精準地呈現出來了。
頭部扭動幅度較大的情況下,X-Portrait 2 也完全可以勝任,表情也並未失真:

一個比較「務實」的使用場景,是它可以用來「對口型」,有時可以配合後期修改台詞的需要:

不僅復刻精準,並且也足夠流暢自然。發布者也因此將其稱為「極具表現力的肖像動畫」。
顯然,這個模型能夠實現跨風格和跨領域的表情轉移,覆蓋寫實肖像和卡通圖像;並且適應性較強,能夠用於包括現實世界的故事講述、動畫角色的呈現、虛擬代理以及其他視覺效果。
在電影或者動畫的後期特效製作方面,X-Portrait 2 無疑大大簡化了現有的動作捕捉、角色動畫和內容創作流程。

相較於其原型 X-Portrait,X-Portrait 2 的升級和創新謂之「進化」都不為過。
X-Portrait 2 採用了一個更先進的表情編碼器,這個編碼器在大規模數據集上進行訓練,其能夠更精確地捕捉和再現人物的微妙表情,包括嘟嘴、鼓腮和皺眉等細節,還原了表情的複雜性,並提升了其真實感。

同時,X-Portrait 2 實現了外觀和動作的有效分離,這意味著在遷移表情時,原始圖像的外觀特徵得以保留,表情變化不會影響人物的基本面貌,提高了動畫的自然程度和一致性。

值得一提的是,X-Portrait 2 還創新地引入了生成式擴散模型,這種模型能夠處理不同視角下的表情變化,生成更加流暢和真實的動畫效果,解決了傳統方法在視角變化時可能出現的表情不協調問題。

此外,X-Portrait 2 還增強了跨領域的表情遷移能力以及動畫的真實感和動態表現力。
和早先發布的同類競品——Runway 的 Act-One 相比,X-Portrait 2 也毫不遜色。同樣是「Nice 老爺爺」的喜感表情,Act-One 的生成效果是這樣的:

圖源:虎嗅
似乎只做到了「遷移」,並且表情的誇張程度衰減明顯,還略微有點僵硬。如果遮住原影片,可能根本看不出來這是在模仿誰。
同一個表情,以下是 X-Portrait 2 的生成效果:

除了表情的復刻更加精準細膩以外,我們似乎還能感受到那種自然流露的「喜感」。這才是 X-Portrait 2 的厲害之處。
對於 X-Portrait 2 的優勢,開發者是這樣說的:
儘管如此,Ai-Da 的人形、思想甚至智慧這些和人類無限接近的要素,難免使得這一議題更加複雜化。她曾在英國上議會議院發言時語出驚人:
與 X-Portrait 和最近發布的 Runway Act-One 等最先進的方法相比,我們的模型可以忠實地傳遞快速的頭部運動、微小的表情變化和強烈的個人情感。這些方面對於高質量動畫內容創作(例如動畫和電影製作中的內容)至關重要。
來看一個更加直觀的對比:

顯而易見,同初代 X-Portrait 相比,X-Portrait 2 的進步在於更加「自然流暢」;而同 Act-One 相比,X-Portrait 2 則更加「精準細膩」。
無論如何,X-Portrait 2 的推出繼續發揚了「用生成式 AI 代替動捕」這個可能的概念,並且使它更加成熟,距離落地商用又近了一步。