字節最新技術一鍵「遷移」表情神態，人人都是演技派

近日，字節跳動和清華大學在 GitHub 上聯合推出了一款最新的人像動畫技術「X-Portrait 2」。

贊助商廣告

具體來講，X-Portrait 2 是一款「生成式人像轉移模型」，其使用方法非常直觀和簡單：用戶只需要提供一張靜態肖像圖和一段含有表情變化的「表演」影片，這個技術就能一鍵將表情「遷移」至肖像上面，從而使前者也「動起來」。

就像下面這樣：

可以看到，左下角是「靜態肖像」，右下角則是「表演影片」，而 X-Portrait 2 的功能就是讓左邊的角色做出同右邊人物幾乎一模一樣的表情。

除了「表情」以外，就連「神態」也幾乎是像素級復刻：

眉眼和笑容之中所包含的「狡黠」和「頑皮」，全部都精準地呈現出來了。

頭部扭動幅度較大的情況下，X-Portrait 2 也完全可以勝任，表情也並未失真：

贊助商廣告

一個比較「務實」的使用場景，是它可以用來「對口型」，有時可以配合後期修改台詞的需要：

不僅復刻精準，並且也足夠流暢自然。發布者也因此將其稱為「極具表現力的肖像動畫」。

顯然，這個模型能夠實現跨風格和跨領域的表情轉移，覆蓋寫實肖像和卡通圖像；並且適應性較強，能夠用於包括現實世界的故事講述、動畫角色的呈現、虛擬代理以及其他視覺效果。

在電影或者動畫的後期特效製作方面，X-Portrait 2 無疑大大簡化了現有的動作捕捉、角色動畫和內容創作流程。

相較於其原型 X-Portrait，X-Portrait 2 的升級和創新謂之「進化」都不為過。

X-Portrait 2 採用了一個更先進的表情編碼器，這個編碼器在大規模數據集上進行訓練，其能夠更精確地捕捉和再現人物的微妙表情，包括嘟嘴、鼓腮和皺眉等細節，還原了表情的複雜性，並提升了其真實感。

贊助商廣告

同時，X-Portrait 2 實現了外觀和動作的有效分離，這意味著在遷移表情時，原始圖像的外觀特徵得以保留，表情變化不會影響人物的基本面貌，提高了動畫的自然程度和一致性。

值得一提的是，X-Portrait 2 還創新地引入了生成式擴散模型，這種模型能夠處理不同視角下的表情變化，生成更加流暢和真實的動畫效果，解決了傳統方法在視角變化時可能出現的表情不協調問題。

此外，X-Portrait 2 還增強了跨領域的表情遷移能力以及動畫的真實感和動態表現力。

和早先發布的同類競品——Runway 的 Act-One 相比，X-Portrait 2 也毫不遜色。同樣是「Nice 老爺爺」的喜感表情，Act-One 的生成效果是這樣的：

贊助商廣告

圖源：虎嗅

似乎只做到了「遷移」，並且表情的誇張程度衰減明顯，還略微有點僵硬。如果遮住原影片，可能根本看不出來這是在模仿誰。

同一個表情，以下是 X-Portrait 2 的生成效果：

除了表情的復刻更加精準細膩以外，我們似乎還能感受到那種自然流露的「喜感」。這才是 X-Portrait 2 的厲害之處。

對於 X-Portrait 2 的優勢，開發者是這樣說的：

儘管如此，Ai-Da 的人形、思想甚至智慧這些和人類無限接近的要素，難免使得這一議題更加複雜化。她曾在英國上議會議院發言時語出驚人：

與 X-Portrait 和最近發布的 Runway Act-One 等最先進的方法相比，我們的模型可以忠實地傳遞快速的頭部運動、微小的表情變化和強烈的個人情感。這些方面對於高質量動畫內容創作（例如動畫和電影製作中的內容）至關重要。

來看一個更加直觀的對比：

顯而易見，同初代 X-Portrait 相比，X-Portrait 2 的進步在於更加「自然流暢」；而同 Act-One 相比，X-Portrait 2 則更加「精準細膩」。

無論如何，X-Portrait 2 的推出繼續發揚了「用生成式 AI 代替動捕」這個可能的概念，並且使它更加成熟，距離落地商用又近了一步。