近日,美國專利商標局正式授予蘋果公司一項專利,該專利涉及使用基於血流追蹤的機器學習生成下一代逼真的虛擬化身。蘋果公司技術開發集團副總裁Mike Rockwell 在介紹 Apple Vision Pro 時提出了示例。
Mike Rockwell表示:「對於像 FaceTime 這樣的數字通信,Vision Pro 不僅僅是傳達你的眼睛,而是創造了一個真實的你。這是我們在構建 Vision Pro 時面臨的最困難挑戰之一。沒有影片會議攝像頭在看著你,即使有,你的眼睛上也戴著什麼東西。使用我們最先進的機器學習技術,創建了一個新穎的解決方案。」
在使用 Vision Pro 上的前置傳感器進行快速註冊過程後,系統使用先進的編碼器-解碼器神經網路來創建用戶的數字角色。該網路在數千人的多元化群體中進行了培訓。它提供自然的呈現,動態匹配用戶的面部和手部動作。藉助數字角色,用戶可以與超過 10 億台支持 FaceTime 通話的設備進行通信。當有人在另一個 Vision Pro 中觀看時,用戶的角色具有傳統影片中無法實現的體積和深度。
蘋果專利涉及系統、方法和電腦可讀介質,以利用基於機器學習的血流追蹤技術來生成虛擬化身。為了生成逼真的虛擬化身,可以根據受試者可能做出的面部表情來模仿血流動向。也就是說,當一個人說話或做出不同的面部表情時,或做任何其他使面部變形的動作時,血液會在面部周圍以不同的方式流動。隨著血液的流動,受試者面部的顏色可能會因血流的變化而改變(例如,受試者的血液集中在皮下)。該過程可能包括培訓階段和應用階段。
第一階段涉及基於使用攝影測量系統捕獲的血流圖像數據訓練紋理自動編碼器。拍攝對象的許多圖像會做出不同的表情,因此可以在表情和面部血流之間獲得基本真實數據。血流可以通過從反照率圖中提取光照分量來確定,因為它從反照率圖中移位。反照率貼圖描述了具有完美漫射光的臉部紋理,以及主體皮膚的靜態版本。
因此,提取的照明分量指示特定表情從反照率貼圖中偏移的位置。因此,紋理自動編碼器可以將受試者的表情映射到 2D 血流紋理映射。在一個或多個實施方案中,紋理自動編碼器可以考慮將一系列表情作為輸入,從而產生特定的 2D 血流紋理圖。
第二階段涉及利用 2D 血液紋理圖生成虛擬化身。例如,可以使用多通道渲染技術生成虛擬化身,在該技術中,2D 血液紋理貼圖在多通道渲染過程中作為附加通道進行渲染。
作為另一個示例,可以根據2D血液紋理圖將特定表情的血流紋理疊加到主體的3D 網格上。
就本專利而言,自動編碼器是指一種用於以無監督方式對數據進行分類的人工神經網路。自動編碼器的目的是以優化的形式學習一組數據的表示方法。經過訓練的自動編碼器將具有編碼器部分、解碼器部分和潛在變量,它們表示數據的優化表示。
該專利涵蓋了可用於未來 iPhone、iPad、Mac 和 Apple Vision Pro 的自然化身創建。
蘋果專利圖 2顯示了訓練網格和紋理自動編碼器的流程圖;圖 5 示出了一種流程圖,該流程圖說明了利用血液紋理圖渲染化身的方法;圖 6 示出了示出化身生成的流程圖。
蘋果專利圖 3 顯示了一個流程圖,其中訓練了一個神經網路,以提供表情和血流紋理之間的映射。