蘋果新專利擴展了註冊流程，以在Vision Pro中創建逼真用戶化身

2024 年 1 月，蘋果發布了一項專利揭示 Vision Pro 為 FaceTime 通話+創建逼真 3D 虛擬人形象的註冊流程細節。近日，美國專利商標局正式授予蘋果一項專利，該專利擴展了註冊流程，以便在 Vision Pro 中創建一個逼真的用戶化身在 Facetime 中使用。

贊助商廣告

蘋果表示：「因為用戶戴著 Apple Vision Pro，眼睛被遮住了，所以我們設計了一個系統，它使用先進的機器學習來真實地表示用戶在 Facetime 中的表現。虛擬人角色動態地反映了用戶的面部和手部動作，在聊天時，人們會看到用戶的眼睛、手和真實的表情。」

在蘋果的專利背景中，他們注意到現有的技術可能無法準確或真實地呈現當前（實時）電子設備用戶的外觀。例如，設備可基於幾分鐘、幾小時、幾天或甚至幾年前獲得的用戶面部圖像來提供用戶的虛擬形象。這樣的虛擬形象可能不準確地表示用戶的當前（實時）外觀。例如，當用戶在微笑時不將用戶的化身顯示為微笑，或者不顯示用戶的當前鬍鬚。因此，最好能提供一種方法，有效地呈現更準確、真實和/或當前的用戶表徵。

蘋果新專利涵蓋了設備、系統和方法，這些設備、系統和方法生成了一組值，這些值代表了用戶面部在某個時間點的 3D 形狀和外觀，用於生成一個真實的用戶表示（例如，一個虛擬人形象）。

在一些實施方案中，可以相對於具有非平面形狀（例如，曲線平面形狀）的表面來定義該值集合。該組值可以包括深度值，其定義面部部分相對於表面上多個點的深度，所述多個點例如是部分圓柱形表面上網格中的點。

例如，一個點的深度值可以定義，面部的一部分位於該點在表面上的位置後面的深度 D1 處，例如，沿從該點開始的正交射線深度 D1 處，所描述的技術使用與現有 RGBDA 圖像中的深度值不同的深度值（例如，紅-綠-藍-深度-α圖像），因為現有的 RGBDA 圖像定義相對於單個攝像機位置的內容深度，而專利中描述的技術定義相對於平面形狀的表面上的多個點的深度（例如，曲線平面形狀）。

贊助商廣告

可以使用相對簡單的一組值來實現幾個優點，其中相對於一個表面上的多個點定義了深度值。與使用 3D 網格或 3D 點雲相比，該值集可能需要更少的計算和頻寬，同時能夠比 RGBDA 圖像更精確地表示用戶。此外，可以以類似於現有格式(例如 RGBDA 圖像)的方式格式化/打包這組值，這樣可以更有效地與基於這種格式的系統集成。

本專利中公開的各種實施方案包括調整用戶第一部分（如手）的 3D 表示的顏色的設備、系統和方法。使用用戶第二部分（如臉部/頭髮）的 3D 表示樣本來調整顏色。

在某些實施方案中，在用戶第二部分的第一 3D 表示和示例 3D 表示之間沒有重疊（例如，一種表示顯示面部，另一表示顯示手）。通過過濾掉非皮膚數據(如頭髮、衣服等)，可以提高調色精度。可以使用變換來調整顏色（例如，使用 Monge-Kanorovich 顏色轉移技術確定顏色）。在某些實施方案中，示例表示中的陰影可能產生顏色調整，這些顏色調整可能僅通過獲取數據的一個子集（例如，最亮的 25% 的數據）來解釋。

一般來說，本專利所述主題的一個創新方面可以體現在以下方法中：在設備的處理器中，獲取用戶至少第一部分的預定 3D 表示，其中預定 3D 表示與相對於用戶骨骼表示定義的 3D 參考點相關聯；獲取對應於一段時間內多個瞬間的特定幀 3D 表示序列、每個特定幀的 3D 表示都表示用戶在一段時間內的多個時刻中的各自時刻的第二部分，並且每個特定幀的 3D 表示都與 3D 參考點相關聯，以及生成用戶在一段時間內的多個時刻的組合 3D 表示，其中每個組合 3D 表示都是通過將預定 3D 表示與基於對齊的各自特定幀的 3D 表示組合而生成的，其中對齊是基於 3D 參考點的。

在某些方面，調整頂點包括使用指定的 alpha 值混合與頂點相關聯的至少一些高度值和為各自的幀特定的 3D 表示指定的高度值。在某些方面，調整頂點包括使用指定的 alpha 值混合至少一些與頂點相關聯的紋理值，並為各自的幀特定表示指定紋理值。在某些方面，由預定的 3D 表示所表示的第一部分表示用戶的上身和頭部。

贊助商廣告

蘋果專利圖 2 舉例說明了至少一部分用戶的 3D 表示；圖 5A 和 5B 說明了相對於用戶的骨骼表示定義的 3D 參考點的示例；圖 7 說明了生成和顯示用戶面部表示的部分示例，

蘋果專利圖 8 示出了根據一些實現方式可以基於預定表示數據和特定於幀的表示數據生成用戶組合表示的系統流程圖。

蘋果專利圖 13 是用於調整 3D 表示中的一個或多個顏色以生成組合 3D 表示的方法流程圖表示；圖 14 是用於調整 3D 表示中的一個或多個顏色以基於過濾所識別的部分來生成組合 3D 表示的方法流程圖表示。