谷歌研究團隊對影片會議系統進行了深入剖析,他們認為這些系統雖然在個人和專業場合中廣泛應用,但受限於 2D 螢幕的交流形式,難以達到面對面交流的自然與流暢。關鍵在於缺乏諸如眼神交流等重要的空間視覺提示。為了突破這一局限,團隊推出了名為「ChatDirector」的創新研究。
ChatDirector 通過為所有與會者引入語音驅動的視覺輔助,極大地豐富了基於 2D 螢幕的傳統影片會議體驗,構建了一個全新的空間感知影片會議環境。在此環境中,遠程與會者的 3D 人像能夠得以展示,為用戶帶來更為逼真的交流感受。
研究團隊開發的這一系統,能夠在本地用戶的設備上實時處理並展示多種資訊。ChatDirector 不僅流式輸出音頻輸入和由 Web Speech API 識別的語音文本,還結合了 RGB 圖像和 U-Net 神經網路推斷出的深度圖像,為用戶提供了豐富的視覺資訊。
當系統接收到遠程用戶的數據時,會利用這些數據重建出 3D 人像,並實時顯示在本地用戶的螢幕上。
更為出色的是,該系統還能根據 MediaPipe 人臉檢測技術檢測到的本地用戶頭部移動,智能調整虛擬渲染攝像頭的角度,為用戶創造出一種身臨其境的視覺視差效果。