我們推出了一種全新的圖像編輯方法,該方法現已作為 Google 相冊"自動取景"功能的一部分正式上線,允許用戶在拍攝完成後,從全新的視角重新構想照片。
你是否曾翻看相冊時,暗自希望當時能換個角度拍攝?也許你希望多捕捉到面孔的某一側,或者將相機稍微放低一點以獲得完美構圖。又或者,那是一張笑容燦爛的自拍,卻因廣角鏡頭的畸變讓人看起來有些陌生。通常,這些"差一點就完美"的照片是我們不得不接受的結果,因為那個瞬間已經過去,無法重來。
裁剪和縮放或許能有所幫助,但傳統圖像編輯工具無法解決根本問題:圖像依然是從一個固定的、並不理想的視角呈現場景的。放大並不能改變視差,裁剪也無法展示畫框之外的內容。
今天,我們宣布推出一種在拍攝完成後修正場景構圖的全新方法。這一方法現已集成於 Google 相冊的"自動取景"功能中,它利用機器學習模型理解場景及其空間布局,並藉助生成式 AI 從新視角重新呈現照片。與傳統圖像編輯不同,我們的方法將照片解讀為一個三維場景——就像時間定格的真實瞬間——並在這個空間中自動調整相機位置。為此,該方法在保留原本可見內容的同時,智能地生成原本被遮擋的內容,從而形成對原始場景的真實新視角。
全新的"自動取景"功能將普通的二維照片解讀為三維場景。通過從圖像的空間布局中推斷原始相機位置,它能自動調整拍攝角度,呈現這一定格瞬間的全新真實視角。
與其他生成式圖像編輯方案不同,我們的方法分為兩個階段:第一階段是三維場景與相機參數估計,第二階段是生成式修復與潤色。通過將三維估計與圖像生成解耦,我們可以在三維空間中精準操控場景,並同時調整相機的內參與外參。此外,我們還利用機器學習模型理解場景內容,並自動推薦新的相機參數。
在第一步中,我們使用內部研發的三維點雲估計模型,該模型經過專門配置,能夠忠實地重建人體與面部,從而將可能損害人物識別度的重建偽影降至最低。對於原始圖像中的每一個像素,該模型都會估計一個代表可見表面的三維點,並額外估算原始相機的焦距。
接下來,我們使用經典的三維渲染技術,生成以調整後的相機參數拍攝時圖像的估算結果。值得注意的是,我們可以同時修改相機的位姿(位置與朝向)和焦距,從而對圖像生成過程擁有完全的掌控。
然而,僅靠渲染三維點雲是不夠的:當虛擬相機"繞著"物體移動時,會露出原始鏡頭從未捕捉到的背景區域。本質上,三維點雲是場景的不完整表示,從新視角渲染時必然會產生"空洞"。為填補這些區域,我們使用生成式潛在擴散模型對渲染結果進行補全與修正。該模型專為此任務訓練,使用的是一個包含已知相機參數圖像對的內部數據集。在訓練過程中,我們估計一張圖像的三維點雲並將其投影到第二張圖像的相機視角下,模型隨後學習從重新渲染的第一張圖像中重建第二張圖像。在推理階段,我們採用帶有區域縮放的分類器引導,在忠實保留原始內容的同時,賦予模型足夠的創作自由度來填補空白區域。
我們的兩階段編輯方法概覽:首先,三維點雲估計模型通過單目深度生成三維點雲來估算場景幾何結構,並利用二維語義資訊推斷目標相機參數;其次,生成式潛在擴散模型通過填補被遮擋的背景區域,並對新相機角度所呈現的新視角進行最終調整,從而完成構圖補全。
為支持全自動編輯,我們利用機器學習模型檢測主體面部的位置與三維朝向。結合三維點雲,這些語義資訊使我們能夠計算出理想構圖所需的相機參數,這對人像拍攝尤為實用。此外,使用廣角前置攝影機拍攝的照片往往存在明顯的透視畸變,會使離鏡頭最近的面部特徵顯得不自然地放大。為此,我們的方法能夠自動檢測這些畸變,並調整虛擬相機的內參以恢復自然、和諧的比例,相當於在拍攝完成後"後退一步"重新審視被攝對象。
這一全自動解決方案現已作為"自動取景"功能的一部分在 Google 相冊上線。它利用我們具備三維感知能力的圖像編輯工具,無縫處理包含人物的合適照片,從而提升人像質量。用戶可以在"自動取景"候選結果中,將自動調整了相機視角的重新構圖版本作為第二個渲染選項進行訪問,只需一步操作即可完成照片優化。
現已在 Google 相冊上線,用戶可通過"自動取景"功能,以一步操作的方式輕鬆獲取自動重新構圖的圖像。
此功能是 Google DeepMind 與 Google 平台及設備團隊合作的成果。主要貢獻者包括:Thiemo Alldieck、Marcos Seefelder、Hannah Woods、Pedro Velez、Michael Milne、Bert Le、Navin Sarma、Jasmin Repenning 和 Selena Shang。顧問包括:Steven Hickson、Claudio Martella、Irfan Essa 和 Alex Rav Acha。特別感謝:Mike Krainin、Jan Stria、Neal Wadhwa、Amit Raj、Mauro Rego、Kita Boice、Dennis Shtatnov、Yuan Qi、Julian Iseringhausen、Peter Zhizhin、Jiaping Zhao、Andre Araujo、Jana Ehmann、Keng-Sheng Lin、Isalo Montacute、Brandon Ruffin、Reginald Ballesteros 和 Andy Radin。
Q&A
Q1:Google 相冊的"自動取景"功能是什麼?它能解決哪些問題?
A:Google 相冊的"自動取景"功能是一種基於機器學習與生成式 AI 的圖像編輯工具,能在照片拍攝完成後重新調整構圖視角。它能解決傳統編輯工具無法處理的問題,例如視角固定、廣角畸變導致面部比例失調,以及畫面外內容無法補全等,讓"差一點就完美"的照片獲得全新的理想構圖。
Q2:"自動取景"功能中的兩階段編輯方法是如何工作的?
A:第一階段是三維場景與相機參數估計:模型對圖像中每個像素估計三維點,並推算原始相機焦距,構建場景的三維點雲;隨後通過經典三維渲染生成新視角的初步圖像。第二階段是生成式修復:利用潛在擴散模型填補因視角變化而出現的"空洞"區域,並在保留原始內容的前提下,智能生成原本被遮擋的背景,最終形成自然、真實的新視角圖像。
Q3:"自動取景"功能如何處理廣角自拍的面部畸變問題?
A:"自動取景"功能通過自動檢測廣角鏡頭拍攝時產生的透視畸變,識別離鏡頭過近而導致的面部特徵不自然放大現象,並通過調整虛擬相機的內參來恢復自然、和諧的面部比例。這一過程相當於在拍攝完成後"後退一步"重新審視人物,無需重新拍攝即可獲得更自然的人像效果。






