卡內基梅隆大學新研究：AI如何從一段普通影片裡「腦補」出物體的完整3D動態形象？

這項由卡內基梅隆大學多個實驗室聯合完成的研究以預印本形式發布於2026年6月，論文編號為arXiv:2606.23688，項目名稱為Lift4D 卡內基梅隆大學新研究AI如何從一段普通影片裡腦補出物體的完整3D動態形象。感興趣的讀者可通過該編號檢索完整論文及配套演示網站。

贊助商廣告

---

用一段手機拍的影片，重建出物體360度的完整外形，還能追蹤它每一幀的動作變化——這件事聽起來像魔法，但卡內基梅隆大學的研究團隊正在把它變成現實。

你有沒有想過，當你用手機拍一隻貓打滾，或者拍一頭犀牛踱步，攝影機只能看到貓或犀牛對著鏡頭的那一面。貓的背脊、犀牛的另一側身體，還有那些被樹枝或人群遮擋住的部分，攝影機一概看不到。然而你的大腦卻能輕鬆"腦補"出完整的畫面——你知道貓的背後有毛、犀牛的另一側也有角。

這種"腦補"能力，正是Lift4D這套系統想要賦予電腦的。

---

一、當AI面對一段普通影片，它的困境是什麼？

把一段單鏡頭影片變成完整的三維動態模型，難度遠超大多數人的想像。這個問題有一個專業的叫法——"單目4D重建"，其中"單目"代表只有一個攝影機，"4D"代表三維空間加上時間這第四個維度。

要理解這件事為什麼難，可以用一個簡單的比方。假設你只有一張從正面拍攝的雕塑照片，要你憑此畫出這座雕塑從背面、側面、俯視看起來是什麼樣子，同時還要把它在不同時刻的姿勢變化全部記錄下來——這就是電腦面對的挑戰。資訊嚴重不足，任何人都只能猜。

現有的方法大致分兩條路。一條路是直接訓練AI學會從影片預測4D模型，但問題在於，真實世界裡帶有精確3D標註的動態影片數據極度稀缺，AI學到的知識大多來自合成的動畫素材，遇到真實世界裡的貓、人、動物就容易出錯。另一條路是先用AI猜出物體的初始3D形狀，再用影片裡的資訊慢慢調整，但這個"調整"過程缺乏持續的智能輔助，遇到大幅度運動或遮擋就容易垮掉。

Lift4D選擇了第三條路：在整個重建過程中，始終讓一個強大的3D感知能力在場，同時專門設計了應對遮擋問題的機制。

贊助商廣告

---

二、整體思路：像一位有記憶的雕塑家

Lift4D的工作方式可以類比成一位有特殊能力的雕塑家。這位雕塑家在看過影片的第一幀畫面後，立刻在腦海里構建出物體的完整立體形象，包括他看不到的背面。然後，每當影片播放到下一幀，他不會推翻重來，而是把上一幀積累的印象帶入新的判斷，讓自己的理解隨著時間連貫地演進。最後，他把所有幀的理解融合進一個統一的、會動的3D模型，並且專門處理那些被遮擋的部分，用合理的推測填補空缺。

這個過程分三個階段：首先，用一個改造過的"單張圖片轉3D"的AI模型，逐幀生成時間上連貫的3D重建結果；其次，把這些逐幀結果提煉進一個可以變形的統一3D表示；最後，用一個懂得看圖補全的圖像AI，把遮擋區域和從未被拍到的區域填充完整。

---

三、第一步：讓AI記住上一幀看到的形狀

Lift4D用到了一個叫SAM3D的先進模型，這個模型的能力是給它一張圖片，它能生成對應物體的3D高斯點雲模型。高斯點雲是一種用密集的小"氣泡"來描述三維形狀和顏色的技術，每個氣泡有自己的位置、大小、方向和顏色，組合起來就像一團栩栩如生的彩色雲朵，渲染起來又快又好看。

然而，如果對影片的每一幀單獨運行SAM3D，得到的結果就像是由一堆毫無關聯的雕像拼湊起來的幻燈片——前一秒物體朝左，下一秒朝右，形狀也突然變了，根本無法用來追蹤運動。

為了解決這個問題，研究團隊設計了一種叫做"因果潛變量傳播卡內基梅隆大學新研究AI如何從一段普通影片裡腦補出物體的完整3D動態形象 "的機制。這個名字聽起來複雜，但核心思路非常簡單：當AI處理第一幀時，它從零開始推理，生成一個描述該幀形狀的"記憶編碼"；處理第二幀時，它不從零開始，而是把第一幀的記憶編碼混入新一幀的初始狀態，就像一個學生做題時把上一道題的答案草稿留在紙上，作為下一道題的參考。這個"混入"的比例由一個參數控制，默認情況下設置為讓上一幀的影響占20%，當前幀的全新資訊占80%。這樣，AI既不會完全忘記過去，也不會因為過去太固執而看不清現在。

贊助商廣告

處理完整段影片後，每一幀都有了自己的3D重建結果，而且這些結果在時間上是連貫的——物體不會無緣無故地左右跳動，形狀也保持合理的連續性。

---

四、第二步：把零散的幀提煉成一個會動的統一模型

逐幀生成的3D模型解決了時間連貫性，但仍然有一個根本問題：每一幀的高斯點雲都是獨立的，第1幀里代表犀牛鼻子的那個氣泡，和第2幀里代表同一個鼻子的氣泡，在數學上毫無關聯。這就好比用樂高積木搭了一系列擺出不同姿勢的小人，但每個小人都是全新搭建的，積木之間沒有任何物理連接。

Lift4D的解決方案是構建一個"正則形態"——可以把它理解成一個標準參考姿勢下的基礎模型，就像芭蕾舞演員的"站立準備姿勢"。這個基礎模型由一組固定的高斯氣泡組成，然後配備了一套稀疏的"控制節點"，就像木偶的關節控制點。一個可學習的變形網路負責根據時間資訊，告訴每個控制節點該如何旋轉和移動，所有氣泡則跟隨最近的控制節點一起變形，就像皮影戲裡綁了線的皮影隨著線的牽動而改變姿勢。

為了讓這個變形模型學得準確，研究團隊設計了兩種監督信號。一種是"倒角距離損失"，它衡量變形後的基礎模型里每個氣泡，和對應幀逐幀重建結果里最近氣泡之間的距離，督促它們儘量靠近。另一種是"多視角渲染損失"，它在物體周圍的虛擬球面上隨機選一個觀察角度，分別渲染基礎模型和逐幀模型，然後比較兩張圖的像素差異和結構差異，讓它們看起來儘可能一致。

此外，為了防止變形網路過度擬合單幀的噪聲而產生抖動，研究團隊還加入了兩種正則化約束：一種要求相鄰控制節點的運動保持局部剛性（就像人體的骨骼運動時局部肌肉不會亂扭），另一種要求相鄰幀之間控制節點的位置變化儘量平滑（就像人在走路時腳不會突然跳到兩米外）。

---

五、第三步：填補遮擋與未見區域的外觀

贊助商廣告

即便有了連貫的幾何形狀，外觀質量還有一個棘手的問題。現實影片裡，物體常常被其他東西遮擋：犀牛被灌木叢遮住腿，跳馬的運動員被裁判員的手臂遮住胸口。如果直接把影片像素當作"標準答案"來訓練模型，被遮擋的地方就會給模型傳遞錯誤的信號，讓它誤以為那些位置的外觀就是遮擋物的樣子。

Lift4D設計了一套"遮擋感知渲染監督"機制來專門解決這個問題。具體來說，它先用一個單目深度估計工具（Depth Anything 3）來判斷場景里每個像素距離攝影機的遠近，再把這個深度圖和3D模型渲染出的深度圖做比較。如果場景深度圖顯示某個位置的物體比3D模型顯示的更近，說明那個位置有東西在"擋著"目標物體。同時結合物體分割掩碼（用SAM3工具生成），就能精確找出哪些像素是屬於目標物體但被遮擋了的區域。

找到遮擋區域之後，系統不是直接忽略它，而是用一個聰明的替代方案：把逐幀3D重建模型從當前視角渲染出來的圖像，與輸入影片在可見區域的顏色統計資訊做匹配——簡單說就是調整一下色調、對比度和飽和度，讓重建圖像的整體配色風格和真實影片相近。經過這種"色彩矯正"之後，重建圖像就成為了遮擋區域的合理替代參考。最終的"完整參考圖像"由兩部分拼合：沒被遮擋的區域用真實影片像素，被遮擋的區域用色彩矯正後的重建渲染來填充。

然而，即便遮擋處理完了，還有另一個更根本的問題：攝影機從來沒有拍到過物體的背面。這些區域在任何一幀里都是空白的，沒有任何像素資訊可以參考。對於這些區域，Lift4D引入了一個叫做Zero-1-to-3（升級版稱為Stable Zero123）的圖像擴散模型——這是一種專門根據已知視角的圖像來"想像"其他視角看起來應該是什麼樣子的AI。

使用這個擴散模型的方式是評分蒸餾損失（LSDS）：在物體周圍隨機選一個新視角，用3D模型渲染出該視角的圖像，把這張圖送進擴散模型，擴散模型基於已知的"完整參考圖像"來預測這個角度應該有的合理外觀，然後把3D模型的渲染結果往這個預測拉近。關鍵的設計細節在於，擴散模型接收的參考是已經處理過遮擋的完整參考圖像，而不是原始的、有遮擋的影片幀，這讓擴散模型的"想像"質量大幅提高，不會被遮擋物誤導。

贊助商廣告

整個外觀優化階段會凍結之前學到的幾何變形參數，只優化外觀屬性和一套額外的細粒度控制節點，確保精細的外觀調整不會破壞已經學好的幾何結構。

---

六、實驗結果：在合成數據和真實野外影片上的比較

研究團隊在兩個場景下驗證了Lift4D的效果。

第一個場景是Consistent4D合成數據集，裡面有7種不同的合成3D物體，包括骷髏頭、手槍、宇航員、三角龍等，每個物體都有32幀的輸入影片和4個新視角的真實渲染結果作為標準答案。在感知相似度（LPIPS，數值越低越好）方面，Lift4D達到0.116，優於排在第二位的DM4D的0.128，以及PAD3R的0.137。在影片連貫性和真實感（FVD，數值越低越好）方面，Lift4D達到592.44，大幅優於第二名PAD3R的645.09。在語義相似度（CLIP分數，越高越好）方面，Lift4D達到0.950，同樣領先。換句話說，Lift4D重建出來的4D模型，從各個新角度看都最接近真實的樣子，而且時間上最連貫。

第二個場景是真實野外影片，包括10個來自Pexels的公開影片和8個來自DAVIS數據集的影片，涵蓋跑動的駱駝、踱步的犀牛、跳躍的馬匹、奔跑的狗、騎馬的人等多種場景，部分影片中目標物體會被遮擋。由於沒有真實的新視角影片作為標準答案，評估改用CLIP語義分數衡量重建質量，以及終點誤差（EPE）衡量運動追蹤精度——EPE越低，說明3D模型估計的運動軌跡與真實運動越吻合。

在Pexels數據上，Lift4D的CLIP分數達到0.780，遠高於第二名STAG4D的0.757，同時EPE僅為0.072，而第二名PAD3R是0.119，幾乎是Lift4D的1.7倍。在DAVIS數據上，Lift4D同樣以0.715對0.637（第二名V2M4）和0.161對0.189（第二名STAG4D）的成績全面領先。這些數字背後的含義是：Lift4D不僅外觀重建得更好，它對物體運動的理解也更準確，模型內部的3D幾何在時間上真正對應著物體實際移動的軌跡。

消融實驗（即逐步去掉某個設計組件再測試性能）進一步證明了各個設計的必要性。去掉因果潛變量傳播，改成每幀獨立重建，LPIPS從0.116上升到0.120，FVD從592上升到627，幾何抖動明顯增加。去掉運動正則化，FVD急劇惡化到794。去掉擴散模型蒸餾損失，LPIPS惡化到0.170，FVD達到1242，未觀察區域外觀變得平坦模糊。僅保留幾何重建損失而去掉外觀優化階段，效果同樣明顯下降。這些結果說明，三個主要模組的設計相互依賴、缺一不可。

贊助商廣告

---

七、實際運行起來需要多少時間和資源？

對於一段32幀的影片，Lift4D在一張英偉達H200顯卡上大約需要30分鐘完成重建。幾何優化階段和外觀優化階段各進行10000次疊代，共20000次，使用AdamW優化器。考慮到最終得到的是一個完整的、可以從任意角度渲染的4D動態模型，這個時間代價在研究社區里是相當合理的。

---

八、這套方法有哪些局限和尚待解決的問題？

研究團隊在論文中坦誠地指出了兩個主要局限。

第一，整個流程是級聯式的，最終質量在很大程度上依賴SAM3D初始重建的質量。當SAM3D對某一幀的幾何形狀或攝像機位姿估計出現較大誤差時，這些錯誤會向下傳播，影響後續所有階段。對於幀率較高或者物體形狀很細薄的影片（比如拍一根細竹竿），逐幀的攝像機位姿預測可能出現跳躍，優化過程難以消除。

第二，因果傳播的強度參數t0目前是固定的，不同影片可能需要不同的值。對於運動非常劇烈的序列，t0偏大會壓制合理的形變；對於靜止或接近剛體的物體，t0偏小則可能允許不必要的幾何抖動。這個超參數目前需要手動調整，未來的工作可以考慮讓系統自動適配。

更長遠來看，研究團隊認為進一步提升SAM3D自身的幾何估計能力是最有前景的改進方向，同時把Lift4D擴展到更複雜的交互場景（比如人手拿取物體時手與物體的相互遮擋和接觸）也是一個值得探索的目標。

---

歸根結底，Lift4D做的事情可以用一句話來概括：它教會了電腦像人類大腦一樣，在看到片面資訊時仍然能夠構建出完整的三維動態世界。手機拍的一段普通影片，經過這套系統的處理，就能變成一個可以隨意旋轉、任意暫停、追蹤每個部位運動軌跡的完整4D數字模型。這對電影製作（不需要專業動作捕捉設備）、遊戲資產生成（直接從真實影片提取角色動作）、體育分析（精確追蹤運動員的三維運動）乃至醫學康復（分析患者運動模式）都有潛在的實用價值。當然，目前這套系統還需要高端GPU和較長的處理時間，距離普通人隨手使用還有一段路要走。但每一項技術的普及都經歷過這個階段，今天的30分鐘研究級處理，或許就是明天實時預覽功能的前身。有興趣深入了解的讀者可以通過論文編號arXiv:2606.23688找到完整的技術細節和演示影片。

贊助商廣告

---

Q&A

Q1：Lift4D需要多視角攝影機才能工作嗎？

A：不需要。Lift4D專門針對單個攝影機拍攝的普通影片設計，它通過因果潛變量傳播和擴散模型來補全攝影機看不到的區域，不依賴多視角設備。

Q2：Lift4D重建的3D模型能用在遊戲或影視製作中嗎？

A：從技術原理上看是可行的。Lift4D輸出的是帶有完整外觀的4D高斯點雲模型，可以從任意角度渲染，也記錄了物體隨時間的形變過程，理論上可以導入到支持高斯點雲的渲染管線中使用，但目前距離工業級的直接可用還需要進一步工程化。

Q3：Lift4D處理遮擋的方法是什麼原理？

A：Lift4D比較場景深度圖和3D模型渲染的深度圖，找出被前景物體遮擋的目標像素，然後用色彩矯正後的逐幀3D重建圖來替換這些遮擋區域，生成一張"去遮擋"的完整參考圖，再用這張圖來指導外觀優化，避免遮擋物的顏色干擾最終結果。