這項由香港科技大學的米振興、王宇欣和徐丹三位研究者共同完成的研究成果發表於2024年11月24日的arXiv預印本平台,論文編號為arXiv:2511.18922v1。這項突破性研究為我們展示了一個全新的人工智慧系統One4D,它能夠像魔法師一樣,僅僅通過一張照片就能創造出完整的動態4D世界,同時還能從稀疏的影片片段中重建出精確的三維場景。
在我們的日常生活中,當我們看到一張照片時,大腦會自動補全這個場景的立體結構和可能的動態變化。比如看到一張魚缸的照片,我們能想像出魚兒在水中遊動的樣子,甚至能推測出魚缸的深度和形狀。而One4D正是試圖讓電腦獲得這樣的能力。
傳統的AI影片生成模型就像只會畫平面畫的藝術家,雖然能創造出視覺效果不錯的影片,但缺乏對空間幾何結構的理解。這就好比一個只會畫畫卻不懂雕塑的人,他畫出的蘋果看起來很逼真,但如果你問他這個蘋果有多厚、從側面看是什麼樣子,他就無法回答了。而One4D的革命性突破在於,它不僅能生成逼真的RGB影片畫面,還能同時理解和生成精確的三維幾何資訊。
這項研究的核心創新體現在兩個關鍵技術上。首先是"解耦LoRA控制"(DLC),這就像給AI配備了兩套不同的工作系統:一套專門處理色彩和紋理資訊,另一套專門處理幾何形狀資訊。這兩套系統既能獨立工作避免相互干擾,又能通過特殊的連接通道保持協調,確保生成的畫面和幾何結構完美匹配。其次是"統一掩碼條件"(UMC),這個技術讓同一個模型能夠根據輸入資訊的不同自動切換工作模式,就像一位多才多藝的廚師,既能根據完整的食譜做菜,也能憑藉幾種主要食材即興創作,還能完全從零開始設計新菜品。
研究團隊通過大量實驗證明,One4D在各種任務中都表現出色。在單圖生成4D內容的任務中,One4D生成的影片不僅畫面更加動態逼真,幾何結構也更加準確完整。在影片重建任務中,即使只提供很少的關鍵幀,One4D也能重建出高質量的完整4D場景。這種性能的提升對於虛擬現實、增強現實、電影製作和遊戲開發等領域具有重要意義。
一、核心技術架構:讓AI同時掌握"看"和"想像"的能力
One4D的技術架構就像一個精心設計的工廠生產線,每個環節都有其獨特的作用和精妙的連接方式。整個系統建立在流匹配影片生成模型的基礎上,這種模型就像一個會做夢的機器,能夠從隨機噪聲中逐步"夢"出清晰的影片內容。
在傳統的影片生成中,AI只需要處理RGB色彩資訊,就像畫家只需要調配紅綠藍三種顏色來創作畫作。但One4D的野心更大,它同時處理RGB色彩資訊和XYZ幾何資訊。這裡的XYZ資訊被稱為"點圖",每個像素不僅包含顏色資訊,還記錄了對應3D點在空間中的坐標位置。你可以把這想像成一個特殊的相機,它拍攝的每張照片不僅能顯示物體的顏色,還能精確記錄每個像素點距離相機的遠近和在空間中的具體位置。
整個生成過程遵循一個優雅的數學框架。系統首先將RGB影片和點圖影片分別編碼成潛在空間的表示,就像將複雜的資訊壓縮成密碼。然後在訓練過程中,系統會在這些編碼上添加不同程度的噪聲,再學習如何去除這些噪聲來恢復原始資訊。這個過程就像教一個孩子通過逐步擦除黑板上的干擾線條來顯現隱藏的圖畫。
在數學層面,系統使用矯正流公式來處理這個去噪過程。對於時刻t,噪聲RGB潛在表示被定義為原始資訊與隨機噪聲的線性組合,幾何資訊也遵循同樣的規律。系統需要學習預測從噪聲狀態回到清晰狀態的"速度向量",就像學會如何駕駛汽車從模糊的起點準確到達清晰的終點。
這種設計的巧妙之處在於,它為後續的兩個核心創新奠定了堅實基礎。解耦LoRA控制能夠在這個框架內獨立優化RGB和幾何資訊的生成質量,而統一掩碼條件則能夠靈活地控制生成過程,實現從單圖到全影片的多種應用場景。
二、解耦LoRA控制:避免"左手畫圓右手畫方"的困境
在傳統的聯合RGB和幾何建模中,研究者通常採用簡單粗暴的方法:要麼把RGB和幾何資訊在通道維度上直接拼接,就像把兩張紙直接貼在一起;要麼在空間維度上拼接,就像把兩張圖片並排放置。這些方法看起來很直觀,但實際效果就像讓一個人同時用左手畫圓、右手畫方一樣困難。兩種不同類型的資訊會相互干擾,導致生成質量急劇下降。
One4D的解耦LoRA控制技術就像給AI安裝了兩個獨立但協調的大腦半球。LoRA(Low-Rank Adaptation)本身是一種參數高效的模型微調技術,就像在原有的複雜機器上加裝一些小巧但關鍵的調節器,而不是重新製造整台機器。One4D為RGB和幾何資訊分別配備了專門的LoRA適配器,形成了兩個獨立的計算分支。
這種設計的核心理念是"分而治之"。RGB分支專注於處理顏色、紋理、光照等視覺資訊,就像一位專業的色彩師;幾何分支則專門處理空間結構、深度、形狀等幾何資訊,就像一位精確的建築師。兩個分支共享基礎的預訓練參數,但在前向計算過程中保持完全獨立,避免了相互干擾。
然而,僅僅獨立還不夠,RGB畫面和幾何結構必須在像素級別保持精確的一致性。為了解決這個問題,研究團隊引入了"零初始化控制鏈接"的巧妙設計。這些控制鏈接就像兩個獨立工作室之間的專用通信管道,能夠在關鍵時刻傳遞重要資訊,確保兩個分支的輸出完美匹配。
控制鏈接的"零初始化"特性尤其重要。在訓練開始時,這些鏈接的權重全部設為零,意味著兩個分支完全獨立,不會對預訓練的影片生成能力造成任何干擾。隨著訓練的進行,這些鏈接逐漸學會傳遞有用的跨模態資訊,實現像素級的精確對齊。這就像兩個音樂家開始時各自演奏獨立的曲目,然後逐漸學會在關鍵節拍上協調一致,最終演奏出完美的二重奏。
在具體實現中,研究團隊只在DiT(Diffusion Transformer)的少數幾層添加控制鏈接,既保證了足夠的跨模態通信,又避免了過度的計算開銷。每個控制鏈接都是簡單的線性變換,將一個分支的特徵傳遞給另一個分支進行像素級的特徵更新。這種稀疏連接策略既保持了計算效率,又實現了精確的跨模態一致性。
實驗結果顯示,這種解耦設計的優勢非常明顯。相比於傳統的通道拼接方法,One4D生成的RGB影片質量更高、動態更豐富,幾何重建也更加準確。相比於空間拼接方法,One4D避免了token數量翻倍帶來的內存和計算壓力,同時實現了更強的像素級一致性。
三、統一掩碼條件:一個模型的"七十二變"
傳統的AI系統往往是"術業有專攻",一個模型只能做一件事:要麼專門做圖像生成,要麼專門做影片重建。但One4D的統一掩碼條件技術讓一個模型具備了"七十二變"的能力,能夠根據不同的輸入自動切換工作模式。
這個技術的核心思想來源於影片修復領域的成功經驗。就像修復一幅破損的畫作,修復師會根據現有的完好部分來推測和補全缺失的部分。統一掩碼條件將這個思路擴展到4D生成和重建的統一框架中。
具體來說,系統會將不同類型的輸入統一打包成一個"條件影片"。如果輸入是單張圖片,系統會將這張圖片放在序列的第一幀,其餘幀全部填零,就像給AI提供了一張參考照片和一堆空白畫布。如果輸入是稀疏的關鍵幀,系統會將這些幀放在相應的時間位置,未觀察到的幀依然填零。如果輸入是完整影片,所有幀都會被保留。
與此同時,系統還會生成一個二值掩碼來標記哪些幀是真實觀察到的,哪些是需要生成的。這個掩碼就像一張詳細的施工圖紙,告訴AI哪些部分需要保持原樣,哪些部分需要創造性地補全。
在處理幾何資訊時,系統採用了一個巧妙的策略:所有的XYZ幾何幀都需要完整生成,不直接接受條件輸入。這樣做的好處是避免幾何分支受到條件資訊中可能存在的噪聲或不一致性影響,讓幾何分支能夠專注於學習準確的3D結構表示。條件資訊通過解耦LoRA控制的跨模態鏈接間接影響幾何生成,確保生成的幾何結構與給定的RGB條件保持一致。
這種統一框架的強大之處在於它的適應性。當輸入單張圖片時,模型自動切換到純生成模式,基於圖片內容和文本描述創造出合理的動態4D場景。當輸入稀疏幀時,模型進入混合模式,既要保持給定幀的一致性,又要創造性地補全缺失的內容。當輸入完整影片時,模型轉為重建模式,專注於恢復準確的幾何結構和相機參數。
在訓練階段,系統會隨機選擇不同的掩碼模式,讓模型學會處理各種輸入情況。研究團隊設置了合理的採樣比例:35%的時間使用單圖輸入,30%使用稀疏幀輸入,35%使用完整影片輸入。這種平衡的訓練策略確保模型在所有場景下都能表現出色。
這種設計的另一個巧妙之處在於它的擴展性。如果未來需要支持新的輸入模式,比如點雲輸入或草圖輸入,只需要相應地調整掩碼構建策略,而不需要改變模型架構或重新訓練。這就像一把萬能鑰匙,能夠適應各種不同形狀的鎖。
四、訓練數據與實現細節:打造AI的"營養餐"
就像培養一個全面發展的學生需要均衡的營養和科學的教育方法,訓練One4D也需要精心配製的數據"營養餐"和巧妙的訓練策略。研究團隊構建了一個包含約34000個影片片段、總計約200萬幀的綜合訓練數據集,這個數據集就像一個豐富的圖書館,既有準確可靠的"教科書",也有生動多樣的"課外讀物"。
數據集的構成體現了"虛實結合"的智慧。一半數據來自合成數據集,包括OmniWorld-Game、BEDLAM、PointOdyssey和TarTanAir等,這些數據就像精確的數學習題,提供了絕對準確的幾何標註資訊。另一半來自真實世界的影片數據SpatialVID,使用Geo4D進行偽幾何標註,這些數據就像真實的生活案例,雖然可能不夠完美,但能讓模型學會應對複雜多變的真實場景。
為了讓模型能夠理解影片內容,研究團隊使用Gemini-2.0-Flash為每個影片片段生成了詳細的文本描述。這些描述就像給每個"課程"配備的詳細說明書,幫助模型建立視覺資訊與語言概念之間的對應關係。長影片被切分成約81幀的片段,這個長度既能保證足夠的時序資訊,又不會給計算資源造成過大壓力。
在數據預處理階段,幾何資訊經歷了一個精心設計的標準化過程。深度圖首先被轉換成以第一幀為參考的全局坐標系下的3D點雲,然後進行歸一化處理映射到[-1,1]的範圍內。這個過程就像將不同尺度的地圖統一到同一個比例尺,確保模型能夠學到尺度無關的幾何表示。
One4D基於Wan2.1-Fun-V1.1-14B-InP模型構建,這是一個經過社區優化的強大基礎模型,專門針對影片修復任務進行了增強。在這個140億參數的龐然大物基礎上,研究團隊添加了約935.7M個可訓練參數,就像在一座大城市中建設新的功能區域,既充分利用了原有的基礎設施,又增加了專門的新功能。
LoRA適配器的秩設置為64,應用到所有線性層,分別為RGB和幾何分支各自配置了685M參數。解耦控制鏈接被添加到5個關鍵的DiT層中,引入了250.7M額外參數。這種參數分配策略既保證了足夠的學習容量,又避免了過擬合的風險。
訓練過程採用了高效的資源配置:8張NVIDIA H800 GPU,每張GPU批量大小為1,梯度累積步數為4,學習率設為1×10^-4。整個訓練過程只需5500步,相比於某些需要百萬步訓練的方法,效率提升了兩個數量級。這種高效性得益於巧妙的架構設計和預訓練模型的強大基礎。
在訓練過程中,系統會動態切換不同的任務模式,通過隨機掩碼不同數量的幀來模擬各種應用場景。這種多任務訓練策略讓單個模型獲得了處理多種輸入類型的能力,就像培養一個既會游泳又會跑步還會騎車的全能運動員。
推理階段使用50步流匹配採樣,分類器無關引導尺度設為6.0。這些參數經過仔細調優,在生成質量和計算效率之間達到了最佳平衡。生成的點圖可以直接轉換為深度圖,並通過後優化算法估計出精確的相機軌跡,為下游應用提供完整的4D場景資訊。
五、後優化:讓4D場景"站穩腳跟"
生成4D內容之後,One4D還需要經歷一個"整理收尾"的過程,這就是後優化階段。就像搭建完積木城堡後需要檢查每個部件是否牢固、整體是否協調一樣,後優化的作用是從生成的點圖中恢復出全局一致的相機參數和深度圖。
這個過程面臨的挑戰就像試圖從一堆散亂的拼圖片中重建完整圖案。每幀生成的點圖雖然在視覺上連貫,但在全局幾何一致性方面可能存在細微偏差。如果不進行校正,這些小偏差會累積成大問題,就像建房子時如果地基稍有傾斜,建到高處就會變得搖搖欲墜。
後優化的核心思想是建立一個全局坐標系,讓所有幀的幾何資訊都在這個統一的參考框架下保持一致。系統需要為每一幀估計四組關鍵參數:相機內參矩陣(決定相機的焦距和光心位置)、相機旋轉矩陣(決定相機的朝向)、相機中心位置(決定相機在空間中的位置)、以及深度圖(記錄每個像素的距離資訊)。
優化過程採用了一個精心設計的損失函數。主要的約束來自點圖對齊損失,這個損失函數衡量生成的點圖與通過相機參數反投影得到的3D點之間的差異。就像用兩把尺子測量同一個物體,如果結果不一致,就說明其中至少有一把尺子存在誤差,需要進行校準。
為了防止相機軌跡出現不合理的抖動,系統還引入了時序平滑約束。這個約束就像給相機運動加上了"減震器",確保相鄰幀之間的相機參數變化是平滑合理的。具體來說,它會懲罰相鄰幀之間過大的旋轉變化和位置跳躍,鼓勵相機沿著自然流暢的軌跡運動。
整個優化過程採用加權組合的方式,平衡幾何一致性和運動平滑性兩個目標。權重參數的選擇經過了大量實驗驗證,確保在不同場景下都能得到穩定可靠的結果。優化算法採用梯度下降法,通過疊代更新的方式逐步改善參數估計的精度。
這種後優化策略的優勢在於它的通用性和魯棒性。無論輸入是單張圖片生成的4D內容,還是從稀疏幀重建的場景,或是完整影片的幾何重建,都能通過這個統一的優化框架得到全局一致的結果。這就像一位經驗豐富的工程師,無論面對什麼樣的建築項目,都能運用相同的測量和校準原理確保結構的穩固性。
後優化的結果不僅提供了精確的幾何資訊,還為下游應用奠定了基礎。恢復的相機軌跡可以用於視覺SLAM、增強現實等應用,準確的深度圖可以支持3D場景理解、物體檢測等任務。這種完整的4D表示為構建真正的幾何感知世界模型邁出了重要一步。
六、實驗驗證:在多個"考試"中展現實力
One4D的性能驗證就像一場全方位的能力測試,研究團隊設計了三套不同的"考試題目"來檢驗模型的各項能力:單圖到4D生成、完整影片4D重建、以及稀疏幀4D重建。每項測試都有其特定的評價標準和對比基準,確保評估結果的客觀性和說服力。
在單圖到4D生成任務中,One4D與當前最先進的4DNeX模型進行了正面對決。4DNeX採用空間拼接策略來處理RGB和幾何資訊,而One4D使用解耦LoRA控制技術。這場對比就像傳統的"蠻力"方法與精巧的"技巧"方法的較量。
評估結果顯示,One4D在各個維度都取得了顯著優勢。在用戶研究中,78.9%的用戶認為One4D在一致性方面更勝一籌,83.3%的用戶覺得One4D生成的內容更具動態性,82.3%的用戶被One4D的美學質量所打動。最令人印象深刻的是在幾何相關指標上,88.3%的用戶認為One4D的深度圖更加準確,90.0%的用戶對One4D的整體4D效果給出了更高評價。
客觀評估指標進一步證實了這些主觀感受。在VBench影片質量評估中,One4D在動態性指標上得分55.7%,幾乎是4DNeX(25.6%)的兩倍多。雖然在圖像到影片一致性方面略有下降(從98.7%到97.8%),但這種微小的權衡換來了顯著的動態質量提升,整體效果更加自然逼真。
在4D重建任務中,One4D面對的是一系列專門為重建任務設計的"專業選手"。這些對比方法包括單圖深度估計方法(如Marigold、Depth-Anything)、影片深度序列方法(如ChronoDepth、DepthCrafter),以及聯合深度和相機估計方法(如MonST3R、CUT3R、Geo4D)。
在Sintel合成數據集上,One4D在深度準確性方面表現出色,絕對相對誤差為0.273,δ
在Bonn真實數據集上,One4D的表現更加亮眼,絕對相對誤差0.092,δ
相機軌跡估計的結果同樣令人鼓舞。在Sintel數據集上,One4D的絕對軌跡誤差(ATE)為0.213,相對位置誤差(RPE-T)為0.057,相對旋轉誤差(RPE-R)為0.818。雖然在某些指標上不如專門的重建方法,但考慮到模型的通用性,這些結果是完全可以接受的。
稀疏幀重建實驗展現了One4D最獨特的能力。當只提供50%的幀時,模型的深度準確性幾乎沒有下降(從0.273降到0.314)。即使在極端情況下只提供5%的幀(通常只是首尾兩幀),模型依然能夠生成合理的幾何結構,絕對相對誤差為0.641,δ
消融實驗進一步驗證了各個組件的重要性。分類器無關引導尺度在4到6之間變化時,模型性能保持穩定,說明方法具有良好的魯棒性。訓練步數實驗顯示,即使只訓練1000步,模型就能獲得可用的性能,3000步時已經接近完整訓練的效果。這種訓練效率相比某些需要數百萬步的方法有著巨大優勢,大大降低了實際應用的門檻。
定性結果展示了One4D生成內容的多樣性和質量。從室內場景到戶外景觀,從靜態建築到動態人物,One4D都能生成連貫一致的4D內容。生成的深度圖邊界清晰,細節豐富,點雲重建結果顯示了良好的幾何一致性和空間結構。
七、技術創新的深層價值:從"看見"到"理解"
One4D的技術創新不僅僅是算法層面的改進,更代表了人工智慧從"看見"向"理解"的重要躍升。傳統的影片生成模型就像一位技藝精湛的畫師,能夠創作出栩栩如生的畫作,但對畫中物體的真實空間結構缺乏深入理解。而One4D則像一位既懂繪畫又懂雕塑的藝術大師,不僅能創造出視覺上令人驚嘆的內容,還能準確把握其中的幾何本質。
解耦LoRA控制技術的核心價值在於它解決了多模態學習中的一個根本性挑戰:如何讓不同類型的資訊既能獨立發展又能協調統一。這個問題在人工智慧的許多領域都存在,比如讓機器人同時處理視覺和觸覺資訊,或者讓語言模型同時理解文字和圖像。One4D提出的解耦策略為這類問題提供了一個通用的解決思路,其影響可能遠遠超出4D生成的範圍。
統一掩碼條件技術體現了"一專多能"的設計哲學。在當前的AI發展趨勢中,人們越來越認識到通用模型的重要性。與其訓練多個專門化的模型,不如訓練一個能夠適應多種任務的通用模型。One4D的統一框架不僅提高了開發效率,還能讓不同任務之間的知識相互促進,形成協同效應。這種設計理念對於構建真正通用的AI系統具有重要啟發意義。
從技術發展的歷史角度來看,One4D標誌著影片生成技術進入了一個新階段。早期的影片生成主要關注視覺效果的逼真性,後來開始注重時序一致性和動態合理性,而現在開始追求幾何理解的準確性。這種演進反映了AI系統從感知向認知的轉變,從表面模仿向深層理解的升級。
One4D的出現也為解決當前AI系統的一些根本性問題提供了新思路。比如,現有的大型視覺模型雖然在分類、檢測等任務上表現出色,但在空間推理、3D理解等方面仍有不足。One4D展示了如何通過巧妙的架構設計讓模型同時掌握2D視覺和3D幾何資訊,為構建更強大的視覺智能系統指明了方向。
在實際應用價值方面,One4D的意義也是多方面的。對於內容創作行業,它提供了一種全新的創作工具,讓創作者能夠從單張概念圖快速生成完整的動態場景,大大提高創作效率。對於虛擬現實和增強現實應用,準確的幾何資訊是實現沉浸式體驗的關鍵,One4D生成的4D內容可以直接用於構建虛擬環境。
對於機器人技術和自動駕駛,One4D展示的幾何理解能力同樣有著重要價值。機器人需要準確理解周圍環境的3D結構才能安全導航和操作,自動駕駛汽車也需要精確的深度資訊來避免碰撞。雖然One4D主要針對內容生成設計,但其中的技術原理可以遷移到這些感知任務中。
從科研角度來看,One4D為多模態學習、生成模型、3D視覺等多個研究領域提供了新的思路和工具。它證明了通過精心設計的架構,可以讓單個模型在多個相關任務上都達到專業水平,這對於人工通用智能的研究具有重要參考價值。
One4D還揭示了一個重要的發展趨勢:未來的AI系統將越來越注重多模態理解和跨領域知識整合。單純的文本理解或圖像識別已經不能滿足複雜應用的需求,AI系統需要像人類一樣,能夠綜合運用視覺、空間、語言等多種資訊來理解和創造內容。One4D在這個方向上邁出了堅實的一步,為構建更加智能和實用的AI系統奠定了基礎。
說到底,One4D的價值不僅在於它能生成高質量的4D內容,更在於它展示了一種新的AI設計哲學:通過精巧的架構設計和訓練策略,讓AI系統既能保持專業性,又能具備通用性;既能處理複雜的多模態資訊,又能保持計算的高效性。這種平衡各種需求的能力,正是未來AI系統所必需的核心質素。研究團隊通過One4D證明,我們不需要在功能強大和效率高效之間做艱難選擇,巧妙的設計可以讓我們同時獲得兩者的優勢。
有興趣深入了解這項研究的讀者可以通過論文編號arXiv:2511.18922v1查詢完整論文,獲取更多技術細節和實驗數據。
Q&A
Q1:One4D相比傳統影片生成模型有什麼特別優勢?
A:One4D的最大優勢是能同時生成RGB影片和精確的3D幾何資訊,就像給AI裝上了立體視覺。傳統模型只能生成平面影片,缺乏對空間結構的理解,而One4D通過解耦LoRA控制技術,讓模型既能創造逼真畫面,又能準確把握物體的深度、形狀等幾何特徵,為虛擬現實、增強現實等應用提供了完整的4D場景資訊。
Q2:解耦LoRA控制技術是如何解決RGB和幾何資訊相互干擾問題的?
A:解耦LoRA控制就像給AI配備了兩個專業團隊:一個專門處理顏色紋理,一個專門處理幾何形狀。兩個團隊獨立工作避免相互干擾,但通過零初始化的控制鏈接保持協調。這些控制鏈接在訓練開始時權重為零,不影響原有能力,隨著訓練逐漸學會傳遞關鍵資訊,確保生成的畫面和幾何結構完美匹配。
Q3:One4D如何實現單張圖片生成4D、稀疏幀重建等不同功能?
A:One4D通過統一掩碼條件技術實現"一專多能"。系統將不同輸入統一打包成條件影片,用掩碼標記哪些幀是真實的、哪些需要生成。單圖輸入時只有第一幀有內容,其餘填零,系統自動切換到生成模式;稀疏幀輸入時部分幀有內容,系統進入混合模式;完整影片輸入時切換到重建模式。就像一位多才多藝的廚師,根據現有食材自動調整烹飪方式。






