宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

秒級生成精美3D場景:來自騰訊和廈門大學的突破性技術

2025年12月22日 首頁 » 熱門科技

這是一項由廈門大學多媒體信任感知與高效計算教育部重點實驗室、騰訊和復旦大學Yes Lab聯合完成的研究成果。研究團隊由李新陽、王騰飛、顧子曉、張勝川、郭春超和曹柳娟組成,論文發表於2025年10月,論文編號為arXiv:2510.13678v1。有興趣深入了解的讀者可以通過這個編號在學術論文庫中查詢完整論文。

一、為什麼我們需要更快的3D場景生成

想像你正在製作一部電影或設計一個遊戲,需要快速創建逼真的三維場景。傳統的方法就像手工雕刻一樣耗時費力,需要專業的3D藝術家花費數小時甚至數天來完成一個場景。而現在,人工智慧技術讓我們可以用文字描述或上傳一張圖片,就能在幾秒鐘內生成精美的3D場景。這聽起來像魔法,但背後的技術原理其實相當有趣。

當前生成3D場景的方法主要分為兩大陣營。一種方法叫做"多視圖導向",就像用多台相機從不同角度拍攝同一個物體,然後把這些照片拼接成一個3D模型。這種方法的優點是生成的圖像質量很高,就像用專業相機拍出來的照片一樣清晰漂亮。但問題在於,從不同角度拍攝的照片之間往往不夠協調,就像一個人的左臉和右臉看起來不太像一個人一樣。這導致最後拼接出來的3D場景會出現紋理噪點和幾何不一致的問題。

另一種方法叫做"3D導向",直接在生成過程中就考慮3D的一致性。這就像先搭建一個骨架,再在上面添加細節,能保證整體的協調性。這種方法生成的3D場景在不同角度看起來都很協調,但圖像質量往往不如第一種方法,看起來會比較模糊。而且,這種方法需要很多額外的優化步驟來提高質量,這又大大增加了生成時間。

FlashWorld這項研究的創新之處就在於,它找到了一個巧妙的辦法來結合這兩種方法的優點。研究團隊開發出了一個能夠同時支持兩種生成模式的模型,然後通過一種叫做"知識蒸餾"的技術,讓高質量的多視圖模式教會3D導向模式如何生成既清晰又協調的場景。這就像一個經驗豐富的師傅教一個年輕學徒,既保留了學徒的優勢,又讓他學會了師傅的技巧。

二、雙模式預訓練:打造多面手模型

要理解FlashWorld如何工作,我們需要先了解它的訓練過程。研究團隊採用了一個分階段的訓練策略,第一階段叫做"雙模式預訓練"。

在這個階段,研究團隊從一個已經訓練好的影片生成模型開始。為什麼要用影片模型而不是圖像模型呢?因為影片模型已經學會了如何處理多個連續的幀,這對生成多個視角的圖像特別有幫助。這就像用一個已經會跑步的人來學習跳舞,比從零開始教一個人跑步再教他跳舞要快得多。

在預訓練階段,研究團隊輸入多個視角的圖像、對應的攝像機參數(比如攝像機的位置和方向)以及條件資訊(比如文字描述或參考圖片)。這些圖像被轉換成一種叫做"潛在空間"的壓縮表示,就像把一部電影壓縮成一個較小的文件格式,但仍然保留了所有重要資訊。

然後,模型學會了兩種不同的生成方式。第一種是"多視圖導向"模式,它直接預測清晰的多視角圖像。這個過程就像一個學生在老師的指導下學習繪畫,逐步改進自己的作品。第二種是"3D導向"模式,它不是直接生成圖像,而是生成3D高斯球體的參數。這些高斯球體是一種特殊的3D表示方法,可以通過渲染來生成任意視角的圖像。

這裡有個巧妙的設計:模型使用同一個主幹網路(叫做Diffusion Transformer,簡稱DiT)來處理兩種模式,但在最後的輸出層有所不同。對於多視圖模式,它輸出清晰的圖像;對於3D模式,它輸出一個輔助特徵,這個特徵可以被一個特殊的解碼器轉換成3D高斯球體的參數。這就像一個多功能工具,可以根據需要切換不同的工作模式。

三、跨模式蒸餾:讓高質量教導一致性

預訓練完成後,研究團隊進入了第二階段,這是整個方法的核心創新,叫做"跨模式蒸餾"。這個過程有點像一個高手和學徒的互動。

在這個階段,多視圖導向模式(因為它生成的圖像質量高)被凍結下來,充當一個"老師"的角色。它的工作就是評判學生的作品。而3D導向模式則是"學生",它需要學會在保持3D一致性的同時,生成更高質量的圖像。

蒸餾過程使用了一種叫做"分布匹配蒸餾"的技術。簡單來說,這個技術的目標是讓學生模型生成的圖像分布與老師模型生成的圖像分布儘可能接近。想像一下,老師畫了一千幅畫,這些畫有各種各樣的風格和特徵。學生需要學會畫出具有相似風格和特徵分布的畫。

但這裡有個有趣的地方:學生模型在生成過程中會經歷多個步驟,在每個步驟中,它都會生成3D高斯球體,然後渲染成圖像。這意味著生成的圖像始終保持3D一致性,因為它們都來自同一個3D表示。這就像一個雕塑家在雕刻時,每個角度看起來都協調一致,因為他們在雕刻的是同一個物體。

研究團隊還發現,僅僅使用蒸餾有時會導致一些不穩定的現象,比如生成的3D場景中會出現浮動的偽影。為了解決這個問題,他們引入了一個"跨模式一致性損失"。這就像在老師和學生之間建立了一個額外的溝通機制:學生生成的3D表示經過渲染後,應該與多視圖模式的預測保持一致。這個額外的約束幫助穩定了訓練過程,就像在建築中添加支撐梁來增強結構的穩定性。

四、超越分布的泛化:用單圖和文本擴展能力

一個實際的問題是,用於訓練的多視角數據集往往數量有限,而且風格和場景類型也不夠多樣。這就像一個學生只在教室里學習,當他走出教室面對真實世界時,可能會感到困惑。

為了解決這個問題,研究團隊在蒸餾階段引入了一個創新的策略:他們使用了大量的單視角圖像和文本描述,配合隨機生成的攝像機軌跡進行額外的訓練。這些數據來自各種來源,包括真實的多視角序列和預定義的攝像機軌跡。

這個策略的妙處在於,它讓模型學會了如何處理在原始訓練數據中沒有出現過的輸入。就像一個人通過閱讀各種書籍來擴展自己的知識,模型通過接觸多樣化的輸入來提高自己的泛化能力。而且,在這個階段,研究團隊特意關閉了對抗性損失(GAN損失),以避免分布不匹配的問題。這就像在教學中,有時候需要調整教學方法以適應不同的學生。

五、實驗驗證:從圖像到文本的全面測試

研究團隊對FlashWorld進行了全面的評估,涵蓋了多個不同的任務和數據集。

在圖像到3D場景的生成任務中,研究團隊與幾個最先進的方法進行了比較,包括CAT3D、Bolt3D和Wonderland。這些都是多視圖導向的方法。在視覺質量上,FlashWorld生成的場景明顯更清晰,細節更豐富。例如,在生成樹葉、鐵柵欄和觸手等複雜結構時,FlashWorld能夠準確地再現這些細節,而其他方法往往會生成模糊或扭曲的結果。這就像用高解析度相機和低解析度相機拍照的區別。

在文本到3D場景的生成任務中,研究團隊使用了來自多個數據集的600個文本提示進行定量評估。評估指標包括圖像質量評分、文本對齊度和美學評分等。FlashWorld在大多數指標上都表現出色。特別是在CLIP Score上,它在兩個數據集上都取得了最高分,這說明生成的場景與文本描述的匹配度最高。

在WorldScore基準測試上,FlashWorld與三個其他最先進的方法進行了比較:WonderJourney、LucidDreamer和WonderWorld。這個基準測試包含2000個測試用例,涵蓋了各種不同風格和場景的世界。評估指標包括3D一致性、光度一致性、物體控制、內容對齊、風格一致性和主觀質量等多個方面。FlashWorld在風格一致性上表現最好,在其他幾個指標上也排名靠前。雖然在3D一致性上的得分相對較低,但研究團隊解釋說,這是因為他們的方法沒有使用顯式的深度指導,而其他方法使用了與評估協議對齊的單目深度估計模型。

六、速度的革命:秒級生成的實現

也許FlashWorld最令人印象深刻的特點就是它的生成速度。在圖像到3D場景的生成中,FlashWorld只需要大約9秒就能生成一個高質量的場景,而其他方法需要數分鐘甚至數小時。具體來說,CAT3D需要77分鐘,Bolt3D需要15秒,Wonderland需要5分鐘。FlashWorld不僅比Wonderland快30倍,而且生成的質量更高。

這個速度的提升來自於多個方面。首先,3D導向的生成過程本身就比多視圖導向的方法更高效,因為它不需要單獨的3D重建步驟。其次,通過蒸餾,研究團隊成功地減少了生成所需的步驟數。在蒸餾之前,模型需要多個去噪步驟才能生成高質量的結果;蒸餾之後,只需要4個步驟就能達到相同的質量。這就像學會了一個快速的捷徑,而不是走完整的長路。

而且,FlashWorld使用的是一個統一的模型,可以同時處理圖像到3D和文本到3D的任務,不需要分別訓練兩個模型。這進一步降低了整個系統的複雜性和計算成本。

七、消融研究:每個部分都很重要

為了驗證方法中每個部分的貢獻,研究團隊進行了詳細的消融研究。他們測試了不同的模型變體,看看去掉某個部分會如何影響性能。

當只使用多視圖導向的擴散模型時,生成的場景會出現噪點和紋理不一致的問題。當只使用3D導向的擴散模型時,雖然保證了3D一致性,但圖像會變得模糊。當只使用多視圖導向的蒸餾時,問題反而更嚴重了,因為蒸餾放大了多視圖方法的缺點。

當移除跨模式一致性損失時,模型在定量指標上的表現看起來還不錯,但定性分析顯示生成的場景容易出現浮動和重複的偽影。這說明這個看似簡單的損失項實際上起到了關鍵的穩定作用。

當移除超分布數據的協同訓練時,模型在處理與原始訓練數據分布不同的輸入時表現下降。特別是在T3Bench和WorldScore數據集上,文本對齊度的指標明顯下降。這說明這個策略對於提高模型的泛化能力至關重要。

只有當所有這些部分組合在一起時,FlashWorld才能達到最優的性能。這就像一個精心調配的食譜,每個材料都有其作用,缺少任何一個都會影響最終的味道。

八、技術細節與實現

從技術實現的角度來看,FlashWorld使用了一個基於Diffusion Transformer的架構,並用3D注意力塊進行了增強。這個架構能夠同時處理多個視角的資訊,並理解它們之間的空間關係。

3D高斯球體的表示包括五個關鍵參數:深度、旋轉四元數、縮放、不透明度和球諧係數。這些參數完全定義了一個高斯球體在3D空間中的外觀和位置。通過渲染這些高斯球體,模型可以從任意攝像機視角生成圖像。

在訓練中,研究團隊使用了一個叫做Reference-Point Plücker Coordinates的方法來表示攝像機參數。這是一種在電腦圖形學中常用的攝像機表示方法,能夠高效地編碼攝像機的位置和方向資訊。

模型的訓練使用了分布匹配蒸餾的第二版本(DMD2),它結合了分布匹配目標和對抗性目標。對抗性目標使用了一個判別器來區分真實和生成的圖像,這有助於提高生成圖像的真實感。為了穩定訓練,研究團隊還使用了一種叫做R1正則化的技術。

九、現實應用與未來展望

FlashWorld的快速生成能力為許多實際應用打開了大門。在遊戲開發中,設計師可以快速生成原型場景,加速疊代過程。在電影和動畫製作中,可以快速生成背景和環境,節省大量的美術工作。在虛擬現實和增強現實應用中,可以實時生成沉浸式的3D環境。在建築可視化中,可以快速將建築設計轉換成逼真的3D場景。

研究團隊指出,雖然FlashWorld已經取得了顯著的進展,但仍然存在一些限制。首先,生成場景的多樣性和規模仍然受到現有訓練數據集的限制。其次,模型在生成細緻的幾何細節、鏡面反射和有活動關節的物體時仍然存在困難。這些問題可能可以通過引入深度先驗資訊和更多的3D感知結構資訊來解決。

研究團隊在論文中提到,未來的工作可能包括引入自回歸生成方法,這可能進一步提高生成的多樣性和質量。此外,將這個框架擴展到動態4D場景生成也是一個有趣的方向,這將允許生成具有運動和變化的3D場景。

十、為什麼這項研究很重要

FlashWorld的出現標誌著3D場景生成技術的一個重要里程碑。它不僅在生成速度上實現了突破性的進展,而且在生成質量上也保持了競爭力。這種速度和質量的結合在之前是很難實現的。

更重要的是,這項研究展示了一個重要的思想:不同的方法往往各有優缺點,但通過巧妙的設計,我們可以結合它們的優勢。FlashWorld的雙模式架構和跨模式蒸餾策略為其他領域的研究提供了啟發。這種思想可能被應用到其他需要平衡多個目標的問題中。

從更廣闊的視角來看,FlashWorld代表了人工智慧在創意內容生成領域的進步。隨著這類技術的發展,創意工作的流程可能會發生根本性的改變。不是從零開始創建,而是通過與AI的交互來快速疊代和優化。這可能會讓更多的人能夠參與到3D內容創作中,降低創意表達的技術門檻。

Q&A

Q1:FlashWorld是什麼,它能做什麼?

A:FlashWorld是由廈門大學、騰訊和復旦大學聯合開發的一個AI模型,可以在幾秒鐘內從一張圖片或文字描述生成精美的3D場景。它比現有的方法快10到100倍,同時保持更高的圖像質量。

Q2:FlashWorld為什麼比其他方法快這麼多?

A:FlashWorld採用了一個創新的雙模式設計,結合了高質量的多視圖生成和保證一致性的3D直接生成。通過知識蒸餾技術,它能夠用更少的步驟生成高質量結果,同時避免了傳統方法中需要的單獨3D重建階段。

Q3:FlashWorld生成的3D場景在實際應用中可靠嗎?

A:根據在多個基準測試上的評估,FlashWorld生成的場景在視覺質量、3D一致性和文本對齊度等多個方面都表現出色。雖然在某些細節(如鏡面反射和複雜幾何)上仍有改進空間,但已經足以滿足遊戲、電影、建築可視化等許多實際應用的需求。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新