這項由澳大利亞國立大學與字節跳動聯合開展的研究,以預印本形式於2026年6月23日公開,論文編號為arXiv:2606.24874,有興趣深入了解的讀者可通過該編號查詢完整論文。
你有沒有遇到過這樣的場景:手裡只有一張心愛物品的照片,卻希望能從各個角度欣賞它的全貌,甚至把它搬進遊戲或虛擬現實世界裡?這件事說起來簡單,做起來卻像是讓一個從未見過蘋果背面的人,僅憑正面照去雕刻出一整顆完整的蘋果——這中間缺失的資訊,必須靠某種方式去"猜"出來。
3D內容生成就是電腦視覺和人工智慧領域試圖攻克的這道難題。研究人員把這個問題稱為"圖像到3D生成",也就是讓機器從一張2D照片裡,自動推斷出完整的三維結構和表面外觀。這項技術一旦成熟,對遊戲開發、影視特效、電商展示、文物數字化保護、虛擬現實等領域都有極為深遠的價值。
然而,現有的主流方法在一個關鍵地方屢屢翻車:生成出來的3D模型,外觀質量往往令人失望——紋理模糊、細節丟失,照片上那件襯衫的格紋圖案、那款相機機身上的品牌logo,統統變得面目模糊。這好比你請一位工匠按照照片復刻一座雕塑,他把大體形狀做出來了,但表面的紋路、顏色、細節全部被他忽略了,交出來的成品只剩一個白模。
澳大利亞國立大學的研究團隊與字節跳動的工程師們深入剖析了這個問題,發現問題的根源不只是模型能力不夠強,而是整個技術流程里存在兩處結構性的"卡脖子"瓶頸。正是為了徹底打通這兩處堵點,他們提出了一個新的框架,命名為FLUX3D。
一、從照片到3D模型:一道工匠們長期做不好的題
要理解FLUX3D解決了什麼問題,得先弄清楚當前主流技術是怎麼工作的,以及它為什麼會失敗。
現在最受關注的一類3D生成方法,採用了一種叫做"稀疏體素表示"的技術。體素(voxel)可以理解為3D版本的像素——普通圖片是由一個個小方格像素組成的,3D空間則可以被切割成一個個小立方體,也就是體素。"稀疏"的意思是,絕大多數體素是空的,只有物體表面附近那一層才有內容,這樣可以大大節省計算資源。
這類方法的工作流程大致可以分成兩個階段:第一階段確定哪些體素格子是"活躍的",也就是確定3D物體的形狀輪廓;第二階段則為每個活躍體素填入外觀資訊,也就是顏色、紋理等視覺內容。為了讓這個過程高效運行,整個系統會藉助一個擴散模型(一種當下最先進的AI生成技術)來完成創作。
問題就出在這兩個階段里。研究團隊把問題追溯到了兩個具體的機制失效點,就像一條流水線上有兩處零件裝錯了,導致最終產品質量大打折扣。
第一處失效發生在"建立內容庫"的階段。現有方法通常用一種叫做DINOv2的特徵提取器,從多角度渲染的圖片裡抽取視覺資訊,然後把這些資訊存進體素格子裡。DINOv2是一種優秀的視覺識別工具,它非常擅長理解"這張圖片裡是什麼東西",但它的設計目標是語義理解,也就是識別物體類別、場景內容這類高層次資訊。為了做好語義理解,DINOv2在設計上會主動過濾掉高頻細節——那些紋理細節、顏色變化、文字圖案對於"認出這是一台相機"沒有幫助,反而是干擾。於是,這些對外觀還原至關重要的資訊就在第一步就被丟掉了。更糟糕的是,系統還會對這些特徵做進一步的高度壓縮,把1024維的資訊壓縮到只有8維,這個過程就像把一幅高清畫作掃描後存成極低解析度的縮略圖,資訊損失是不可逆的。
第二處失效發生在"用AI生成內容"的階段。擴散模型需要同時處理兩種資訊:一方面是條件圖片(用戶提供的那張2D照片),另一方面是3D體素網格里的內容。這兩種資訊的結構完全不同:照片是整齊的像素網格,體素是散落在3D空間裡的稀疏點集。標準的擴散模型Transformer架構在設計時,並沒有考慮這種不對稱性,它無法有效地把2D圖片裡的某個局部區域精準對應到3D空間裡的某個具體區域。這就好比你在指揮兩支樂隊合奏,一支按西方五線譜演奏,另一支按中國工尺譜演奏,指揮棒揮下去,兩邊都在彈,但配合起來總是差那麼一口氣,無法真正咬合。
這兩處失效共同造成了一個結果:生成出來的3D模型,從正面看勉強過得去,轉到背面或側面,紋理就開始漂移、模糊,細節大量丟失。
二、換掉"語義大腦",用"畫家的眼睛"來理解圖片
FLUX3D針對第一處失效的解決思路,是從根本上換掉特徵提取器。
研究團隊提出了一個關鍵洞察:我們要做的是外觀還原,而不是語義理解。那麼,哪種AI工具天生就擅長理解外觀、還原細節呢?答案是圖像生成擴散模型。
以FLUX為代表的現代圖像生成模型,它的訓練目標就是"看懂一張圖、再把它生成出來"。為了做到這件事,它內部的特徵表示必須包含豐富的高頻外觀資訊——顏色的細微變化、紋理的精細結構、圖案的具體形態,這些資訊對於一個"要生成逼真圖像"的模型來說缺一不可。換句話說,FLUX的內部特徵就像一位畫家記住一幅畫的方式:不是只記住"這是一隻貓",而是記住了貓毛的顏色、花紋、光澤,每一根鬍鬚的位置。
研究團隊的方案,就是把這套用於圖像生成的FLUX特徵,直接用來構建體素內容庫。他們從多個角度渲染3D物體,把每張渲染圖都輸入FLUX編碼器提取特徵,然後把這些特徵聚合到對應的3D體素里,形成一套"以擴散特徵為基礎的結構化潛在表示",他們給它起了個名字叫DA-SLAT,也就是"擴散對齊的結構化潛在表示"。
在這個基礎上,他們還做了另一個重要改動:去掉了傳統架構里的編碼器部分。傳統方案是先用編碼器把體素特徵再次壓縮成一個緊湊的潛在編碼,再交給解碼器生成3D輸出,這個壓縮過程會再次損失資訊。FLUX3D的方案是直接讓FLUX特徵充當"潛在表示",跳過編碼器,把這套富含外觀資訊的特徵直接送進解碼器,由解碼器直接輸出3D高斯模型參數。
這個"解碼器專用架構"聽起來像是省了一步,實際上是保住了資訊。就像如果你手裡有一張完整的高清原圖,直接把它交給印表機,總比先把它壓成低畫質縮略圖再列印出來效果好。
研究團隊在Toys4k數據集上做了定量評測,結果頗為顯著。以PSNR(峰值信噪比,數值越高表示重建圖像與原圖越接近)這個指標為例,原始TRELLIS方法得到31.54分,而FLUX3D的編碼器-解碼器版本達到了33.80分,完全解碼器專用版本則進一步提升到34.12分。另一個衡量視覺感知質量的指標LPIPS(數值越低越好),TRELLIS得到0.02964,FLUX3D解碼器專用版降至0.02668,提升同樣明顯。
研究團隊還系統比較了多種不同的特徵提取器:DINOv2、DINOv3、原始像素值、SDXL(另一款擴散模型),以及FLUX。結果顯示,擴散類特徵(SDXL和FLUX)明顯優於語義類特徵(DINOv2、DINOv3),而FLUX在所有方案里表現最佳。這個結果從另一個角度印證了研究團隊的判斷:做3D外觀重建,要用"畫家的眼睛",而不是"圖書館員的分類系統"。
三、讓2D圖片和3D空間真正"說上話":專為稀疏結構設計的擴散框架
解決了內容庫的問題,研究團隊把目光轉向第二處失效:如何讓2D圖片資訊和3D體素資訊真正對齊、有效交流?
他們提出了兩個互相配合的新組件,共同構成"稀疏結構感知的多模態擴散框架"。
第一個組件叫做SMDiT,全稱"稀疏結構多模態擴散Transformer"。它的設計靈感來自圖像生成領域最新的多模態擴散Transformer架構(如FLUX和Stable Diffusion 3所使用的MMDiT),但針對3D稀疏體素的特點做了專門改造。
SMDiT的工作方式可以用"兩個樂隊排練"來描述。在處理資訊時,SMDiT會經歷兩種模式的交替:在"雙流模組"階段,2D圖片資訊和3D體素資訊各走各的通道,各自用一套獨立的參數處理自己的內容,保留各自的特有結構;在"單流模組"階段,兩路資訊被合併在一起,通過聯合注意力機制互相交流,讓圖片裡的資訊能夠真正影響對應的3D體素,反之亦然。
這種"先各自熱身,再合奏"的方式,比粗暴地把兩種資訊混在一起處理要精細得多。同時,為了進一步提高訓練效率,系統還對數據做了"結構化打包"處理:3D端的體素標記通過稀疏降採樣,把相鄰8個體素(2×2×2的局部區域)打包成一個標記;2D端的圖片則按4個像素(2×2)打包成一個patch標記。這樣既保留了空間結構資訊,又大大減少了需要處理的標記數量。
第二個組件叫做MARoPE,全稱"模態感知旋轉位置編碼"。這個名字聽起來很拗口,但它解決的問題其實很直觀。
位置編碼是告訴AI模型"這個資訊在空間裡處於什麼位置"的機制。在自然語言處理里,位置編碼告訴模型每個詞在句子裡的第幾個位置;在圖像處理里,位置編碼告訴模型每個圖片區域在畫面里的坐標。現有的跨模態位置編碼方案,主要是為文字-圖片或圖片-圖片這類場景設計的,在圖片(2D)和3D體素之間建立對應關係時,往往束手無策。
一些研究嘗試過用3D感知的旋轉位置編碼來解決這個問題,思路是用相機參數(也就是拍攝角度、焦距等資訊)把2D圖片裡的每個點映射到對應的3D坐標上。但這個方法有個致命弱點:它依賴精確的相機標定資訊。在實際應用中,用戶隨手上傳一張照片,通常根本不知道也不會提供相機參數,這個方法就失效了。
MARoPE的設計思路截然不同:它不試圖精確計算2D圖片裡每個像素對應3D空間裡的哪個點,而是構建一個"虛擬平面"的概念。具體來說,3D體素網格里的每個體素,它的坐標保持不變——(x, y, z)就是(x, y, z);而2D圖片裡的每個圖片區域,則被虛構地放置在3D空間的一個"虛擬平面"上,這個平面位於體素網格的外側,就像把照片貼在3D箱子的正前方,坐標格式變成(圖片行索引,圖片列索引,體素最大z坐標+1)。
這樣一來,圖片區域和體素就都處於同一個統一的3D坐標體系里了。旋轉位置編碼(RoPE)有一個內在特性:距離越近的兩個標記,注意力權重越大;距離越遠的,注意力會自然衰減。利用這個特性,MARoPE會自動讓圖片裡靠近中心的區域與3D體素里靠近正面的部分更容易交流,而圖片邊緣區域則更多影響體素外側的部分。這種對應關係不需要精確的相機資訊,而是讓模型自己從大量數據里學習出2D與3D的對應規律。
可以把這個設計理解為:與其費力畫一張精確的座位對應圖,不如把兩組人安排在同一個坐標系裡的合理位置,讓他們自然地找到旁邊坐的人聊天。
四、真實測試的成績單:在每一個評測指標上全面領先
研究團隊在標準的圖像到3D生成基準測試——Toys4k數據集上,與多種當前最先進的方法展開了全面較量。對比的方法涵蓋了兩大類:基於重建的方法(包括LGM和GeoLRM)以及基於生成的方法(包括GaussianAnything、DiffusionGS和TRELLIS)。
評測指標從多個維度衡量生成質量。SSIM(結構相似度,越高越好)、PSNR(峰值信噪比,越高越好)、LPIPS(感知圖像質量,越低越好)用于衡量生成的3D模型從輸入視角渲染出來的圖像與真實圖像有多接近;CLIP分數用於評估生成內容與圖像語義的一致性;FD(Fréchet Distance,弗雷歇距離)和KD(核距離)則用於評估生成內容整體分布的質量,數值越低越好。
在這場全面比較中,FLUX3D的解碼器專用版本在所有指標上都名列前茅。SSIM達到0.9653,PSNR達到26.26,LPIPS低至0.03509,CLIP分數高達98.37,FDincep降至8.73,KDincep降至0.039,FDdinov2降至54.92,KDdinov2降至0.42。與最接近的競爭對手TRELLIS相比,PSNR提升了約0.78個點,LPIPS降低了約20%,FDdinov2降低了約14%。
研究團隊還額外與非3DGS格式的3D生成方法進行了交叉比較,包括使用NeRF格式的Shape-E和TRELLIS-NeRF,以及使用紋理網格格式的InstantMesh和3DTopia-XL。FLUX3D在這場跨類別比較中同樣勝出,展示出不受輸出格式限制的競爭力。
視覺比較方面,研究團隊展示了多個日常物品和角色的生成結果對比。LGM生成的模型形狀和外觀都有明顯變形;DiffusionGS和TRELLIS從輸入角度看尚可,但換一個角度觀看時,紋理細節就開始出現錯位和模糊;而FLUX3D生成的結果,無論是從哪個角度看,顏色準確性和紋理細節都保持得相當穩定,在人物角色、建築物、文物藝術品等多種類別上都表現出色。特別是在包含文字和logo的物體上,差距尤為明顯——這類高頻資訊正是傳統方法最容易失敗的地方。
研究團隊還專門測試了系統對稀疏體素布局質量的魯棒性。在實驗中,他們用TRELLIS的公開階段一模型預測布局(這會引入一定的布局誤差),然後分別用FLUX3D和TRELLIS的階段二模型生成外觀。結果顯示,兩種方法的絕對指標都有所下降,但FLUX3D下降幅度更小,與TRELLIS的優勢差距反而進一步擴大(FDi優勢從23%擴大到33%,FDd從14%擴大到21%)。這說明FLUX3D的提升源於自身的架構和先驗設計,而不依賴於完美的輸入布局。
多視角一致性測試中,研究團隊在Toys4K數據集上渲染了360度方位的24個視角,逐視角對比PSNR。FLUX3D的平均PSNR(25.96)高於TRELLIS(25.08),而且視角間的標準差更小(1.44對比1.76),說明FLUX3D不僅整體質量更高,在各個視角之間也更加均勻一致,不會出現某個方向特別好看而另一個方向大幅劣化的情況。
五、消融實驗:逐個拆解,確認每個零件的貢獻
為了嚴格驗證每個設計選擇的價值,研究團隊進行了系統的消融實驗——也就是依次去掉某個組件,看看少了它之後成績會下降多少。
首先是"累積添加"實驗:從TRELLIS基礎版本出發,依次加入FLUX特徵、解碼器專用架構、SMDiT和MARoPE,每加一個組件都測量指標變化。結果顯示,每一個組件加入後,所有評測指標都有改善,沒有一個是"湊數"的。其中,DA-SLAT(FLUX特徵加上解碼器專用架構)對重建和生成質量的提升最為直接,SMDiT進一步改善了跨模態對齊,MARoPE再次提升了整體對齊精度並減少了模糊偽影。
隨後的"逐一去除"實驗從相反方向印證了這一結論。把DA-SLAT去掉之後,FDincep從8.73跳升到10.96;去掉SMDiT,FDincep升至10.03;去掉MARoPE,FDincep升至9.62。每一項去除都造成了明顯的性能退步。
研究團隊還專門拆解了FLUX先驗(也就是用FLUX特徵代替DINOv2)和模型架構設計各自的貢獻。結果顯示,FLUX特徵讓FDi從11.29降至10.47,貢獻了7.3%的改善;而模型架構設計(解碼器專用+SMDiT+MARoPE)在此基礎上繼續把FDi從10.47降至8.73,貢獻了16.6%的額外改善。換句話說,模型架構設計的貢獻比換特徵提取器的貢獻更大,這說明兩者都不可或缺,而且相互加成。
六、系統規模與實際運行成本
FLUX3D的主要組件中,解碼器有12層、12個注意力頭、768維通道,約8500萬參數;SMDiT則有24層、16個注意力頭、1156維通道,約8.2億參數。整個系統在單塊NVIDIA A100 GPU上運行,推理時間約5.1秒,顯存占用約5.18GB。值得注意的是,編碼器-解碼器版本和純解碼器版本在推理時間和顯存消耗上幾乎完全相同,因為兩者唯一的差別只在於輸入投影層的維度(8維對比16維),這部分開銷可以忽略不計。
訓練時,系統在8塊NVIDIA A100 GPU上運行,SMDiT訓練20萬步,解碼器訓練10萬步,使用AdamW優化器,學習率設為0.0001,每GPU批量大小為8。
訓練數據方面,研究團隊使用了3D-FUTURE、ABO、HSSD和Objaverse-XL四個數據集,並對數據進行了嚴格的質量篩選。他們首先用預訓練的美學評分模型對每個3D資產從10個渲染視角評分,過濾掉低質量資產。然後專門處理了Objaverse-XL中普遍存在的"紋理缺失"問題——渲染引擎會把缺少紋理的區域自動渲染成粉紅色或白色,這類數據如果混入訓練集會造成偏差。他們用一個視覺語言模型(VLM)來識別並過濾這類資產,把全部滿足條件的3D對象分成"純粉紅色"、"混合粉紅色"、"裸網格"和"正常"四類,只保留正常資產。篩選後,最終保留了大約36萬個3D實例用於訓練。
在訓練細節上,重建實驗中每個資產從球面均勻採樣150個視角渲染圖像,解析度512;生成實驗中則採用24個視角、解析度1024的渲染圖作為條件輸入,以在細節豐富度和計算效率之間取得平衡。訓練目標函數包含感知L1重建損失、SSIM損失、LPIPS損失,以及針對高斯體積和不透明度的幾何正則化項。為了增強系統對擴散模型連續輸出的魯棒性,訓練時還引入了隨機性:不是直接用FLUX VAE編碼器的均值μ作為結構化潛在表示,而是加入一個帶噪聲的擾動項,形式為μ+σ·N(0, I),讓模型學會應對推理時可能遇到的各種分布偏差。
七、當前的局限與未來的方向
儘管FLUX3D在多項指標上全面超越了競爭對手,研究團隊在論文中坦率地指出了兩個當前仍未解決的局限。
第一個局限是對包含語義文字的對象,比如帶有品牌logo或印刷文字的產品,外觀建模的質量與專業的2D圖像生成方法相比還有一定差距。文字和logo是極為高頻的視覺資訊,哪怕輕微的模糊或變形都會讓人一眼看出。研究團隊認為,更全面、更高質量的訓練數據可能是改善這一弱點的主要途徑。
第二個局限是輸入特徵體素的構建目前完全依賴多視角渲染圖,也就是說需要從已有的3D模型出發生成訓練數據,這個流程存在一定的限制。研究團隊提出,未來可以探索更好的特徵體素構建策略,或者利用圖像、影片等其他模態的資訊來輔助表示學習,進一步提升重建質量和通用性。
說到底,FLUX3D做的事情,是把一個"善於理解語義"的舊零件,換成了一個"善於還原外觀"的新零件,再配上兩個專門為3D稀疏結構量身定製的協作機制。三個改動缺一不可,但加在一起,讓整條3D生成流水線的外觀保真度邁上了一個新台階。
對於普通人來說,這項研究意味著:未來當你把一張心愛物品的照片上傳到某個應用,它幫你生成的3D模型,很可能真的能把照片上那件毛衣的織紋、那款手錶錶盤上的刻度線、那棟建築外牆的磚塊紋路都還原出來,而不是給你一個外觀模糊的"意象版"。
這距離讓每個人都能輕鬆創建高質量3D內容的願景,又近了一步。感興趣的讀者可以通過arXiv編號2606.24874查閱完整論文,深入了解技術細節。
Q&A
Q1:FLUX3D和普通的3D生成方法相比,主要改進在哪裡?
A:FLUX3D的核心改進有兩處。一是把特徵提取器從DINOv2換成了FLUX擴散特徵,後者專為圖像生成設計,能保留更多外觀細節;二是設計了專為3D稀疏體素結構打造的擴散Transformer(SMDiT)和新型位置編碼(MARoPE),讓2D圖片資訊和3D空間資訊能更精準地對應起來,避免紋理錯位模糊。兩個改進共同作用,讓生成的3D模型外觀更接近原始圖片。
Q2:MARoPE為什麼不需要相機參數也能建立2D和3D的對應關係?
A:MARoPE不試圖精確計算哪個像素對應哪個體素,而是把2D圖片虛構地放置在3D體素網格外側的一個"虛擬平面"上,讓兩者處於同一個坐標系裡。旋轉位置編碼(RoPE)的距離衰減特性會自然地讓圖片中間區域更多影響附近的體素,邊緣區域影響外側體素,這種對應關係由模型從數據里自己學習,不依賴精確相機參數。
Q3:FLUX3D在Toys4k測試集上具體比TRELLIS提升了多少?
A:在Toys4k數據集上,FLUX3D(解碼器專用版)的PSNR從TRELLIS的25.48提升到26.26,LPIPS從0.04389降至0.03509(降低約20%),CLIP分數從97.92升至98.37,FDdinov2從63.66降至54.92(降低約14%)。多視角一致性測試中,FLUX3D的跨視角PSNR標準差也比TRELLIS低18%,說明各個角度的生成質量更加均勻。






