Snap與普渡大學、KAUST聯手：讓AI從影片裡「雕刻」出會動的3D世界

這項研究由Snap研究院、美國普渡大學和沙特阿卜杜拉國王科技大學（KAUST）聯合完成，論文以預印本形式於2026年5月25日發布，論文編號為arXiv:2605.26109，感興趣的讀者可通過該編號查閱完整原文。

贊助商廣告

你有沒有想過，只需要一段普通的影片，就能讓電腦自動生成一個完整的、會動的3D模型？不只是簡單的外殼，而是帶有真實材質、能夠碎裂、融化、甚至透明的那種？這聽起來像科幻電影裡的場景，但一個名叫Helix4D的系統正在把它變成現實。

以一艘古帆船為例：船上的帆在風中鼓動，細細的繩索在搖擺，旗幟隨風撕裂——這些細節如果放在傳統3D建模里，每一根繩子、每一片旗幟都需要專業美術人員花費數小時甚至數天手工製作。而Helix4D的目標，就是讓機器看一眼影片，自己把這一切都做出來。研究團隊把這類問題稱為"4D生成"——其中三個維度是我們熟悉的空間（長、寬、高），第四個維度就是時間，也就是讓3D模型動起來。

這項研究的意義遠不止於好看的特效。動畫製作、虛擬現實體驗、遊戲開發乃至機器人訓練，都需要大量高質量的動態3D資產。目前這些資產主要靠人工製作，成本高昂、耗時漫長。如果Helix4D能夠真正實用化，它將從根本上降低這類內容的製作門檻。

一、為什麼以前的方法總是"差那麼一口氣"

要理解Helix4D的價值，先得知道它在解決什麼困難。

在Helix4D之前，已經有不少研究團隊嘗試從影片生成動態3D模型，但這些方法普遍存在幾個棘手的問題。有一類方法叫做"基於變形"的方式，思路是先從影片的第一幀生成一個靜態3D模型，然後預測這個模型如何隨時間扭曲變形。這就好比你先捏一個橡皮泥人，然後掰動它的手腳來模擬動作——這對於簡單的彎曲和伸展很管用，但如果橡皮泥人的腦袋突然裂開，或者平地里多長出一隻手，這套方法就徹底失效了，因為你一開始捏的那個模型根本就沒有那個結構。

贊助商廣告

另一類方法則嘗試同時生成所有幀的3D內容，不依賴固定的初始形狀。這類方法理論上可以處理形狀劇變的情況，但它們的幾何質量和材質質量普遍較差——生成的模型往往粗糙、不真實，更別說處理玻璃瓶那樣的透明物體，或者模型內部有其他東西的複雜場景了。

問題的根源在於：現有的4D方法都是"從零開始"學習3D形狀的，它們沒有機會積累足夠豐富的關於複雜材質、透明物體、非封閉曲面這類"稀有場景"的知識。畢竟，帶有透明材質或內部結構的動態3D影片數據本來就極其稀少，讓一個模型從這麼少的數據里學到這些能力，幾乎是不可能的任務。

與此同時，一個名為Trellis2的靜態3D生成模型悄然成為了業內的佼佼者。它能從單張圖片生成高質量的帶材質3D模型，不僅支持透明物體、內部結構，還能處理非封閉曲面和薄壁結構。Helix4D的核心洞察正是：與其從零開始訓練一個新的4D系統，不如把Trellis2這把"寶劍"改造成能處理時間維度的利器。

二、Trellis2：那把必須先介紹的"寶劍"

Helix4D建立在Trellis2的基礎上，所以花一點時間理解Trellis2的工作原理很有必要。

Trellis2把3D物體表示為一組稀疏的"活躍體素"——你可以把體素理解為三維空間中的小方格，就像樂高積木。但Trellis2不是把整個空間都填滿方格，而是只保留物體表面附近的那些方格，空曠的空間裡什麼都不放。每個活躍的方格里儲存了兩類資訊：一類是局部幾何資訊（這個位置的表面長什麼樣），另一類是材質資訊（這裡的顏色、光澤、透明度如何）。

這種表示方式有個關鍵優勢：它不要求物體是"水密"的（也就是說，表面不需要是一個封閉的氣球形狀）。傳統的3D生成方法大多依賴"有符號距離場"——這種方法本質上是描述空間中每個點到最近表面的距離，它天然要求表面是封閉的，否則"內"和"外"就沒有意義。這就是為什麼傳統方法無法表示玻璃瓶里的魚、盔甲的內表面、或者正在破碎的薄殼結構——這些東西都不符合"封閉氣球"的約束。

贊助商廣告

Trellis2把這個限制徹底打破了。它的稀疏體素表示法可以表達任意的開放曲面、薄結構和內部表面。在這個表示法的基礎上，Trellis2通過三個階段的"流匹配"（一種生成式AI技術）依次生成：稀疏結構（哪些方格是活躍的），幾何細節（每個方格對應的表面形狀），以及材質（顏色、光澤等外觀屬性）。

Helix4D的任務，就是把這個只能處理單張圖片的系統，改造成能處理影片序列的4D生成系統。

三、Helix4D的兩大核心發明

改造Trellis2面臨兩個根本性挑戰。研究團隊把它們提煉成兩個問題：第一，Trellis2的注意力機制只在單幀內部工作，如何讓它在不同幀之間傳遞資訊，同時又不破壞它好不容易學到的處理透明物體等稀有場景的能力？第二，Trellis2隻有空間位置編碼（告訴模型某個體素在3D空間中的位置），如何在不增加額外參數的前提下，讓它也能理解"這個體素屬於第幾幀"？

針對第一個問題，研究團隊發明了"帶首幀錨點的滑動窗口跨幀注意力"機制。針對第二個問題，他們提出了一種"頻率復用式時空旋轉位置編碼"。下面逐一解釋這兩個聽起來拗口的發明。

先說注意力機制的改造。在AI模型里，"注意力"是一種讓不同位置的資訊互相交流的機制——有點像開會時不同部門的人互相分享資訊。Trellis2原本的注意力只在同一幀內部開會，不同幀之間完全隔絕。最簡單的擴展方式是讓所有幀的所有"資訊代表"都坐在同一個大會議室里開會，這樣資訊流通最充分，但問題是一個4D重建任務可能有多達10萬個體素，全部放在一起開會的計算量會大到難以承受。

研究團隊的解決方案是"滑動窗口"加"錨點"。滑動窗口的意思是：每一幀只和它時間上相鄰的幾幀交流（比如前後各兩幀以內），就像你只需要和你的鄰居溝通，不需要同時聯繫全國所有人。這樣大幅降低了計算量，同時也符合影片的物理規律——相鄰幀之間的變化往往比較連續，資訊交換最有意義。

贊助商廣告

但光有滑動窗口還不夠，因為一段16幀的影片中，最後一幀和第一幀可能完全不同，純粹依靠相鄰幀的局部資訊傳遞，整個序列可能會逐漸"漂移"，失去全局一致性。研究團隊為此引入了"錨點幀"：無論當前處於哪一幀，它都可以直接訪問第一幀的完整資訊。第一幀就像一張地圖上的"你在這裡"標記，為整個序列提供穩定的參考基準。

更妙的是，這個錨點幀不是隨機生成的，而是由原始的、未經修改的Trellis2模型直接生成的高質量靜態3D重建結果。這意味著，Helix4D從第一幀就"繼承"了Trellis2處理透明物體和複雜內表面的能力。後續幀通過注意力機制向第一幀"取經"，從而在沒有大量稀有場景訓練數據的情況下，也能輸出合理的透明結構和內部幾何。這是一個非常聰明的設計——用數據充足的靜態3D能力，彌補了數據稀缺的動態4D場景中的短板。

在訓練時，模型只需要學習如何從第1幀到第15幀（序號從0開始）進行去噪生成，損失函數也只在這些幀上計算；第0幀（錨點幀）始終是乾淨的已知輸入，不參與訓練損失。到實際使用時，先用凍結的Trellis2生成第一幀，然後把它作為錨點輸入Helix4D，生成後續幀。

研究團隊還測試了其他幾種注意力模式的效果，包括全注意力（所有幀互相通信）、因果注意力（每幀只能看到它之前的幀）、純滑動窗口（不含錨點）、以及空間注意力（只在相同空間位置上跨幀通信）。實驗結果表明，"滑動窗口加錨點"在所有質量指標上均優於其他方案，同時運行速度比全注意力快2.3倍。這說明全注意力雖然資訊量最大，但也引入了太多無關的"噪聲"，而研究團隊設計的這種有針對性的資訊流通模式反而更有效。

四、讓模型"感知時間"的精妙技巧

第二個挑戰——如何在不增加參數的情況下加入時間編碼——的解決方案同樣值得細細品味。

首先需要理解"旋轉位置編碼"（RoPE）是什麼。在AI模型處理序列數據時，它需要知道每個元素的位置——比如在處理文字時，需要知道"這個詞是句子的第幾個字"。RoPE的做法是根據位置對特徵向量進行旋轉：位置不同，旋轉角度就不同，這樣模型就能通過比較兩個向量的相對旋轉量來判斷它們之間的位置差距。Trellis2把這個思路擴展到了3D：每個體素的x、y、z坐標各自對應一組旋轉，合在一起就是一個"3D空間位置編碼"。

贊助商廣告

現在問題來了：如果要加入第四個維度（時間），一種直觀的做法是在3D空間編碼之上再疊加一層時間旋轉——這也是之前一些4D生成方法（比如SS4D）的做法。但研究團隊指出，這種疊加會破壞預訓練的權重：原來的模型學到的是"x旋轉+y旋轉+z旋轉"組合下的特徵，突然再乘上一個時間旋轉，模型的鍵（key）和查詢（query）矩陣就處於一個它從未見過的相位組合里，預訓練積累的位置感知能力會受到干擾。

研究團隊換了一個角度思考：旋轉編碼里的不同頻率成分，對空間定位的貢獻是不均等的。高頻成分（變化快、細節豐富）對區分相鄰體素至關重要；低頻成分（變化慢、平滑過渡）對空間定位的貢獻則相對有限。換句話說，低頻的旋轉分量就像一張地圖上的大區域劃分，而高頻分量才是精確的街道級別資訊。區分兩個相鄰體素主要靠街道級別的高頻資訊，大區域劃分的低頻資訊作用相對次要。

他們用實驗驗證了這個直覺：把預訓練好的Trellis2模型中各軸編碼的低頻部分替換成恆等變換（相當於不做任何旋轉），然後觀察生成質量的變化。當保留60%以上的頻率（即只替換掉40%以下的低頻部分）時，生成結果在視覺上與保留全部頻率幾乎沒有區別，定量指標也幾乎持平。當替換超過60%時，質量才開始明顯下滑。

這個發現意味著那些被替換掉的低頻空間旋轉是"冗餘"的——它們沒有在提供什麼不可替代的空間資訊，完全可以被"騰出來"做別的事情。研究團隊就把這部分頻率用於編碼時間：高頻部分繼續描述空間位置，低頻部分改為描述幀序號。空間和時間的編碼保持相互獨立的"塊對角"結構，不會互相干擾，注意力圖依然只依賴於相對時空距離，滿足RoPE的基本性質。

關於保留多少空間頻率、撥出多少給時間，研究團隊給出了一個直覺上合理的理由：空間解析度是64（體素格子一邊有64格），時間解析度是16（16幀影片）。兩者之比是4:1，所以將75%的頻率留給空間、25%撥給時間，是一個均衡的分配。最終確定的參數是α=0.75，即每個軸保留75%的高頻空間旋轉，剩餘25%改造為時間旋轉。

贊助商廣告

整個改造過程不需要增加任何新的參數，也不需要修改注意力的權重矩陣，僅僅是重新定義了旋轉的對象。這種"無中生有"的設計思路，讓新的4D時空編碼完全兼容原有的預訓練權重，從而最大限度地保留了Trellis2學到的幾何和材質生成能力。

五、訓練數據和實驗細節

研究團隊從TexVerse-1K數據集的動畫子集中整理訓練數據，這個集合包含約5.5萬個動態3D物體。每個物體提取16幀動畫，每幀都轉換為解析度1024?的稀疏O-Voxel表示。為確保不同幀的空間對齊，每個動畫的所有幀共享統一的邊界框歸一化處理，使整個動畫序列都落在[-0.5, 0.5]的空間範圍內。每個動畫還從球面上隨機採樣的16個視角渲染成1024×1024的圖像，焦距、半徑、方位角和仰角都隨機變化，以增加訓練數據的多樣性。

訓練過程將Helix4D的三個階段（稀疏結構生成、幾何生成、材質生成）統一在相同的改造方案下，每個階段每次同時生成16幀。訓練時只微調自注意力層的權重，其他層保持Trellis2的預訓練狀態不變。訓練在32塊A100 GPU上進行了2萬次疊代，批大小為32，使用AdamW優化器，學習率設為0.00002。

六、和競爭對手相比，效果究竟怎樣

研究團隊構建了一個專門針對複雜動態場景的測試集，命名為Helix4DBench，包含52段影片，覆蓋形態變化、新興物體、破碎、透明和半透明物體、煙火等體積現象。這些影片是從公開的Trellis2示例圖片出發，用Wan2.2影片生成模型配合針對性的文字描述生成的，然後去掉背景。由於這些影片沒有真實的3D幾何作為參照，評估指標主要依賴渲染質量和3D-圖像對齊度。

對比的方法包括五個：SS4D、ShapeGen4D、Mesh4D、Motion 3-to-4，以及ActionMesh。評估指標涵蓋多個維度：CLIP分數衡量渲染外觀與輸入影片的相似度，CLIP-N衡量法線圖（幾何形狀）的相似度，ULIP-2和Uni3D從3D點雲的角度衡量幾何與圖像的對齊程度，DreamSim衡量感知相似度，FVD衡量影片的時間一致性，以及用戶研究中的一對一勝率。

贊助商廣告

在Helix4DBench的所有指標上，Helix4D均超越了所有對比方法。以最能綜合反映3D質量的ULIP-2和Uni3D指標為例，Helix4D分別比最強基線高出5.7%和7.8%。用戶研究中，參與者在一對一比較時，有67.9%到89.8%的情況下偏好Helix4D的結果，具體取決於對比的基線方法。

視覺上的差異更為直觀。針對基於變形的方法（ActionMesh、Motion 3-to-4、Mesh4D），研究團隊總結了三類典型失敗場景。第一類是"新出現的物體"：這些方法都以第一幀為錨點，當後續幀出現了第一幀中不存在的內容時（比如顏料從外部濺到人物身上），它們完全無法恢復這些新增結構。第二類是"頂點粘連"：當一個物體後來需要與另一物體分離時，基於變形的方法會把它們的頂點"粘"在一起，產生奇怪的融合形變，比如農民的手和籃子融合在一起隨著動作扭曲變形。第三類是"內表面"：這些方法依賴封閉網格假設，根本無法表示內表面，裝著魚的玻璃瓶場景中只有Helix4D能同時重建出透明外殼和裡面遊動的魚。

在另一個基準測試ActionBench上——這個測試集主要包含簡單運動、不涉及拓撲變化的序列，是ActionMesh這類方法最擅長的主場——Helix4D依然以最低的CD-3D（每幀平均倒角距離）勝出，儘管CD-4D（同時衡量形狀準確度和時間一致性的指標）略遜於ActionMesh。研究團隊還額外評估了一個來自TexVerse數據集的32個物體的測試子集，其中包含更豐富的動態場景，Helix4D在CD-3D和CD-4D兩項指標上均取得最優成績，進一步證明了其泛化能力。

七、消融實驗：每個設計都值多少

研究團隊還系統地測試了去掉每個核心組件後會發生什麼，以驗證各設計決策的貢獻。

去掉首幀條件（不使用Trellis2生成的錨點幀）後，各項指標均有下降，其中下降幅度最大，這與研究團隊的預期一致——首幀錨點不僅提供了穩定的全局參考，更把Trellis2的靜態3D能力"傳遞"給了整個4D生成過程，數據稀缺場景下尤為關鍵。

贊助商廣告

去掉4D旋轉位置編碼（改用簡單疊加時間RoPE的方式）後，定量指標的下降相對溫和，但視覺上的問題很明顯：重建出來的人物多了一條多餘的手臂，背面出現粗糙的噪聲，整體形狀的準確性和語義一致性都受到影響。研究團隊認為定量指標偏於保守，視覺對比更能反映真實差距。

把滑動窗口加錨點的注意力替換為全局完整注意力後，性能反而下降了，而且計算時間變為2.3倍。這說明全注意力引入了過多無關幀的干擾資訊，反而不如有針對性地只看相鄰幀加第一幀來得有效。

八、這個系統目前還有什麼做不到的

研究團隊坦承了Helix4D繼承自Trellis2的兩個固有局限。其一是生成的網格偶爾會出現"洞"——由於Trellis2不強制要求輸出封閉網格，某些區域的表面可能不完整。其二是Trellis2的紋理有時會產生顏色偏移，對於透明物體可能錯誤地生成金屬質感。

Helix4D本身也引入了一個新局限：因為它輸出的是一系列獨立的網格幀而非單一靜態網格，在幾何細節變化頻繁的區域，相鄰幀之間的時間一致性有時不夠穩定，會出現抖動。

研究團隊在論文末尾指出了未來的改進方向，包括處理更長的影片序列、場景級別的多物體交互、更強的攝像機運動處理，以及更準確的物理動力學建模。

歸根結底，Helix4D證明了一件非常有價值的事情：不需要從頭訓練一個全新的大模型，通過對已有強大靜態3D模型的精準改造，同樣可以實現高質量的動態4D生成。它用很少的額外參數和相對有限的訓練代價，把一個只看圖片的系統變成了一個能看影片、能生成透明物體會動的3D網格的系統。這對整個3D生成領域都是一個重要的信號：靜態3D基礎模型中積累的強大先驗，是可以被系統性地遷移到4D任務中的，而且這種遷移不需要以犧牲原有能力為代價。對於動畫師、遊戲開發者、虛擬現實內容創作者來說，這項技術如果繼續成熟，可能真的會改變他們的工作方式。有興趣深入了解技術細節的讀者，可以通過arXiv:2605.26109查閱完整論文。

贊助商廣告

Q&A

Q1：Helix4D和之前的4D生成方法相比，最核心的優勢是什麼？

A：之前基於變形的4D方法從第一幀生成靜態模型然後扭曲它，無法處理形狀劇變、新出現的物體或透明材質。Helix4D通過繼承Trellis2的O-Voxel表示，不依賴封閉網格假設，能同時重建透明外殼和內部結構，還能生成第一幀中不存在的新幾何體，從根本上突破了這些限制。

Q2：4D旋轉位置編碼（4D rotary）為什麼不直接疊加一層時間編碼，而要替換空間編碼的低頻部分？

A：直接疊加時間旋轉會讓同一特徵維度上同時疊有空間旋轉和時間旋轉，導致兩者相位互相纏繞，預訓練模型的鍵查詢矩陣從未見過這種組合，會破壞已學到的空間感知。實驗證明，空間編碼的低頻部分對定位貢獻有限，可以安全地替換為時間編碼，既保留了預訓練能力，又無需增加任何新參數。

Q3：Helix4DBench測試集是怎麼構建的，為什麼需要專門製作一個新測試集？

A：現有的4D測試集（如ActionBench）主要包含簡單剛體運動，不涉及透明材質、拓撲變化或體積現象。研究團隊從Trellis2官方示例圖片出發，用Wan2.2影片生成模型配合針對性文字描述生成了52段動態影片，覆蓋破碎、融化、透明玻璃瓶、煙火等複雜場景，專門用於評估各方法在困難動態場景下的表現。