這項由香港大學、騰訊混元、浙江大學、清華大學、上海交通大學和北京航空航天大學聯合開展的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.05163,有興趣深入了解的讀者可通過該編號查詢完整論文。
在電影《頭號玩家》里,虛擬世界中的每一件物品都可以被玩家抓起、推倒、打開或關閉,那種世界的真實感令人震撼。然而,今天大多數AI生成的3D模型,不過是一個精美的"紙紮道具"——看起來像真的,但摸上去是空心的,沒有重量,沒有關節,沒有任何與世界互動的能力。機器人伸手一抓,撲了個空;遊戲裡的箱子打不開;仿真訓練中的物體根本不符合物理規律。這個看似不起眼的問題,實際上是整個具身智能
(讓機器人理解並操作真實世界的技術)和虛擬世界建設領域最棘手的瓶頸之一。
PhysForge這項研究正是為了攻克這一難題而生。研究團隊的核心洞察在於:一個物體要能被真正地互動,就必須從它的"用途邏輯"出發來生成,而不是單純追求外觀好看。電視上的按鈕之所以是按鈕,是因為它的功能是被按下;柜子的門之所以能開合,是因為它有鉸鏈、有轉動軸。這些"物理知識"不應該是事後附加的標籤,而應該是貫穿整個生成過程的靈魂。
---
一、那些"中看不中用"的3D模型,到底差在哪裡
要理解PhysForge的價值,先得明白現有技術的局限。近年來,AI生成3D模型的能力突飛猛進。給它一張照片,它能還原出一個精細的三維網格;給它一段文字描述,它能憑空捏出一個栩真如生的虛擬物體。TRELLIS、CLAY這些前沿模型,在生成高保真幾何形狀和紋理貼圖方面已經相當出色。
然而,這些模型產出的都是"靜態資產"——它們只關心物體長什麼樣,完全不管物體是什麼材質、有多重、哪些部分可以動、能被怎樣抓握。這就好比一個技藝精湛的畫師,能畫出極其逼真的錘子,但這幅畫裡的錘子砸不了任何釘子。
這個問題在具身AI和遊戲開發中造成了巨大麻煩。機器人的仿真訓練需要大量能夠被抓取、推拉、開合的物體模型;遊戲引擎需要知道一把椅子有多重、它的扶手是木頭還是金屬;虛擬世界中的NPC需要知道抽屜可以被拉開,而不只是一塊貼著紋理的盒子。目前,這些物理屬性要麼靠人工一件一件標註(極其耗時耗力),要麼乾脆缺失(讓整個虛擬世界失去真實感)。PhysForge的目標,就是讓AI在"造東西"的同時,就把這些物理資訊一併生成出來。
---
二、給AI裝上一個"物理學家的大腦":分兩步走的生成框架
PhysForge的整體設計哲學,可以用"先規劃,再建造"來概括——就像建築師在施工前必須先畫好藍圖,而不是拿起磚頭就開始堆砌。
整個框架分為兩個階段,它們分工明確、各司其職。第一階段負責"想清楚",第二階段負責"做出來"。這兩個階段使用的是截然不同的AI架構,各自發揮所長。
**第一階段:讓語言大模型充當"物理建築師"**
研究團隊選用了阿里巴巴的Qwen2.5-VL作為第一階段的核心模型,並對其進行了專門的微調訓練。這個語言大模型(VLM,即能同時處理圖像和文字的大型模型)扮演的角色是一位"物理建築師":給它一張物體的照片,它不僅要說清楚這個物體由哪些部分組成,還要為每個部分制定完整的"物理規格說明書"。
這份說明書被稱為"層級物理藍圖"(Hierarchical Physical Blueprint)。以一個廚房水龍頭為例,這份藍圖會告訴我們:整體上,這是一個真實尺寸約0.4米的水龍頭,適用於廚房場景;水龍頭主體部分由金屬製成,質量約1.5千克,功能是輸送和控制水流;控制手柄的材質也是金屬,質量較輕,它的功能是控制水流的開關,狀態機定義為"開"和"關"兩個狀態,可以被抓握,其與主體的連接方式是"連續旋轉關節"(continuous joint)。
為了讓語言大模型也能理解三維空間,研究團隊為其設計了一套特殊的輸入方式。除了原始照片外,模型還會接收一個3D體素表示(可以理解為用無數小立方塊搭出來的粗糙3D形狀,由另一個模型TRELLIS預先生成)以及一張可選的2D遮罩圖(用顏色標出圖片中不同的部分)。對於3D體素的處理,團隊沒有採用業界常用的編碼方案,而是先用PartField編碼器提取每個體素的局部特徵,再通過一個位置感知的3D卷積網路將這些特徵壓縮成512維的向量——這套方案對於捕捉物體各個部分的局部資訊更為有效。
此外,團隊為模型的詞彙表新增了66個特殊的"坐標標記",用來描述每個部件的三維邊界框(就是將某個部件恰好框住的一個三維長方體)。每個邊界框僅需6個標記就能表達完整,極大地提高了結構規劃的效率。
研究過程中還發現了一個令人意外的"協同效應":當模型被訓練成同時預測物理屬性(材質、功能等)和邊界框時,物理屬性的約束反過來顯著改善了模型對部件的劃分能力。也就是說,知道"這一塊是用來控制開關的",會讓模型更準確地畫出這一塊的邊界在哪裡。即使不提供任何2D遮罩作為提示,模型也能輸出在語義上合理的部件分解方案。
**第二階段:讓擴散模型擔任"精密工匠"**
有了藍圖,下一步是精確建造。語言大模型擅長規劃"這裡有一個可以旋轉的關節",但它並不擅長給出精確的數值——旋轉軸的方向向量究竟是(0.71, 0, 0.71)還是(1, 0, 0)?旋轉範圍的上下限分別是多少弧度?這些需要高度精確的連續數值,才是擴散模型(一種特別擅長精確生成圖像和三維結構的AI模型類型)的用武之地。
這一階段在OmniPart框架的基礎上進行了核心創新,引入了"運動體素注入"機制(KineVoxel Injection,簡稱KVI)。這個機制的思路可以這樣理解:既然擴散模型已經能夠將一個物體的幾何形狀編碼成一系列"幾何體素"(代表形狀的資訊單元),為什麼不為每個可活動部件額外創建一個"運動體素"(KineVoxel),將其關節參數也編碼進去,然後讓幾何體素和運動體素在同一個擴散過程中同時生成呢?
具體來說,每個可活動部件的運動參數被表達為一個8維向量,包含三個分量描述關節原點位置、三個分量描述關節軸方向,以及兩個分量描述運動範圍的上下限。這個向量經過縮放後,由一個專門的運動編碼器(兩層輕量級神經網路)壓縮成一個運動體素向量。隨後,這個運動體素被與一系列幾何體素拼在一起,一同送入擴散模型的核心變換器(Transformer)進行處理。
為了讓模型區分"這是一個幾何體素"還是"這是一個運動體素",團隊還為運動體素額外附加了一個關節類型嵌入——這個嵌入正是來自第一階段語言大模型的預測結果。第一階段說"這是一個旋轉關節",第二階段就帶著這個先驗知識去精確估算旋轉軸和旋轉範圍。兩個階段通過這個關節類型嵌入緊密地綁定在一起,形成了一個完整的資訊傳遞鏈。
整個第二階段的訓練採用條件流匹配(Conditional Flow Matching)目標函數,損失函數由幾何損失和運動損失兩部分組成,且運動損失的權重被設為幾何損失的10倍——畢竟,精確的關節參數對於物理可交互性至關重要,寧可在這裡多花力氣。
---
三、沒有數據,再好的模型也是無米之炊:PhysDB數據集
訓練PhysForge這樣的模型,需要大量同時具備精細3D幾何和完整物理屬性的訓練樣本。然而,這樣的數據集在研究開始之前幾乎不存在。現有的3D數據集要麼只有幾何形狀沒有物理標註,要麼覆蓋的物體類別極為有限,要麼精度不夠。
為此,研究團隊專門構建了PhysDB——一個包含15萬個3D物體的大規模數據集,所有數據都來自Objaverse這個開源的3D物體倉庫,覆蓋了七大類物品:家用品、工業品、武器、個人物品、交通工具、科技與電子產品,以及文化用品。
PhysDB的注釋體系分為四個層次,層層遞進,從宏觀到微觀構建起一個完整的物理知識框架。
最宏觀的一層是"整體屬性",記錄物體的真實世界尺寸、物體類別,以及它通常出現在什麼場景中(比如廚房、臥室、辦公室)。第二層是"靜態屬性",深入到部件級別,記錄每個部件的語義標籤(這是什麼部分)、物理材質(金屬、木頭、塑料、布料等),以及質量。第三層是"功能屬性",受到一個名為OAKINK2的手部動作數據集的啟發,記錄每個部件的內在功能(比如"用於容納"、"用於控制")以及它的狀態機定義(按鈕有"按下"和"釋放"兩種狀態,抽屜有"開"和"關"兩種狀態)。最內層、也是最細緻的第四層是"交互屬性",規定了每個部件的原子操作庫(可以被推、可以被抓、可以被旋轉等),並對可活動部件給出完整的運動學定義:父部件是哪個、關節類型(旋轉關節、連續旋轉關節、平移關節或固定連接)、關節軸的原點和方向,以及運動範圍的上下限。
構建這套數據集的流程融合了人工智慧與人工審核。團隊先渲染出每個物體整體和各部件的圖像,送入多模態大語言模型生成初始注釋,再經由人工篩查和糾錯,確保最終數據的準確性和一致性。
不過,將精確的3D運動學注釋(精確到具體的軸向量和關節原點坐標)擴展到15萬個形態各異的物體是極為困難的,因為在如此大規模和多樣化的數據中,這類精確數值往往難以保證準確性。因此,PhysDB主要側重於提供豐富的物理屬性描述和關節類型,而具體的精確軸參數,則通過另外兩個專門的運動學數據集來補充:PartNet-Mobility(來自SAPIEN仿真環境)和Infinite-Mobility(一個通過程序化生成方法構建的大規模鉸接體數據集)。這兩個數據集提供了精確的數值運動學參數,專門用於訓練第二階段的擴散模型。
---
四、成績單:PhysForge在各項考試中的表現
研究團隊設計了多套評測體系,從不同角度檢驗PhysForge的能力。
**部件結構規劃能力的考核**
在這項測試中,模型需要從一張圖片出發,規劃出物體由哪些部件組成,以及每個部件的空間位置和大小。測試使用了PartObjaverse-Tiny數據集,包含200個多樣化物體,並與兩個競爭對手進行比較:OmniPart(一個專門的部件感知3D生成模型,通常需要2D遮罩輸入)和PartField(一個點雲分割方法)。
評測結果展示了一條清晰的進步軌跡。PhysForge在所有關鍵指標上(體素召回率、體素IoU、邊界框IoU)均超過了其他方法,取得了最優成績。更值得關注的是兩個對比實驗:當把PhysForge訓練時去掉所有物理屬性、只保留邊界框預測時(即"PhysForge-bbox"),性能大幅下降,甚至不如OmniPart。但一旦加入物理屬性聯合訓練,即便不提供任何2D遮罩輸入,PhysForge的表現也超過了使用SAM(Segment Anything Model,一個自動分割工具)生成遮罩的OmniPart。這有力地證明了物理屬性對結構規劃的促進作用。
**物理屬性生成能力的考核**
在這項測試中,評測分別在PhysXNet數據集(一個專注於物理屬性標註的測試集,含1000個物體)和PhysDB測試集(包含1000個按類別均勻採樣的物體)上進行,與PhysXGen和TRELLIS兩個基線方法比較。
在PhysXNet測試集上,PhysForge在幾何質量上(Chamfer Distance為9.21,越低越好;F1分數分別為89.24和75.43,越高越好)優於TRELLIS的10.10/86.53/72.47和PhysXGen的9.81/87.91/73.60。在物理屬性預測上,PhysForge的真實尺寸估計誤差僅為11.04厘米,而PhysXGen的誤差高達25.83厘米;材質預測誤差PhysForge為0.81,PhysXGen為1.59;操作可能性預測誤差PhysForge為1.22,PhysXGen為3.69;而在功能描述的語義相似度上,PhysForge達到0.87,PhysXGen僅有0.38。
在更多樣化的PhysDB測試集上,優勢更為明顯。PhysForge的絕對尺寸誤差僅為0.37米,而PhysXGen為1.08米;材質誤差PhysForge為0.43,PhysXGen為1.44;功能屬性相似度PhysForge為0.83,PhysXGen僅有0.36;交互屬性相似度PhysForge為0.96,PhysXGen為0.34。這種差距的根本原因在於:PhysXGen依賴於不透明的CLIP特徵來輸出物理屬性,資訊瓶頸明顯;而PhysForge直接通過語言大模型的世界知識,以文本和數值的形式明確輸出所有物理屬性,且不受類別限制。
**鉸接體生成能力的考核**
這是最能體現PhysForge獨特價值的考核維度——生成帶有精確運動參數的鉸接物體(即有活動部件的物體,比如有門的冰箱、有抽屜的桌子)。測試集包含340個鉸接物體,來自PartNet-Mobility和Infinite-Mobility,競爭對手包括Articulate Anything、Singapo和URDFormer三個專門的鉸接體生成方法。
PhysForge的成績全面領先。在幾何質量上,PhysForge的Chamfer Distance為10.21,而Articulate Anything為23.31,URDFormer高達25.42,Singapo為21.10。圖像一致性方面,PhysForge的CLIP相似度達到0.93,其他方法均在0.84到0.87之間。
最關鍵的關節參數準確性上,在所有方法都支持的5個類別子集中,PhysForge的關節軸誤差為0.101、關節原點誤差為0.071,而表現最好的競爭對手Singapo分別為0.241和0.153,Articulate Anything為0.608和0.257,URDFormer則高達0.781和0.652。在擴展到所有類別時,PhysForge的關節軸誤差為0.164,關節原點誤差為0.096,依然保持優勢。
團隊還專門設計了兩個消融實驗來驗證關鍵設計選擇的必要性。去掉關節類型嵌入(即不把第一階段的關節類型預測傳遞給第二階段)後,關節軸誤差從0.101上升到0.157,關節原點誤差從0.071上升到0.132。去掉獨立的運動編解碼器後,誤差分別為0.158和0.117。兩項消融都導致了明顯的性能下降,說明兩階段之間的資訊傳遞機制以及專用運動處理模組都是不可或缺的設計。
---
五、這些能打開的門、能被抓取的工具,最終能用在哪裡
PhysForge生成的資產不只是為了看起來好看,它們是真正的"仿真就緒"資產,可以直接投入使用。
在機器人仿真訓練領域,研究團隊將生成的資產導入了RoboTwin這個雙臂機器人仿真環境,結果表明,精細的部件級幾何形狀和精確的運動參數,讓虛擬機器人手臂能夠真實地與這些物體互動——抓取把手、推開櫃門、撥動開關。這對機器人學習來說意義重大:在虛擬世界中積累的經驗,因為物理屬性的一致性,可以更好地遷移到真實世界。
在遊戲虛擬世界構建領域,團隊將生成的資產導入了Unreal Engine 5,展示了玩家可以與之互動的場景。因為每個部件都攜帶了材質、質量和鉸接資訊,遊戲開發者無需手動綁定,就能直接實現基於物理的複雜交互邏輯——推倒一隻陶瓷花瓶會產生與推倒一個金屬桶截然不同的物理反饋,這種細節是真正沉浸感的來源。
第三個應用場景頗具想像力:利用PhysForge的語言大模型輸出作為智能體與環境互動的接口。具體來說,一個具身智能體(或視覺-語言-動作模型)可以用自然語言查詢任意一個物體的物理藍圖,得到文字形式的結構說明和邊界框坐標,從而為操作任務提供明確的執行計劃。比如,智能體問:"這盞檯燈的底座是什麼材質的,什麼形狀?",PhysForge的藍圖會回答:"整個檯燈是白色塑料製成的,底座是圓形且平坦的。"又問:"如何調節檯燈的角度和光照方向?",藍圖會詳細說明哪些關節可以旋轉、旋轉軸在哪裡。這實際上是把物理常識以結構化的方式顯式地提供給了智能體,大幅降低了任務規劃的難度。
---
說到底,PhysForge做的事情,是把長久以來被3D生成領域忽視的一個根本問題重新推回到了台前:一個物體的"形狀"和它的"意義"是不可分割的。門的形狀決定了它看起來像門,但只有門的鉸鏈軸、材質和開合範圍,才讓它真正成為一扇可以被推開的門。
從這個角度看,PhysForge不只是一個技術系統,它更代表了一種思維方式的轉變——從"生成看起來正確的形狀"到"生成能夠正確運作的物體"。這種轉變對於下一代機器人技術、沉浸式遊戲體驗乃至整個虛擬世界的建設都有深遠影響。
當然,這項研究也有其局限。PhysDB在大規模標註時不得不簡化了精確數值運動學參數的標註,目前的方法還需要依賴外部高質量運動學數據集來補充訓練;在面對更複雜的多級鉸接結構(比如機械臂)時,效果仍有提升空間。這些也許正是未來研究可以繼續挖掘的方向。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.05163查閱完整論文。
---
Q&A
Q1:PhysForge生成的3D資產和普通3D生成模型生成的有什麼區別?
A:普通3D生成模型只輸出物體的外觀形狀和紋理,類似於一個精美但中空的模型道具,無法被程序"理解"其結構。PhysForge在生成形狀的同時,還會輸出每個部件的材質、質量、功能、可以如何被操作,以及可活動部件的精確關節軸方向、原點位置和運動範圍,使生成的物體可以直接導入物理仿真器或遊戲引擎進行真實的物理交互。
Q2:PhysDB數據集和已有的3D數據集相比有什麼特別之處?
A:PhysDB包含15萬個3D物體,覆蓋七大類,最大的特點是採用了四層物理屬性標註體系:整體屬性(尺寸、類別、使用場景)、靜態屬性(部件材質和質量)、功能屬性(部件的用途和狀態機)以及交互屬性(可執行的操作和運動學參數)。現有數據集要麼缺乏物理屬性,要麼類別覆蓋有限,PhysDB填補了這一空白,同時還補充了PartNet-Mobility和Infinite-Mobility的精確運動學數據用於訓練。
Q3:KineVoxel Injection機制是怎麼工作的?
A:該機制將每個可活動部件的運動參數(關節原點、軸方向、運動上下限,共8個數值)編碼成一個特殊的"運動體素"向量,然後在擴散模型的去噪過程中,將這個運動體素與代表幾何形狀的體素拼接在一起,讓二者在同一個神經網路變換器中同時生成。還通過添加關節類型嵌入(來自第一階段語言大模型的預測)來指導模型準確估算具體參數,實現了幾何形狀與運動學參數的協同生成。






