這項由耶路撒冷希伯來大學研究團隊完成的研究,以預印本形式於2026年5月28日發布,論文編號為arXiv:2605.30268,感興趣的讀者可通過該編號在arXiv平台查閱完整論文。
電影裡的特效英雄踢飛一個金屬箱子,箱子應聲飛出並凹陷變形——這個畫面看起來理所當然,但如果你讓電腦自動生成一段"人踢箱子"的三維動畫,會發生什麼?很可能是:人腿穿過了箱子,或者箱子在人還沒碰到它之前就已經飛走了,再或者兩個物體就像兩條互不干涉的平行線,各走各的路,毫無交集。這個看似簡單的問題,其實是電腦圖形學領域長期懸而未決的難題。耶路撒冷希伯來大學的研究團隊為此開發了一套名為PhyGenHOI的框架,專門解決"讓虛擬人物和虛擬物體真實互動"這件事。
說到底,這項研究要解決的問題可以用一個畫面來概括:你給電腦一個三維人物模型、一個三維足球模型,再告訴它"這個人要用右腿踢球",然後電腦能不能自動生成一段既好看又符合物理規律的完整動畫?球被踢中之後會不會真的飛出去?人的踢球動作自不自然?球飛出去的軌跡符不符合現實中的力學規律?PhyGenHOI給出的答案是:可以做到,而且比現有任何方法都做得更好。
**一、現有技術的兩難困境:要麼好看,要麼真實,難以兼得**
回到踢球這個場景。當前的技術方案大致分成兩個流派,各有各的短板,就像兩位廚師——一位做菜顏值極高但味道一般,另一位味道紮實但擺盤隨意。
第一個流派叫"純生成式方法",代表是4DFY這類技術。它的思路是讓人工智慧看大量真實影片,然後照貓畫虎地生成動畫。這類方法生成的畫面往往很好看、很多樣,人物動作看起來也比較自然。但問題在於,人工智慧只是在"模仿外表",它根本不理解物理規律。結果就會出現一種叫做"幽靈效應"的奇怪現象——球還沒被踢到,就已經提前飛了出去,就好像球能預知未來一樣。這種違背因果關係的畫面讓人一眼就看出不對勁。
第二個流派叫"運動學框架方法",代表是AvatarGO和InterDreamer。這類方法對人體結構有更嚴格的約束,人的骨骼、關節動起來更符合解剖學規律。但它們的問題是,把被互動的物體當成一個"死道具"——就算人踢了球,球也不會真的被踢飛,它只是配合人的動作做一個程序化的簡單反應,甚至根本不動。這就像舞台上的假道具,中看不中用。
還有一類方法專注於給單個三維資產製作動畫,比如AnimateAnyMesh。這類方法能讓一個單獨的人物或一個單獨的物體動起來,但它完全不懂怎麼處理兩個物體之間的物理接觸和相互作用。
PhyGenHOI的目標,正是在這兩個極端之間找到一條兼顧"好看"與"真實"的路。
**二、統一舞台:用同一種語言描述人和物體**
PhyGenHOI的第一個聰明之處,是讓人和物體用同一種"語言"來表達自己——這種語言叫做三維高斯點雲(3D Gaussian Splatting,簡稱3DGS)。
普通人可以把3DGS理解為一種非常精妙的三維描述方式。空間中漂浮著成千上萬個半透明的"小氣泡",每個氣泡有自己的位置、大小、形狀和顏色。這些氣泡疊加在一起,從任意角度看過去,就會呈現出一個完整的三維物體或人物的外觀。這種方式渲染速度快,而且非常靈活——你可以輕鬆地從任何角度生成這個場景的圖像。
在PhyGenHOI里,人物和被互動的物體都被表示成這樣一堆"小氣泡"。這樣一來,整個系統有了統一的基礎,人物的運動和物體的運動都可以在同一個框架下計算和優化。這個統一的基礎是後續所有操作的前提。
**三、兩個角色,兩套驅動邏輯**
確定了共同的表示方式之後,PhyGenHOI把場景中的兩個主角——人和物體——分別賦予了截然不同的驅動邏輯。這種差異化的設計,才是整個框架最核心的哲學。
人被稱為"語義智能體"(Semantic Agent)。所謂語義,就是"有意義的動作"。踢球、揮拳、推箱子,這些動作都有明確的語義含義,它們需要符合人類的運動習慣,看起來自然、有說服力。為了生成這種運動,研究團隊使用了一個叫做"運動擴散模型"(Motion Diffusion Model,MDM)的人工智慧模型。這個模型是在大量真實人體動作數據上訓練出來的,它就像一個經驗豐富的動作指導,懂得各種運動的規律。你給它一段文字描述,比如"用左手揮拳打球",它就能生成一段符合這個描述的自然人體動作序列。
更具體地說,人的運動被表示為一個序列,每一幀包含身體的根部位置、整體朝向以及每個關節的姿態。系統用一種叫做"人體運動分數蒸餾"(HMSD)的技術來優化這個序列,讓它越來越符合運動擴散模型所認定的"自然人體運動"的標準。人體模型採用的是SMPL參數化人體模型,這是一種被學術界廣泛使用的人體表示標準,能夠保證骨骼、關節的解剖學合理性。每個三維氣泡都綁定在SMPL骨骼的某個關節上,當骨骼動起來,氣泡也跟著動,從而驅動整個人物的外觀變化。
物體則被稱為"物理智能體"(Physical Agent)。與人不同,物體不需要理解語義,它只需要忠實地遵循物理規律。研究團隊使用了一種叫做"物質點方法"(Material Point Method,MPM)的數值模擬技術來驅動物體的運動。MPM是物理學和工程學中一種成熟的模擬方法,能夠計算各種材料——無論是彈性球、軟泥還是金屬——在受力後的變形和運動軌跡。物體的每一個三維氣泡都被當作MPM模擬中的一個粒子,整個物體的運動完全由物理模擬決定,而非人工設定或人工智慧猜測。這保證了物體的反應始終符合真實世界的物理規律。
**四、讓兩個角色協調起來:三重協調機制**
有了兩個各自獨立運動的角色,下一步的挑戰是:怎麼讓他們真正協調互動,而不是各走各的路?PhyGenHOI設計了三套緊密配合的機制,就像三位裁判分別負責不同的判罰規則,共同確保比賽公平進行。
第一套機制叫做"加窗吸引損失"(Windowed Attraction Loss)。在初始狀態下,人的動作和物體的位置是完全獨立生成的,人不知道物體在哪裡,可能一拳打空。為了讓人的動作能夠準確地與物體接觸,系統首先需要搞清楚兩件事:這個動作應該用身體的哪個部位來接觸物體,以及這次接觸應該發生在哪個時間點。
研究團隊提出了一個聰明的判斷方法:看每個關節在整個動作序列中的速度變化。以踢球為例,踢球動作中速度累積最大的關節就是腳部,而腳部速度達到峰值的那一刻,正是腿部完全伸展、最接近目標的時刻,也就是最自然的接觸時機。系統通過計算每個關節的累積速度來確定接觸關節,再找到該關節速度最高點來確定接觸時刻。論文中展示的一張圖清楚地說明了這一點:在踢球動作中,左腳的速度曲線明顯高於其他所有關節,並在某一幀出現明顯峰值,這一幀就被自動選為接觸時刻。
確定了接觸關節和接觸時刻之後,系統會在接觸時刻附近施加一個"引力"——像一根橡皮筋一樣,把接觸關節拉向物體的質心。這個引力並非在整個動作序列中都存在,而是集中在接觸時刻附近,採用高斯函數的形狀(中間強、兩側弱),保證只在關鍵時刻施加引導,讓動作的起步階段和收尾階段仍然由運動擴散模型自由發揮,維持動作的自然感。這個損失函數和人體運動分數蒸餾的損失函數共同優化,讓人的動作既自然又能準確地朝向物體運動。
第二套機制叫做"接觸驅動重模擬"(Contact-Driven Re-simulation)。人的動作被引導到物體附近之後,還需要讓物體真正做出反應。這一步是建立真實物理因果關係的關鍵。
系統首先精確地檢測接觸是否發生。檢測方法是這樣的:每個人體上的三維氣泡都通過蒙皮權重(描述該氣泡受哪個關節控制的權重)歸屬於某個關節,系統計算每個關節的氣泡群的三維包圍盒,同時計算物體的三維包圍盒,判斷兩者是否重疊。僅僅包圍盒重疊還不夠,系統還會進一步檢查:接觸關節中至少5%的氣泡必須在距離最近的物體氣泡0.01個單位距離以內,才算真正發生了接觸。
一旦檢測到接觸,系統立即計算動量傳遞。具體來說,系統估算接觸關節在接觸瞬間的速度(用前後兩幀的位移差來近似),計算接觸法線方向(從被接觸的物體氣泡群的平均位置指向物體質心的方向),然後按照經典力學中的碰撞公式計算物體在碰撞後的初速度。公式中還包含一個"恢復係數"(e=0.6),這個係數描述了碰撞的彈性:完全彈性碰撞時e=1,完全非彈性碰撞時e=0,0.6意味著碰撞有一定彈性,類似於踢一個充了氣的足球的感覺。
拿到這個初速度之後,MPM模擬器從接觸時刻開始重新模擬物體的運動,一直模擬到序列結束,生成一條完整的、符合物理規律的物體運動軌跡。這條軌跡隨後被固定下來,後續的優化只調整人的動作,不再改變物體的軌跡。這樣就保證了物體的反應是真實物理計算的結果,不可能出現"球提前飛走"的幽靈效應。
第三套機制叫做"時間掩碼影片分數蒸餾"(Temporally-Masked Video-SDS)。經過前兩套機制,人的動作和物體的軌跡在宏觀層面已經很好地協調起來了。但在接觸區域的微觀細節上,可能還存在一些不夠完美的地方——比如手指或腳趾輕微地穿入了球體(這在三維電腦圖形中叫做"穿插"現象)。
為了修復這些細節,研究團隊引入了影片擴散模型作為額外的視覺先驗。具體做法是:渲染當前狀態下的場景影片,然後用一個預訓練的影片生成模型(CogVideoX-5B)來評估這段影片是否符合文字描述、是否看起來真實自然。如果不符合,就通過梯度信號來微調人體的姿態參數,讓渲染結果越來越符合影片模型的"審美標準"。這個過程只在接觸時刻前後各一幀的範圍內進行,不影響其他幀的動作,避免對已經優化好的整體運動造成破壞。影片模型的文字提示中還特別強調了要避免穿插、確保接觸真實,進一步引導優化的方向。
**五、三階段優化流程:從獨立到協調的完整旅程**
整個系統的優化過程分為三個階段,就像蓋房子先打地基、再建牆體、最後裝修一樣循序漸進。
第一階段是"運動初始化"。系統只使用人體運動分數蒸餾的損失函數,疊代優化100次,讓人物先生成一段符合文字描述的自然動作。此時不考慮物體的位置,人物只是自由地做出踢球或揮拳的姿態。
第二階段是"人物-物體協調"。在第一階段的基礎上,系統加入加窗吸引損失,繼續疊代優化200次。此時人體運動分數蒸餾損失的權重係數為10,加窗吸引損失的權重係數為1,兩者共同優化,讓人物在保持動作自然的同時逐漸向物體靠近。加窗吸引損失的高斯窗口標準差為2幀。這一階段結束後,系統執行接觸檢測和MPM重模擬,得到固定的物體軌跡,供下一階段使用。
第三階段是"影片分數蒸餾精修"。系統使用時間掩碼影片分數蒸餾,疊代優化3000次,學習率為0.001,專門針對接觸區域的細節進行精細調整。整個三階段流程在單張英偉達
H200顯卡上大約需要74分鐘:人體運動優化約10分鐘,MPM模擬約4分鐘,影片分數蒸餾精修約1小時。最終生成的4D場景可以以每秒20幀的速度實時渲染。
**六、驗證與對比:全面勝出的實驗結果**
研究團隊構建了一個包含10種不同人物-物體-動作組合的測試基準,涵蓋了籃球、足球、文件櫃等多種物體,以及擊打、踢球、推送等多種動作類型,在此基礎上與兩個最具代表性的現有方法進行了系統比較。
比較對象4DFY代表純生成式方法,AnimateAnyMesh代表三維資產動畫方法。研究團隊特別說明,AvatarGO、InterDreamer、CHORD等更直接相關的人物-物體互動方法因為沒有公開代碼,所以無法納入比較,選取的是當前能夠復現的最強基線。
評估採用了三類指標。第一類是視覺-語言對齊度(ViCLIP分數),衡量生成的影片和文字描述的匹配程度,類似於"這段影片看起來像是在做文字里說的動作嗎"。第二類是物理合理性VQA分數,使用大語言模型Qwen-VL-7B來判斷影片中的互動是否物理上合理,相當於請一個懂物理的人來評分。第三類是用戶研究,邀請23位參與者對四個維度評分:物理合理性(物體對物理的反應是否合理)、接觸質量(接觸的準確性和真實感)、動作自然性(人物動作是否自然)、視覺真實感(整體畫面是否逼真)。每個維度滿分5分。
結果非常清晰:PhyGenHOI在全部指標上都超過了兩個基線方法。在VQA物理分數上,PhyGenHOI獲得0.25,優於AnimateAnyMesh的0.19和4DFY的0.15。在ViCLIP分數上,PhyGenHOI獲得0.30,優於4DFY的0.26和AnimateAnyMesh的0.24。在用戶研究的四個維度上,PhyGenHOI的得分分別為4.33、4.29、4.21和4.04,而兩個基線方法的得分基本在1.4到2.4之間。這種壓倒性的差距表明,用戶能夠非常直觀地感受到PhyGenHOI生成結果的優越性。
定性對比同樣直觀:4DFY經常把同一個物體幻覺成多個,而且人物的動作幅度極小,完全無法傳達踢球或擊打的意圖;AnimateAnyMesh對人和物體都只生成了幅度很小的運動,兩者之間幾乎沒有任何實質性的接觸互動;PhyGenHOI的人物動作幅度大、意圖明確,物體也做出了與動作力度相符的物理反應,軌跡自然、真實。
**七、消融實驗:缺少任何一塊都不行**
為了證明框架中每個組件都是不可或缺的,研究團隊還做了一系列"拆件測試"——逐一去掉某個組件,看結果會變得多差。
去掉加窗吸引損失之後,人物完全不知道物體在哪裡,動作雖然自然,但就是打不到物體,就像一個蒙著眼睛揮拳的人,動作流暢卻完全落空。ViCLIP分數從0.30跌到0.23,因為畫面和文字描述嚴重不符。
去掉接觸檢測和重模擬之後,人物能夠靠近物體,但物體對撞擊視而不見,繼續沿著原本的軌跡運動,就像幽靈一樣被人穿過而毫無反應。VQA物理分數跌至0.20,也是所有變體中最低的,因為無視碰撞是最明顯的物理違規。
去掉運動擴散模型(MDM),直接用數學優化來生成人物姿態,人物確實會向物體靠攏,但動作變得非常怪異,骨骼產生不自然的扭曲,看起來像是被強行拉到某個位置,完全不像真實的人類運動。ViCLIP分數降至0.22,因為動作太不自然,與文字描述中正常人類運動的預期相差甚遠。
去掉影片分數蒸餾之後,整體物理邏輯仍然正確,但接觸區域的細節變差,出現明顯的穿插現象,看起來手或腳嵌入了物體內部,視覺質量下降。
去掉MPM模擬,改用簡單的勻速直線運動來代替物體軌跡之後,物體的運動失去了材料物理特性,無法模擬彈跳、變形等真實效果,物理真實感明顯不足。
這五組對比實驗共同說明:PhyGenHOI的每一個組件都在發揮不可替代的作用,缺少任何一個都會造成明顯的質量下降。
**八、可控性與多樣性:同一個動作,不同的變體**
PhyGenHOI還展示了相當好的可控性。研究團隊通過改變物體的初始位置和人物的運動強度,生成了四種不同的揮拳變體:物體在高處時對應高位擊打,物體在低處時對應低位擊打;人物邁步發力時擊打力度更大,人物站立不動時力度較小。四種變體中,人物的動作模式和物體飛出的速度都有明顯的差異,符合人們對不同情境下擊打效果的直覺預期。
**九、局限性與未來方向**
研究團隊對自身工作的局限性持非常坦誠的態度,這值得一提。
首先,PhyGenHOI目前只適合處理"衝擊式"互動,也就是一次性接觸引發動量傳遞的場景,比如踢、打、推。對於需要持續施力的互動,比如人把手放在物體上持續推動,或者抱著物體走路,當前框架就不適用了,因為這類場景需要建模持續的力,而非單次衝擊。
其次,加窗吸引損失是把物體質心作為吸引目標,這對球這樣的凸形物體很有效,但對於形狀複雜的物體,可能需要接觸到特定的表面區域,質心目標就不夠精確了。
第三,人物本身在當前框架中仍然是純運動學的,只有物體受到物理模擬約束。人物的皮膚不會在接觸時產生真實的形變,也不會感受到來自物體的反作用力。實現雙向物理耦合——既讓物體受到人的衝擊,也讓人體組織受到物體的反力而形變——是未來工作的重要方向。
這些局限性也指出了這個研究領域未來可以繼續推進的幾條路:擴展到多次連續接觸、擴展到多物體場景、引入人體軟組織模擬等,都是很有價值的探索方向。
歸根結底,PhyGenHOI做的事情,是在"好看"和"真實"之間架了一座橋。以前我們在這兩件事上只能二選一,要麼有漂亮的動作但物體不會真實反應,要麼物體能真實模擬但人的動作又僵又奇怪。PhyGenHOI通過把人和物體賦予不同的驅動邏輯、再用三套協調機制把它們粘合在一起,終於讓這兩件事能夠同時發生。這意味著遊戲角色踢一腳球的樣子會更真實,動畫製作里物體被推倒的過程會更可信,虛擬現實里你伸手拿東西的感覺會更貼近真實。
這項研究距離我們日常生活的應用還有一段距離,畢竟生成一段動畫還需要74分鐘、一張H200顯卡,這不是普通人家裡能有的配置。但技術總是會越來越快、越來越便宜。有興趣深入了解完整技術細節的讀者,可以通過編號arXiv:2605.30268查閱原始論文,或訪問研究團隊的項目頁面觀看完整的動態演示影片。
---
Q&A
Q1:PhyGenHOI和普通的3D動畫生成軟體有什麼本質區別?
A:普通3D動畫軟體需要動畫師手動設置每一幀的動作和物體軌跡,而PhyGenHOI只需要輸入文字描述(比如"踢球"),就能自動生成人物動作和物體的物理反應。更關鍵的區別在於,PhyGenHOI用真實的物理模擬引擎來計算物體被踢中後的運動,不是靠視覺"猜測",因此物體的軌跡符合真實物理規律,而不是看起來像但其實違背常識。
Q2:PhyGenHOI的"物質點方法"(MPM)模擬是什麼意思,和遊戲裡的物理引擎一樣嗎?
A:MPM和遊戲物理引擎的目標類似,都是模擬物體在受力後的運動,但MPM更擅長處理形變,比如軟球被踢扁或泥土被壓出凹痕。PhyGenHOI採用MPM是為了同時處理運動軌跡和材料形變,讓物體的反應更接近真實材料的物理特性,而不只是簡單地"飛出去"。遊戲裡的物理引擎通常更關注實時性,對形變的模擬通常較為粗糙。
Q3:PhyGenHOI生成的動畫只能是男性踢球嗎,能換其他人物和動作嗎?
A:不局限於此。PhyGenHOI的輸入是任意的三維高斯點雲人物和任意物體,搭配任意的文字描述,都可以生成對應的互動動畫。論文中演示了不同體型的人物、多種不同物體(足球、籃球、文件櫃等)和不同動作(踢、揮拳、推等)的組合,系統都能生成物理合理的結果。






