當虛擬人物終於能「真實地打一拳」——來自耶路撒冷希伯來大學的4D人物動作仿真突破

這項由耶路撒冷希伯來大學研究團隊完成的研究，以預印本形式於2026年5月28日發布，論文編號為arXiv:2605.30268，感興趣的讀者可通過該編號在arXiv平台查閱完整論文。

贊助商廣告

電影裡的特效英雄踢飛一個金屬箱子，箱子應聲飛出並凹陷變形——這個畫面看起來理所當然，但如果你讓電腦自動生成一段"人踢箱子"的三維動畫，會發生什麼？很可能是：人腿穿過了箱子，或者箱子在人還沒碰到它之前就已經飛走了，再或者兩個物體就像兩條互不干涉的平行線，各走各的路，毫無交集。這個看似簡單的問題，其實是電腦圖形學領域長期懸而未決的難題。耶路撒冷希伯來大學的研究團隊為此開發了一套名為PhyGenHOI的框架，專門解決"讓虛擬人物和虛擬物體真實互動"這件事。

說到底，這項研究要解決的問題可以用一個畫面來概括：你給電腦一個三維人物模型、一個三維足球模型，再告訴它"這個人要用右腿踢球"，然後電腦能不能自動生成一段既好看又符合物理規律的完整動畫？球被踢中之後會不會真的飛出去？人的踢球動作自不自然？球飛出去的軌跡符不符合現實中的力學規律？PhyGenHOI給出的答案是：可以做到，而且比現有任何方法都做得更好。

**一、現有技術的兩難困境：要麼好看，要麼真實，難以兼得**

回到踢球這個場景。當前的技術方案大致分成兩個流派，各有各的短板，就像兩位廚師——一位做菜顏值極高但味道一般，另一位味道紮實但擺盤隨意。

第一個流派叫"純生成式方法"，代表是4DFY這類技術。它的思路是讓人工智慧看大量真實影片，然後照貓畫虎地生成動畫。這類方法生成的畫面往往很好看、很多樣，人物動作看起來也比較自然。但問題在於，人工智慧只是在"模仿外表"，它根本不理解物理規律。結果就會出現一種叫做"幽靈效應"的奇怪現象——球還沒被踢到，就已經提前飛了出去，就好像球能預知未來一樣。這種違背因果關係的畫面讓人一眼就看出不對勁。

贊助商廣告

第二個流派叫"運動學框架方法"，代表是AvatarGO和InterDreamer。這類方法對人體結構有更嚴格的約束，人的骨骼、關節動起來更符合解剖學規律。但它們的問題是，把被互動的物體當成一個"死道具"——就算人踢了球，球也不會真的被踢飛，它只是配合人的動作做一個程序化的簡單反應，甚至根本不動。這就像舞台上的假道具，中看不中用。

還有一類方法專注於給單個三維資產製作動畫，比如AnimateAnyMesh。這類方法能讓一個單獨的人物或一個單獨的物體動起來，但它完全不懂怎麼處理兩個物體之間的物理接觸和相互作用。

PhyGenHOI的目標，正是在這兩個極端之間找到一條兼顧"好看"與"真實"的路。

**二、統一舞台：用同一種語言描述人和物體**

PhyGenHOI的第一個聰明之處，是讓人和物體用同一種"語言"來表達自己——這種語言叫做三維高斯點雲（3D Gaussian Splatting，簡稱3DGS）。

普通人可以把3DGS理解為一種非常精妙的三維描述方式。空間中漂浮著成千上萬個半透明的"小氣泡"，每個氣泡有自己的位置、大小、形狀和顏色。這些氣泡疊加在一起，從任意角度看過去，就會呈現出一個完整的三維物體或人物的外觀。這種方式渲染速度快，而且非常靈活——你可以輕鬆地從任何角度生成這個場景的圖像。

在PhyGenHOI里，人物和被互動的物體都被表示成這樣一堆"小氣泡"。這樣一來，整個系統有了統一的基礎，人物的運動和物體的運動都可以在同一個框架下計算和優化。這個統一的基礎是後續所有操作的前提。

**三、兩個角色，兩套驅動邏輯**

確定了共同的表示方式之後，PhyGenHOI把場景中的兩個主角——人和物體——分別賦予了截然不同的驅動邏輯。這種差異化的設計，才是整個框架最核心的哲學。

人被稱為"語義智能體"（Semantic Agent）。所謂語義，就是"有意義的動作"。踢球、揮拳、推箱子，這些動作都有明確的語義含義，它們需要符合人類的運動習慣，看起來自然、有說服力。為了生成這種運動，研究團隊使用了一個叫做"運動擴散模型"（Motion Diffusion Model，MDM）的人工智慧模型。這個模型是在大量真實人體動作數據上訓練出來的，它就像一個經驗豐富的動作指導，懂得各種運動的規律。你給它一段文字描述，比如"用左手揮拳打球"，它就能生成一段符合這個描述的自然人體動作序列。

贊助商廣告

更具體地說，人的運動被表示為一個序列，每一幀包含身體的根部位置、整體朝向以及每個關節的姿態。系統用一種叫做"人體運動分數蒸餾"（HMSD）的技術來優化這個序列，讓它越來越符合運動擴散模型所認定的"自然人體運動"的標準。人體模型採用的是SMPL參數化人體模型，這是一種被學術界廣泛使用的人體表示標準，能夠保證骨骼、關節的解剖學合理性。每個三維氣泡都綁定在SMPL骨骼的某個關節上，當骨骼動起來，氣泡也跟著動，從而驅動整個人物的外觀變化。

物體則被稱為"物理智能體"（Physical Agent）。與人不同，物體不需要理解語義，它只需要忠實地遵循物理規律。研究團隊使用了一種叫做"物質點方法"（Material Point Method，MPM）的數值模擬技術來驅動物體的運動。MPM是物理學和工程學中一種成熟的模擬方法，能夠計算各種材料——無論是彈性球、軟泥還是金屬——在受力後的變形和運動軌跡。物體的每一個三維氣泡都被當作MPM模擬中的一個粒子，整個物體的運動完全由物理模擬決定，而非人工設定或人工智慧猜測。這保證了物體的反應始終符合真實世界的物理規律。

**四、讓兩個角色協調起來：三重協調機制**

有了兩個各自獨立運動的角色，下一步的挑戰是：怎麼讓他們真正協調互動，而不是各走各的路？PhyGenHOI設計了三套緊密配合的機制，就像三位裁判分別負責不同的判罰規則，共同確保比賽公平進行。

第一套機制叫做"加窗吸引損失"（Windowed Attraction Loss）。在初始狀態下，人的動作和物體的位置是完全獨立生成的，人不知道物體在哪裡，可能一拳打空。為了讓人的動作能夠準確地與物體接觸，系統首先需要搞清楚兩件事：這個動作應該用身體的哪個部位來接觸物體，以及這次接觸應該發生在哪個時間點。

研究團隊提出了一個聰明的判斷方法：看每個關節在整個動作序列中的速度變化。以踢球為例，踢球動作中速度累積最大的關節就是腳部，而腳部速度達到峰值的那一刻，正是腿部完全伸展、最接近目標的時刻，也就是最自然的接觸時機。系統通過計算每個關節的累積速度來確定接觸關節，再找到該關節速度最高點來確定接觸時刻。論文中展示的一張圖清楚地說明了這一點：在踢球動作中，左腳的速度曲線明顯高於其他所有關節，並在某一幀出現明顯峰值，這一幀就被自動選為接觸時刻。

贊助商廣告

確定了接觸關節和接觸時刻之後，系統會在接觸時刻附近施加一個"引力"——像一根橡皮筋一樣，把接觸關節拉向物體的質心。這個引力並非在整個動作序列中都存在，而是集中在接觸時刻附近，採用高斯函數的形狀（中間強、兩側弱），保證只在關鍵時刻施加引導，讓動作的起步階段和收尾階段仍然由運動擴散模型自由發揮，維持動作的自然感。這個損失函數和人體運動分數蒸餾的損失函數共同優化，讓人的動作既自然又能準確地朝向物體運動。

第二套機制叫做"接觸驅動重模擬"（Contact-Driven Re-simulation）。人的動作被引導到物體附近之後，還需要讓物體真正做出反應。這一步是建立真實物理因果關係的關鍵。

系統首先精確地檢測接觸是否發生。檢測方法是這樣的：每個人體上的三維氣泡都通過蒙皮權重（描述該氣泡受哪個關節控制的權重）歸屬於某個關節，系統計算每個關節的氣泡群的三維包圍盒，同時計算物體的三維包圍盒，判斷兩者是否重疊。僅僅包圍盒重疊還不夠，系統還會進一步檢查：接觸關節中至少5%的氣泡必須在距離最近的物體氣泡0.01個單位距離以內，才算真正發生了接觸。

一旦檢測到接觸，系統立即計算動量傳遞。具體來說，系統估算接觸關節在接觸瞬間的速度（用前後兩幀的位移差來近似），計算接觸法線方向（從被接觸的物體氣泡群的平均位置指向物體質心的方向），然後按照經典力學中的碰撞公式計算物體在碰撞後的初速度。公式中還包含一個"恢復係數"（e=0.6），這個係數描述了碰撞的彈性：完全彈性碰撞時e=1，完全非彈性碰撞時e=0，0.6意味著碰撞有一定彈性，類似於踢一個充了氣的足球的感覺。

拿到這個初速度之後，MPM模擬器從接觸時刻開始重新模擬物體的運動，一直模擬到序列結束，生成一條完整的、符合物理規律的物體運動軌跡。這條軌跡隨後被固定下來，後續的優化只調整人的動作，不再改變物體的軌跡。這樣就保證了物體的反應是真實物理計算的結果，不可能出現"球提前飛走"的幽靈效應。

贊助商廣告

第三套機制叫做"時間掩碼影片分數蒸餾"（Temporally-Masked Video-SDS）。經過前兩套機制，人的動作和物體的軌跡在宏觀層面已經很好地協調起來了。但在接觸區域的微觀細節上，可能還存在一些不夠完美的地方——比如手指或腳趾輕微地穿入了球體（這在三維電腦圖形中叫做"穿插"現象）。

為了修復這些細節，研究團隊引入了影片擴散模型作為額外的視覺先驗。具體做法是：渲染當前狀態下的場景影片，然後用一個預訓練的影片生成模型（CogVideoX-5B）來評估這段影片是否符合文字描述、是否看起來真實自然。如果不符合，就通過梯度信號來微調人體的姿態參數，讓渲染結果越來越符合影片模型的"審美標準"。這個過程只在接觸時刻前後各一幀的範圍內進行，不影響其他幀的動作，避免對已經優化好的整體運動造成破壞。影片模型的文字提示中還特別強調了要避免穿插、確保接觸真實，進一步引導優化的方向。

**五、三階段優化流程：從獨立到協調的完整旅程**

整個系統的優化過程分為三個階段，就像蓋房子先打地基、再建牆體、最後裝修一樣循序漸進。

第一階段是"運動初始化"。系統只使用人體運動分數蒸餾的損失函數，疊代優化100次，讓人物先生成一段符合文字描述的自然動作。此時不考慮物體的位置，人物只是自由地做出踢球或揮拳的姿態。

第二階段是"人物-物體協調"。在第一階段的基礎上，系統加入加窗吸引損失，繼續疊代優化200次。此時人體運動分數蒸餾損失的權重係數為10，加窗吸引損失的權重係數為1，兩者共同優化，讓人物在保持動作自然的同時逐漸向物體靠近。加窗吸引損失的高斯窗口標準差為2幀。這一階段結束後，系統執行接觸檢測和MPM重模擬，得到固定的物體軌跡，供下一階段使用。

第三階段是"影片分數蒸餾精修"。系統使用時間掩碼影片分數蒸餾，疊代優化3000次，學習率為0.001，專門針對接觸區域的細節進行精細調整。整個三階段流程在單張英偉達當虛擬人物終於能真實地打一拳來自耶路撒冷希伯來大學的4D人物動作仿真突破 H200顯卡上大約需要74分鐘：人體運動優化約10分鐘，MPM模擬約4分鐘，影片分數蒸餾精修約1小時。最終生成的4D場景可以以每秒20幀的速度實時渲染。

贊助商廣告

**六、驗證與對比：全面勝出的實驗結果**

研究團隊構建了一個包含10種不同人物-物體-動作組合的測試基準，涵蓋了籃球、足球、文件櫃等多種物體，以及擊打、踢球、推送等多種動作類型，在此基礎上與兩個最具代表性的現有方法進行了系統比較。

比較對象4DFY代表純生成式方法，AnimateAnyMesh代表三維資產動畫方法。研究團隊特別說明，AvatarGO、InterDreamer、CHORD等更直接相關的人物-物體互動方法因為沒有公開代碼，所以無法納入比較，選取的是當前能夠復現的最強基線。

評估採用了三類指標。第一類是視覺-語言對齊度（ViCLIP分數），衡量生成的影片和文字描述的匹配程度，類似於"這段影片看起來像是在做文字里說的動作嗎"。第二類是物理合理性VQA分數，使用大語言模型Qwen-VL-7B來判斷影片中的互動是否物理上合理，相當於請一個懂物理的人來評分。第三類是用戶研究，邀請23位參與者對四個維度評分：物理合理性（物體對物理的反應是否合理）、接觸質量（接觸的準確性和真實感）、動作自然性（人物動作是否自然）、視覺真實感（整體畫面是否逼真）。每個維度滿分5分。

結果非常清晰：PhyGenHOI在全部指標上都超過了兩個基線方法。在VQA物理分數上，PhyGenHOI獲得0.25，優於AnimateAnyMesh的0.19和4DFY的0.15。在ViCLIP分數上，PhyGenHOI獲得0.30，優於4DFY的0.26和AnimateAnyMesh的0.24。在用戶研究的四個維度上，PhyGenHOI的得分分別為4.33、4.29、4.21和4.04，而兩個基線方法的得分基本在1.4到2.4之間。這種壓倒性的差距表明，用戶能夠非常直觀地感受到PhyGenHOI生成結果的優越性。

定性對比同樣直觀：4DFY經常把同一個物體幻覺成多個，而且人物的動作幅度極小，完全無法傳達踢球或擊打的意圖；AnimateAnyMesh對人和物體都只生成了幅度很小的運動，兩者之間幾乎沒有任何實質性的接觸互動；PhyGenHOI的人物動作幅度大、意圖明確，物體也做出了與動作力度相符的物理反應，軌跡自然、真實。

贊助商廣告

**七、消融實驗：缺少任何一塊都不行**

為了證明框架中每個組件都是不可或缺的，研究團隊還做了一系列"拆件測試"——逐一去掉某個組件，看結果會變得多差。

去掉加窗吸引損失之後，人物完全不知道物體在哪裡，動作雖然自然，但就是打不到物體，就像一個蒙著眼睛揮拳的人，動作流暢卻完全落空。ViCLIP分數從0.30跌到0.23，因為畫面和文字描述嚴重不符。

去掉接觸檢測和重模擬之後，人物能夠靠近物體，但物體對撞擊視而不見，繼續沿著原本的軌跡運動，就像幽靈一樣被人穿過而毫無反應。VQA物理分數跌至0.20，也是所有變體中最低的，因為無視碰撞是最明顯的物理違規。

去掉運動擴散模型（MDM），直接用數學優化來生成人物姿態，人物確實會向物體靠攏，但動作變得非常怪異，骨骼產生不自然的扭曲，看起來像是被強行拉到某個位置，完全不像真實的人類運動。ViCLIP分數降至0.22，因為動作太不自然，與文字描述中正常人類運動的預期相差甚遠。

去掉影片分數蒸餾之後，整體物理邏輯仍然正確，但接觸區域的細節變差，出現明顯的穿插現象，看起來手或腳嵌入了物體內部，視覺質量下降。

去掉MPM模擬，改用簡單的勻速直線運動來代替物體軌跡之後，物體的運動失去了材料物理特性，無法模擬彈跳、變形等真實效果，物理真實感明顯不足。

這五組對比實驗共同說明：PhyGenHOI的每一個組件都在發揮不可替代的作用，缺少任何一個都會造成明顯的質量下降。

**八、可控性與多樣性：同一個動作，不同的變體**

PhyGenHOI還展示了相當好的可控性。研究團隊通過改變物體的初始位置和人物的運動強度，生成了四種不同的揮拳變體：物體在高處時對應高位擊打，物體在低處時對應低位擊打；人物邁步發力時擊打力度更大，人物站立不動時力度較小。四種變體中，人物的動作模式和物體飛出的速度都有明顯的差異，符合人們對不同情境下擊打效果的直覺預期。

贊助商廣告

**九、局限性與未來方向**

研究團隊對自身工作的局限性持非常坦誠的態度，這值得一提。

首先，PhyGenHOI目前只適合處理"衝擊式"互動，也就是一次性接觸引發動量傳遞的場景，比如踢、打、推。對於需要持續施力的互動，比如人把手放在物體上持續推動，或者抱著物體走路，當前框架就不適用了，因為這類場景需要建模持續的力，而非單次衝擊。

其次，加窗吸引損失是把物體質心作為吸引目標，這對球這樣的凸形物體很有效，但對於形狀複雜的物體，可能需要接觸到特定的表面區域，質心目標就不夠精確了。

第三，人物本身在當前框架中仍然是純運動學的，只有物體受到物理模擬約束。人物的皮膚不會在接觸時產生真實的形變，也不會感受到來自物體的反作用力。實現雙向物理耦合——既讓物體受到人的衝擊，也讓人體組織受到物體的反力而形變——是未來工作的重要方向。

這些局限性也指出了這個研究領域未來可以繼續推進的幾條路：擴展到多次連續接觸、擴展到多物體場景、引入人體軟組織模擬等，都是很有價值的探索方向。

歸根結底，PhyGenHOI做的事情，是在"好看"和"真實"之間架了一座橋。以前我們在這兩件事上只能二選一，要麼有漂亮的動作但物體不會真實反應，要麼物體能真實模擬但人的動作又僵又奇怪。PhyGenHOI通過把人和物體賦予不同的驅動邏輯、再用三套協調機制把它們粘合在一起，終於讓這兩件事能夠同時發生。這意味著遊戲角色踢一腳球的樣子會更真實，動畫製作里物體被推倒的過程會更可信，虛擬現實里你伸手拿東西的感覺會更貼近真實。

這項研究距離我們日常生活的應用還有一段距離，畢竟生成一段動畫還需要74分鐘、一張H200顯卡，這不是普通人家裡能有的配置。但技術總是會越來越快、越來越便宜。有興趣深入了解完整技術細節的讀者，可以通過編號arXiv:2605.30268查閱原始論文，或訪問研究團隊的項目頁面觀看完整的動態演示影片。

贊助商廣告

---

Q&A

Q1：PhyGenHOI和普通的3D動畫生成軟體有什麼本質區別？

A：普通3D動畫軟體需要動畫師手動設置每一幀的動作和物體軌跡，而PhyGenHOI只需要輸入文字描述（比如"踢球"），就能自動生成人物動作和物體的物理反應。更關鍵的區別在於，PhyGenHOI用真實的物理模擬引擎來計算物體被踢中後的運動，不是靠視覺"猜測"，因此物體的軌跡符合真實物理規律，而不是看起來像但其實違背常識。

Q2：PhyGenHOI的"物質點方法"（MPM）模擬是什麼意思，和遊戲裡的物理引擎一樣嗎？

A：MPM和遊戲物理引擎的目標類似，都是模擬物體在受力後的運動，但MPM更擅長處理形變，比如軟球被踢扁或泥土被壓出凹痕。PhyGenHOI採用MPM是為了同時處理運動軌跡和材料形變，讓物體的反應更接近真實材料的物理特性，而不只是簡單地"飛出去"。遊戲裡的物理引擎通常更關注實時性，對形變的模擬通常較為粗糙。

Q3：PhyGenHOI生成的動畫只能是男性踢球嗎，能換其他人物和動作嗎？

A：不局限於此。PhyGenHOI的輸入是任意的三維高斯點雲人物和任意物體，搭配任意的文字描述，都可以生成對應的互動動畫。論文中演示了不同體型的人物、多種不同物體（足球、籃球、文件櫃等）和不同動作（踢、揮拳、推等）的組合，系統都能生成物理合理的結果。