浙江大學團隊打造"機器人練兵場"：用3D高保真渲染技術讓AI更好地學會在人群中穿行

這項由浙江大學領導，聯合北京大學、深圳大學、XGRIDS、UDeer AI等機構共同完成的研究，以預印本形式於2026年4月14日發布在arXiv平台，編號為arXiv:2604.12626。有興趣深入了解的讀者可以通過這個編號查閱完整論文。

贊助商廣告

假設你是一位家政服務機器人，今天的任務是穿過客廳把飲料送到沙發邊的主人手邊。客廳里有兩個小孩在玩耍，還有一位老人從臥室緩慢走出來。你必須既不撞到任何人，又要走出一條合理的路線，還要在視覺上正確識別出這些是"人"而非柱子或桌子。這聽起來是人類每天輕鬆完成的事，但對機器人而言，這背後需要大量的"練習"——而練習就發生在模擬器這個"虛擬訓練場"里。

這項研究要解決的核心問題，正是如何讓這個訓練場變得更真實、更有效。研究團隊推出了一套名為Habitat-GS的模擬器，它在原有的Habitat-Sim平台基礎上進行了大幅升級，將場景渲染從傳統的"模型貼圖"方式換成了一種叫做3D高斯潑濺（3D Gaussian Splatting，簡稱3DGS）的新型渲染技術，同時引入了可以真實行走、可以擋路的虛擬人體模型。研究人員希望通過這些改進，讓在虛擬環境中訓練出來的機器人能夠更順利地在真實世界中工作。

一、為什麼機器人的"練兵場"不夠真實

要理解這項研究的出發點，得先聊聊機器人是怎麼學會導航的。直接把機器人放進真實家庭中反覆試錯，代價太高，有時還有安全隱患——畢竟你不希望一個正在學習轉彎的機器人撞上你家的花瓶或者摔跤的奶奶。於是研究者們建造了虛擬的"練兵場"，讓機器人的AI在電腦里先跑上億次，積累經驗後再上崗。

問題是，這個練兵場長期以來用的是一種叫做"網格貼圖"（mesh-based rasterization）的渲染方式。這種方式的原理，有點像用樂高積木拼出一棟房子然後貼上牆紙——從遠處看輪廓還過得去，但走近了就能發現牆面缺乏真實的質感，光線照射也不對勁，鏡子裡的反光也不對，地板上的木紋也是假的。這種視覺上的"廉價感"，在技術上被稱為"仿真與現實之間的視覺差距"（Sim-to-Real gap）。

贊助商廣告

麻煩之處在於，機器人的視覺感知系統在練兵場裡學到的是一套"廉價視覺語言"，一旦放進真實世界，面對真實的紋理、光影、反光，它就會感到困惑，性能大打折扣。這就像你在一個全是簡筆畫的世界裡練習認人，結果到了現實中面對真實的人臉，突然不知所措。

除了場景渲染質量差，還有另一個問題：訓練場裡的"虛擬人"太假了。現有的一些模擬器雖然有人形虛擬體，但它們基本上是用關節鉸接的"機器人偶"來充當，走路動作僵硬，外形粗糙，衣服皺褶、頭髮質感這些細節完全沒有。這讓機器人在練習時缺乏對"真實人類"的視覺感知經驗，到了現實中同樣難以準確識別和預判人類的行為。

工業級別的模擬器（比如NVIDIA的Isaac Sim）雖然已經開始引入3DGS技術來提升視覺真實感，但它的渲染核心是閉源的，需要RTX系列顯卡上的專用RT Core硬體，而這類顯卡在大學實驗室和數據中心裡並不常見——大型數據中心常用的A100、H100顯卡上並沒有RT Core，這讓很多研究團隊無法使用。

正是在這樣的背景下，浙江大學團隊決定從頭設計一套開源的、對標準顯卡友好的高保真導航模擬器。

二、3D高斯潑濺：把現實"撒"進虛擬世界

在深入了解Habitat-GS之前，得先理解這套新渲染技術到底是怎麼工作的。"3D高斯潑濺"這個名字聽起來很奇怪，但原理其實並不複雜。

傳統的3D建模方式是先建出一個由三角形網格構成的幾何體，再往上面貼紋理圖片，就像給泥塑模型塗顏料。而3DGS走的是完全不同的路子：它用數百萬個微小的橢球形"高斯點"來表示一個場景，每個點都攜帶自己的顏色、透明度、大小和朝向資訊。當攝像機從某個角度觀察時，這些"點"會被"潑濺"（splatting）到螢幕上，形成一幅圖像。

這種方式的好處在於，因為每個高斯點都是從真實照片中學習來的，它天然地保留了真實世界裡那些細節：木地板的光澤、玻璃杯上的高光、布沙發的織物紋路。這些效果用傳統方式很難模擬，但3DGS幾乎是"自動"就有了。更關鍵的是，3DGS可以實時渲染，速度足夠快，能支撐機器人AI的高速訓練。

贊助商廣告

研究團隊在Habitat-GS中實現3DGS渲染的核心技術挑戰，在於把兩套完全不同的渲染系統"連通"：傳統的Habitat模擬器依賴OpenGL來顯示畫面，而3DGS的高性能渲染依賴CUDA（英偉達浙江大學團隊打造機器人練兵場用3D高保真渲染技術讓AI更好地學會在人群中穿行的並行計算框架）來完成。這兩套系統就像是兩個不同國家的電力插座，如果暴力轉接，中間的數據來回傳輸會拖慢整個系統。

研究團隊用了一種叫"零拷貝CUDA-OpenGL互操作"的機制來解決這個問題。簡單說，就是讓渲染好的畫面數據從始至終待在顯卡的內存里，不需要來回在CPU和GPU之間搬運，從而實現了近乎無損耗的高效傳輸。每幀畫面中，CUDA先完成3DGS渲染，把顏色和深度資訊寫入顯卡緩衝區，然後通過一個"直通車"把這些數據交給OpenGL的傳感器管線，完成最終的畫面合成。

在實際使用中，一個Habitat-GS場景可以同時包含3DGS資產和傳統網格資產。為了保證兩種類型的物體在畫面里的遮擋關係正確（比如一堵牆擋住了後面的桌子），系統還專門設計了一套深度合成機制，把兩種渲染管線產生的深度圖合併起來，確保視覺上沒有"穿模"等錯誤。

在場景資產的來源方面，研究團隊設計了高度開放的導入接口，支持三類不同來源的3DGS場景：自己用相機拍攝真實場所後重建的場景、公開共享的3DGS數據集（比如InteriorGS室內場景數據集），以及通過生成式AI管線（比如World Labs的Marble工具）直接生成的場景。這種開放性大大降低了獲取高質量訓練場景的門檻。

三、會走路、會擋道的虛擬人：高斯分身的誕生

解決了場景渲染問題，還有另一個更複雜的挑戰：如何讓虛擬人既看起來真實，又能作為真實的障礙物擋住機器人的路。

這個挑戰包含兩個相互關聯但技術上需要分開處理的問題。第一個問題是視覺渲染——讓虛擬人看起來像真人；第二個問題是物理碰撞——讓機器人不能穿過虛擬人的身體。

研究團隊為每個虛擬人角色（在論文裡稱為"高斯分身"或"高斯化身"）提前準備了三樣東西。第一樣是"規範高斯屬性"，也就是這個虛擬人在標準站立姿勢下的全部3DGS數據，包括每個高斯點的位置、顏色、透明度、大小、朝向以及所謂的"蒙皮權重"。蒙皮權重描述的是：當人體某個關節（比如肘關節）彎曲時，附近的高斯點應該隨之移動多少——這就像衣服面料隨著手臂彎曲而自然褶皺的道理。

贊助商廣告

第二樣東西是運動軌跡。研究團隊使用了一個叫GAMMA的運動生成模型，給每個虛擬人生成在場景地圖上的行走路徑。GAMMA能生成符合自然規律的連貫身體動作，讓虛擬人走路、轉身、停頓都顯得自然而不是機器般僵硬。生成軌跡後，會提前計算好每一幀動畫裡各個身體關節的變換矩陣，並保存下來。

第三樣東西是"代理膠囊"。這是一組簡單的膠囊形幾何體，覆蓋在人體骨架的各段骨骼上，用來代表這個虛擬人在空間中占據的物理體積。這些膠囊同樣是提前計算好每幀的位置，運行時直接查表取用。

到了實際運行時，系統用一個高效的CUDA程序，把儲存好的關節變換矩陣應用到高斯點上（這個過程叫"線性蒙皮"，Linear Blend Skinning），讓高斯點跟隨人體姿勢變形，然後和場景高斯點一起渲染出畫面。整個過程不需要運行任何神經網路，速度極快。

在導航層面，每一個模擬時間步，系統都會把當前所有虛擬人的代理膠囊位置注入到導航網格（NavMesh）中，作為臨時障礙物。導航網格是機器人用來規劃路線的地圖，注入膠囊後，地圖上對應位置就被標記為"不可通行"。當機器人試圖往前走時，系統會檢測它的位置和所有代理膠囊是否有重疊，如果有，就截斷這次移動，防止機器人"穿進"虛擬人的身體裡。

這套機制巧妙地實現了視覺與導航的分離：3DGS負責讓虛擬人看起來真實，代理膠囊負責讓虛擬人在物理上真實存在。兩者協同工作，讓機器人既能"看見"人，也能"碰到"人。

四、系統如何融入Habitat生態：無縫對接

Habitat-GS的另一個重要設計目標是完全兼容現有的Habitat生態系統，讓研究者不需要從頭學一套新工具。

在場景初始化階段，模擬器會自動從場景描述文件里讀取高斯化身的配置，並實例化所有角色。每一個模擬步驟觸發時，化身的姿勢更新會自動同步，同時影響視覺渲染和導航網格兩個層面。傳感器輸出的RGB-D圖像（彩色圖加深度圖）和傳統網格渲染器產出的格式完全一致，這意味著現有的Habitat-Lab任務（比如標準的PointNav點目標導航任務）可以直接在3DGS場景里運行，無需任何修改。

贊助商廣告

針對需要感知人類的任務，研究團隊額外提供了兩個查詢接口：一個可以查詢機器人到最近虛擬人的距離，另一個可以查詢某次移動是否會被虛擬人阻擋。這兩個接口是設計獎懲系統的基礎——訓練時如果機器人靠近了虛擬人的身體，系統可以給它一個懲罰信號，讓它學會主動保持安全距離。

五、實驗驗證：高保真訓練場到底有沒有用

研究團隊從三個角度對Habitat-GS進行了驗證。

第一個角度是用AI來評估場景質量。他們讓谷歌的Gemini 3.0 Pro大模型充當"視覺評審"，對3DGS渲染和網格渲染各自產出的240張截圖進行打分，打分維度包括渲染質量、真實感和場景多樣性，每個維度滿分10分。為了防止模型被渲染方式的線索影響，每次評審的10張圖里混入了5張3DGS截圖和5張網格截圖，且順序隨機打亂。結果3DGS場景在三個維度上全面領先：渲染質量均分6.99對3.65，真實感5.66對3.98，場景多樣性8.47對7.08。這說明3DGS場景確實提供了更高質量、更多樣化的訓練素材。

第二個角度是點目標導航實驗，驗證高質量場景是否真正有助於訓練出更強的導航AI。研究團隊設計了五種不同的訓練配置，分別是全部用100個網格場景、全部用100個3DGS場景，以及按8:2、5:5、2:8三種比例混合兩類場景，總訓練步數固定在5000萬步。最終每種配置的AI都在20個網格測試場景和20個3DGS測試場景上接受評估，而這兩組測試場景來自完全不同的物理空間，確保評估的是跨域泛化能力。

實驗結果揭示了三條清晰的規律。只用網格場景訓練的AI收斂最快，但視覺泛化能力最弱，在GS測試場景上的成功率只有61.3%，遠低於其他配置；只用GS場景訓練的AI在GS測試上能達到70.7%的成功率，但由於場景更真實、更複雜，訓練收斂得更慢，在5000萬步內還沒跑完，導致在網格測試上的表現反而不如純網格訓練；而混合訓練的配置（尤其是20%網格+80%GS的組合）在GS測試上達到了79.6%的成功率，同時在網格測試上的表現與純網格訓練相當，展現出最強的綜合泛化能力。

贊助商廣告

研究團隊進一步把所有配置都訓練到1億步（充分收斂），再次對比結果。此時的分析更為清晰：純網格訓練的AI在網格測試上SPL（路徑效率指標）最高，但在GS測試上全面落後，體現出"只會在訓練場發揮"的局限性；純GS訓練的AI在GS測試上表現優秀，而且其在網格測試上的表現也只比純網格訓練稍差，說明GS場景學到的視覺魯棒性能夠向下兼容；最佳策略依然是混合訓練，50%網格+50%GS和20%網格+80%GS兩種配置在綜合跨域表現上名列前茅。這證明兩種場景類型是互補的，而非相互替代：網格場景提供了高效的幾何導航基礎訓練，GS場景則注入了視覺多樣性和魯棒性。

第三個角度是化身感知導航實驗，驗證高斯化身是否能幫助訓練出真正懂得在人群中導航的AI。研究團隊先用5000萬步在靜態場景里預訓練一個基礎導航AI，然後用500萬步（僅為預訓練的10%）在含有3個行走高斯化身的場景里微調，對比有化身和無化身兩種訓練配置。微調後的AI在兩種測試環境下接受評估：20個含網格人形化身的網格測試場景，以及20個含高斯化身的GS測試場景。

評估指標除了標準的成功率和路徑效率外，還新增了碰撞率（CR，發生碰撞的步驟占比）和個人空間侵入度（PSI，AI進入每個化身1米個人空間圓的平均程度）。在GS測試場景上，經過化身訓練的AI碰撞率從6.713%降至4.746%，PSI從0.092降至0.077，提升效果明顯。更有趣的是，這種能力還能遷移到更低質量的網格測試環境：碰撞率從2.521%降至2.342%，PSI從0.075降至0.068。這說明AI從高保真高斯化身身上學到的感知能力（識別人體形狀、預判行走方向、估計安全距離）是真實可靠的技能，而不是僅對高保真視覺有效的"偶然經驗"。

研究團隊還專門設計了一個人類追蹤導航任務（TrackNav），讓AI在沒有固定終點的情況下，持續跟隨一個移動的虛擬人，保持在1.2米到2.5米的跟隨距離範圍內，始終保持目標在視野前方，且從目標身後跟隨而不是從側面或正面。這個任務測試的是更複雜的長時程人類感知導航能力。對比實驗顯示，用網格場景和網格化身訓練的AI雖然追蹤率更高（平均28.09%對24.13%），但碰撞次數高達平均11.93次；而用GS場景和高斯化身訓練的AI碰撞次數僅為平均5.68次，安全性超出一倍以上，且在GS測試場景上的追蹤率反而更高。在真實部署場景中，一個頻繁與人碰撞的追蹤機器人是不可接受的，因此高斯化身訓練出的AI具備更大的實際應用價值。

贊助商廣告

六、系統效率：快到足以支撐大規模訓練

最後，研究團隊對系統的渲染性能和顯存占用進行了基準測試，確認高保真渲染不會大幅拖慢訓練速度。測試在NVIDIA RTX 4090顯卡上以256×256解析度進行。

作為參照，傳統網格渲染在典型場景下能跑出163.8幀每秒（FPS）的速度。3DGS方面，場景規模為30萬個高斯點時能達到159.2 FPS，100萬高斯點時為120.9 FPS，300萬高斯點時為82.6 FPS，500萬時降至51.5 FPS，700萬時為44.5 FPS。對於強化學習訓練而言，超過50 FPS就足以支撐高效的並行訓練，因此500萬高斯點以內的場景都處於可用範圍。

在加入化身後，1到2個化身的場景仍可維持75到94 FPS，5個化身時為57.7 FPS，10個化身時下降至24.7 FPS。考慮到大多數導航訓練場景中不需要10個以上的同時行動化身，系統的擴展性對典型應用而言是足夠的。顯存方面，隨場景和化身數量線性增長，具有較好的可預測性，便於研究者提前規劃資源。

整個系統以開源形式發布，完全兼容Habitat生態的任務、訓練和評估接口，不依賴RT Core等特殊硬體，在配備標準CUDA顯卡的機器上即可運行。

當然，Habitat-GS也有其明確的局限性。它的核心設計原則是"視覺與導航分離"：3DGS負責視覺，NavMesh負責導航。這種分離雖然解決了3DGS缺乏明確幾何表面的問題，但也意味著物理交互只能達到導航級別的避障，無法支持力學層面的接觸——比如機器人推開一把椅子或者抓取桌上的杯子。3DGS本質上是一堆各自獨立的橢球體，沒有剛體屬性，也沒有拓撲連接，因此Habitat-GS目前的能力邊界是導航任務，操作類任務暫不在其覆蓋範圍之內。研究團隊也坦誠地指出，將支持擴展到物理操作領域需要與物理引擎進行更深度的整合，這是一個明確的未來方向。

說到底，Habitat-GS做的事情可以用一句話概括：讓機器人的"練兵場"更像真實世界。傳統練兵場用的是廉價的簡筆畫場景和粗糙的機器人偶，訓練出的機器人一旦踏入真實世界就容易"水土不服"；而Habitat-GS用高保真的3DGS場景和栩栩如生的高斯化身，讓機器人在訓練階段就接觸到接近真實水準的視覺環境和人類存在，習得更具泛化能力的感知與行為策略。實驗數據也確認了這條路是通的。

贊助商廣告

對於普通人而言，這項研究意味著未來的家用服務機器人、醫院導航機器人、商場引導機器人，在訓練階段就能接受更充分的"人群穿行"練習，上崗後面對真實人群時會更加從容——不會突然"楞住"，也不會莽撞地撞上人。這個研究離真正讓機器人進入普通家庭又近了一步，儘管還有很長的路要走。

如果你對技術細節感興趣，完整論文可以通過arXiv編號2604.12626查閱，所有代碼和資產也以開源形式發布在浙江大學3DV研究組的主頁上。

Q&A

Q1：Habitat-GS和普通機器人模擬器有什麼區別？

A：普通機器人模擬器（如Habitat-Sim）使用傳統網格貼圖渲染場景，視覺效果較為粗糙，虛擬人物形態也很不真實。Habitat-GS用3D高斯潑濺技術渲染場景，視覺上更接近真實照片質量，同時引入了能真實走路、穿衣細節清晰的高斯化身人物，讓機器人在更接近真實世界的環境裡訓練。

Q2：3D高斯潑濺技術是什麼原理，為什麼渲染效果更好？

A：3D高斯潑濺用數百萬個微小橢球形"點"表示場景，每個點攜帶從真實照片學來的顏色和光照資訊，能自然重現真實材質的光澤、反光、紋理等細節。傳統網格方法需要手動製作模型再貼圖，往往缺乏這些細節，視覺上顯得偏"假"。

Q3：混合訓練策略為什麼比單純用一種場景訓練效果更好？

A：單純用網格場景訓練，機器人學得快但視覺泛化弱，換到真實感場景就表現差；單純用3DGS場景訓練，視覺泛化好但場景更複雜，收斂慢，相同計算預算下還沒練到位。混合兩者，網格場景先打好基礎的幾何導航能力，GS場景再強化視覺魯棒性，兩者互補，綜合表現最優。