在工業生產與勞動力市場的複雜交織中,一組觸目驚心的數據揭示了行業深層的痛點。製造業因質量缺陷每年損失高達7萬億美元,280萬名勞動者因工傷和職業病失去生命,歐盟在公共安全領域投入了3000億美元。
儘管2024年預計將有51.4萬台工業機器人投入使用,但到2030年,工業領域仍面臨5000萬勞動力短缺的嚴峻挑戰。這些數據反映出工業效率、安全與人力資源之間錯綜複雜的矛盾,也預示著傳統生產方式亟需轉型升級。
截取自NVIDIA官方資訊
正是在這樣的背景下,技術創新成為推動變革的關鍵力量。
在SIGGRAPH 2025大會上,NVIDIA系統性地發布了一系列技術和產品,旨在構建一個完整的物理AI全棧式解決方案,其戰略布局可概括為兩大核心支柱:面向機器人研發的Omniverse/Cosmos生態系統,以及服務於城市與工業基礎設施的Metropolis平台。
Omniverse更新「庫 模型」:構建具身智能的「虛擬訓練場」
截取自NVIDIA官方資訊
本次的關鍵更新之一,是全新的Omniverse NuRec 3D Gaussian Splatting (3DGS) 庫。其利用NVIDIA RTX光線追蹤能力,能將來自LiDAR、RGB-D相機等傳感裝置的原始點或圖像數據,在極短時間內重建為高精度、可交互的3D高斯模型。
相比傳統基於網格(mesh)或體素(voxel)的建模方式,3DGS能在保持幾何精度和渲染效率的同時,實現從數據到數字孿生的極速轉換。
可以理解,其是為智能體提供的逼真且具備物理屬性的虛擬沙盤,或者是「從數字到物理世界」的雙向翻譯。利用3DGS,可極大加速了數字孿生的構建,且為後續的合成數據生成(Synthetic Data Generation)和遷移學習(Transfer Learning)奠定基礎。
截取自NVIDIA官網
為了讓這個「虛擬訓練場」更具開放性,NVIDIA創新了在機器人控制和強化學習中常用的MuJoCo(MJCF)與OpenUSD之間的互操作性。通過OpenUSD這一「通用場景描述」語言,可讓超過25萬名MJCF開發者無縫地將其機器人模型和控制策略集成至Omniverse中。
緊隨其後的Isaac Sim 5.0和Isaac Lab 2.2等開源框架,便可以利用Omniverse的強大渲染和物理引擎,進行大規模並行強化學習訓練。這些框架集成了新的機器人與傳感器模型,並通過領域隨機化(domain randomization)等技術,顯著減小了「仿真-現實」(sim-to-real)間的遷移鴻溝。
對於行業而言,通過在虛擬環境中進行大規模並行測試,企業能夠在物理機器人製造之前,大幅縮減昂貴的研發周期與成本。
而對開發者來說,他們可以安全地模擬和訓練極端或危險的場景(corner cases),從而提高最終部署在現實世界中的智能系統的魯棒性和安全性。
這些技術利好已經在行業領先企業的應用中得到驗證。Amazon Robotics、Boston Dynamics、Figure AI和Hexagon等巨頭,正利用Omniverse平台在虛擬環境中加速其機器人的訓練與驗證。
「雙輪」驅動物理AI:Cosmos Reason「理解決策」 Transfer-2「高效合成」
Cosmos世界基礎模型(WFM),可以理解為是NVIDIA物理AI技術棧中的「認知引擎」。其能為自動化系統賦予理解、生成和決策的能力,實現了AI從單純的模式識別,向具備物理世界常識和複雜推理能力的跨越。
其中,此次更新的Cosmos Reason可理解為物理AI的「理解者」和「決策者」,而Cosmos Transfer-2則是物理AI的「數據工廠」和「訓練數據提供者」。
Cosmos Transfer-2模型專注於合成數據生成,其通過簡化提示詞,支持多模態輸入,能高效地創建高質量、物理精準的訓練數據。
在模型性能優化方面,其精簡版本通過創新的「單步蒸餾(single-step distillation)」技術,可將原本繁瑣的70個步驟計算過程壓縮為一步。
這一優化可降低模型推理的計算量和延遲,因此,模型能夠在NVIDIA RTX PRO Blackwell平台、邊緣、甚至本地設備上以極高效率運行,極大提升數據生成的吞吐量,減少了對大規模雲端資源的依賴。
另一邊,NVIDIA Cosmos Reason作為一款開源、可定製70億參數推理視覺語言模型(VLM),其設計目標是賦予機器人和視覺智能體高級的推理能力。核心突破在於,超越了傳統VLM僅限於語義標籤的理解,能夠進行多步驟任務分解、常識推理以及對物理世界的深度理解。
在機器人規劃中,其能作為視覺語言行為(VLA)模型的大腦,將高層指令(如「拿起杯子並放到桌子上」)轉化為可執行的低層任務序列。
在影片分析中,Cosmos Reason可用於上下文理解和時間事件推理,實現智能化的影片搜索與總結,以及自動化監控。
目前,Magna的自動配送平台,通過集成Cosmos Reason,顯著增強了其對複雜城市環境的理解能力。
從行業角度看,Cosmos Reason使得智能體能夠從被動執行者轉變為主動決策者,擴展了機器人在複雜、動態環境中的應用範圍,實現了決策與執行的一體化。另一方面作為開源模型,其允許開發者針對特定行業(如工業製造、醫療)進行微調,為其創造出高度專業化的具身智能應用,提供了可定製的「認知引擎」。
此外,該模型還能為傳統工業視覺和自動化系統帶來了「認知升級」,使得傳統自動化系統能夠更好地理解工作流程和環境,提高生產效率和安全性。
Metropolis:統一的邊緣到雲部署架構
Metropolis是NVIDIA推出的包含多應用框架的開發者平台,可以理解為是一個大型的、綜合性的「智能影片開發基地」。在這個「基地」里,NVIDIA提供了各種專業工具(如TAO Toolkit)和預製的工作流程/結構(如DeepStream SDK),這些專業工具和工作流可幫助開發者更高效、更規範地完成特定的開發任務。
Metropolis平台的核心體現在其技術集成層面。
具體而言,Metropolis將Cosmos Reason VLM與VSS Blueprint 2.4深度融合,使智能攝影機等邊緣設備能夠進行上下文影片理解和時間事件推理,從而提升交通監控、公共安全等場景的智能化水平。
這些技術不僅減少了對大規模標註數據的依賴,也提高了模型的泛化能力。
硬體層面上,Metropolis的所有組件均可在NVIDIA全線硬體平台上運行,包括高性能的RTX PRO Blackwell GPU、桌面的DGX Spark以及低功耗邊緣設備Jetson Thor。
這種全線覆蓋的硬體兼容性,為開發者提供了從高算力雲端到低功耗邊緣設備的統一開發和部署架構,可實現AI應用在不同計算環境中的無縫遷移。
對行業從業者而言,Metropolis提供的是一個工業化、標準化的開發生產線,告別了以往的碎片化集成,顯著提升了研發效率和項目可複製性。TAO Toolkit 6中的基礎模型、自監督學習和知識蒸餾,大幅降低了數據標註依賴和模型訓練成本,同時優化了邊緣部署模型的泛化與性能。
更重要的是,其實現了從雲到邊全線硬體的統一開發部署,真正做到「一處開發,處處運行」,極大簡化了AI應用的規模化落地和維護。Cosmos Reason VLM等技術則將智能攝影機從「識別」提升到「理解」和「推理」,帶來更深層次的場景洞察。
技術支持「閉環」:從基礎設施到生態體系
當然,AI的創新離不開強大的計算基礎設施和開放的開發者生態,這正是技術能夠快速疊代並實現大規模應用的根本保障。
在SIGGRAPH大會上,NVIDIA發布了全新的NVIDIA RTX PRO Blackwell伺服器和DGX Cloud服務,為物理自動化系統的開發與部署提供了高性能的計算支持。RTX PRO Blackwell伺服器以其強大的並行計算能力,統一支持仿真和訓練等多樣化工作負載,是實現大規模仿真與模型訓練的關鍵基礎。與此同時,DGX Cloud作為託管雲服務,有效簡化了大規模應用的部署與管理,使開發者能夠專注於技術創新,而無需為基礎設施的維護耗費過多精力。
軟硬體協同和雲邊一體的架構,為物理AI的快速發展築牢了堅實後盾。NVIDIA此舉帶來了雙重利好:一方面,通過OpenUSD等開放標準,NVIDIA正積極成為工業元宇宙和數字孿生領域的「技術中樞」,這大幅降低了行業開發門檻,提升了系統間的互聯互通,實現了生態整合和行業標準化;另一方面,從GPU硬體到軟體庫,再到雲服務,NVIDIA提供了完整的全棧技術支持,極大降低了開發者在物理AI研究與商業化應用過程中的複雜度。
整體來看,這一系列舉措不僅提升了技術能力,也推動了物理AI產業的生態繁榮與創新加速。
具體而言一方面,NVIDIA通過OpenUSD等開放標準,正積極成為工業元宇宙和數字孿生領域的「技術中樞」,這對於整個行業來說,意味著更低的開發門檻和更強的互聯互通性,實現了生態整合與行業標準化。
另一方面,從GPU硬體到軟體庫、再到雲服務,NVIDIA提供了一整套完整的工具,大大降低了開發者進行物理AI研究和商業化應用的複雜性,提供了全面的全棧式技術支持。
值得注意的是,目前多家企業加快推動物理 AI發展,並採用NVIDIA的技術產品。Accenture與 Belden 協作開發智能虛擬圍欄,利用 NVIDIA Omniverse 平台和 Metropolis 構建模擬;Avathon使用 NVIDIA Metropolis 的 VSS 藍圖,為製造業和能源設施提供實時見解,其影片智能產品被 Reliance British Petroleum Mobility Limited 用於加油站建設;DeepHow開發 「Smart Know-How Companion」,利用 Metropolis VSS 藍圖轉換關鍵工作流,Anheuser-Busch InBev 藉助其平台優化培訓。麥視通(Milestone Systems)通過 「哈夫尼亞計劃」 創建電腦視覺資料庫,為物理 AI 開發者提供定製化 VLM 訪問,利用相關 NVIDIA 模型助力開發。Telit Cinterion將 NVIDIA TAO Toolkit 6 集成到基於 AI 的視覺檢測平台,支持多模態 AI 和高性能推理。
圖片由 Accenture 和 Belden 提供
寫在最後
如果說過去的大語言模型和視覺模型主要通過海量文本和圖像數據學習抽象的模式,那麼物理AI所追求的,則是在一個可交互、環境精準的虛擬世界中,讓智能體習得具身化的認知。
對NVIDIA來說,可以理解其Omniverse提供了「世界」,Cosmos提供了「認知」,Metropolis提供了「具身」,共同構成了一個完整的演進路徑。
這種全棧式方法論的必然性在於,物理AI的真正實現,需要一個高度逼真且可控的物理仿真環境,和能夠進行複雜推理並理解物理世界的認知引擎,以及一套能夠將智能無縫部署到現實世界的工程體系。
NVIDIA正將這些關鍵要素整合在統一的生態中。然而,其深層意義或許在於,NVIDIA正試圖彌合數字世界與物理世界之間的鴻溝。
或許,我們正站在下一個「奇點」之上,見證一個由物理AI驅動的智能自主時代。