從鑽木取火到駕馭電力,從結繩記事到資訊互聯,每一次技術躍遷都深刻地改變著人類的生存方式和認知邊界。如今,人工智慧正以前所未有的速度發展,具身智能作為人工智慧的重要載體,正逐漸從科幻走向現實,叩響了智能進化的新篇章。
它們能否像人類一樣感知、思考、行動?它們將如何與人類共存?這不僅是技術層面的挑戰,更是對「智能」本質的深刻拷問。卡爾·波普爾說,「我們所有的知識都只是猜測」,我們對具身智能的理解也同樣如此。我們試圖用機器來模擬人類的智能,但在這個過程中,也在不斷地反思和理解人類自身的智能是如何運作的。這是一種雙向的啟發和促進,人工智慧的發展,不僅推動了技術進步,也促進了人類對自身的認知。
對智能邊界的不斷探索,驅動著技術的革新。基於對未來具身智能的深刻洞察,2025 CES 期間,NVIDIA發布了一系列通用機器人基礎模型、數據管線和仿真框架,旨在加速下一代人形機器人的開發進程。
師法自然:「合成數據」讓機器人「入門」
亞里士多德說「模仿是人類學習的第一天性」。人類的學習方式是複雜的,但模仿無疑是其中最原始、最有效的方式之一。「鸚鵡學舌」、「有樣學樣」,這些看似簡單的行為,蘊含著深刻的智慧。從嬰兒蹣跚學步模仿父母的動作,到學徒模仿工匠的技藝,模仿貫穿了我們學習和成長的始終。模仿學習正是借鑑了這一自然規律,賦予機器人從示範中學習的能力。它避免了傳統機器人訓練中繁瑣的編程和大量的試錯,使機器人能夠更快速、更直觀地掌握新技能
傳統的強化學習,雖然能夠讓機器人在與環境的交互中不斷學習和優化,但往往需要大量的試錯和精巧的獎勵函數設計,效率較低。而通過用於合成運動生成的NVIDIA Isaac GR00T Blueprint,開發者只需少量人類示範,就能輕鬆生成海量的合成數據集,以便通過模仿學習訓練人形機器人。
NVIDIA Isaac GR00T Blueprint中的GR00T-Teleop和GR00T-Mimic,正分別從不同的角度針對不同的應用步驟提供解決方案。
GR00T-Teleop工作流側重於實時的遠程操作和學習,適用於需要人類干預或指導的複雜任務。它利用VR/AR頭顯、手柄等空間計算設備(Apple Vision Pro),為操作者創建沉浸式的虛擬環境。人類操作者佩戴這些設備後,可以在虛擬環境中以第一人稱視角控制機器人「化身」,身臨其境地操作機器人。操作者的動作會被精確捕捉,並通過高速網路傳輸到機器人身上,使機器人能夠實時復現操作者的動作。這種方式不僅降低了機器人操作的門檻,且無需專業的編程知識,同時也為機器人學習複雜技能提供了有效的途徑。
GR00T-Mimic的核心技術則結合了多種前沿方法,旨在通過精確的動作模仿和增強學習能力,實現更自然的行為生成和高效的環境適應。首先,GR00T-Mimic採用了先進的深度學習模型來進行軌跡建模,通過訓練循環神經網路(RNN)、長短期記憶網路(LSTM)以及Transformer等模型。運用GR00T-Mimic能夠有效學習人類動作的軌跡和規律,進而生成新的動作軌跡。
此外,隨著其對人體運動理解的深入,圖神經網路(GNN)被引入用於建模人體骨骼的運動關係,從而使得生成的動作更加自然和精確。為了進一步優化軌跡的質量,GR00T-Mimic還融合了強化學習方法,能夠根據任務需求對生成的動作進行自我調整和改進,提高執行精度。
如果從工作流的角度劃分,GR00T-Teleop 工作流如同一位細緻的抄寫員,忠實地記錄下人類動作的每一個細節,仿佛是編寫一部關於「人」的百科全書的序章。
在完成這份初步的「抄寫」後,接下來的任務是對這些記錄進行整理、擴展和深化。GR00T-Mimic 工作流承擔了這一重任,它將有限的人類示範轉化為龐大的數據集。在這一過程中,「湧現」的現象逐漸顯現,簡單的規則和模式相互作用,產生了複雜多樣的行為。
之後,利用基於 NVIDIA Omniverse 和 NVIDIA Cosmos 平台構建的GR00T-Gen 工作流,將數據集擴展到指數級別。這一階段,不再是對已有資訊的簡單複製,而是進入了創造與演化的全新階段。
最終,這些數據集將會被注入到 NVIDIA Isaac Lab,成為機器人學習的「教科書」。此時,機器人不再是被動執行指令的工具,而是開始主動適應世界並實現進化,最終掌握了在現實世界中執行複雜任務的能力。
前景上看,GR00T Blueprint及相關技術將在多個行業中展現巨大潛力。如幫助製造業提高生產效率,物流業提升自動化和末端配送能力,醫療領域提升手術精度和護理質量,建築業提高施工效率和安全性,服務業改善用戶體驗。此外,GR00T Blueprint將推動機器人技術的標準化和模塊化,降低開發成本,縮短開發周期,為機器人應用的普及與創新提供強大支持。
虛實相生:Cosmos讓AI更靠近「現實宇宙」
「存在即合理」,這是黑格爾的名言。然而,對於在理解和交互物理世界的物理AI而言,僅僅「存在」是不夠的,還需要能夠理解和模擬「存在」的數據。真實世界的數據固然重要,但其採集、標註和使用面臨諸多挑戰,如同柏拉圖《理想國》中描述的洞穴囚徒,我們所能接觸到的只是投射在牆壁上的影子,而非事物的本質。
一直以來,海量的數據需求、繁瑣的數據標註、以及難以獲取的極端場景......這些挑戰就像一道道屏障,阻礙著物理AI的發展。NVIDIA 在CES 2025期間發布的Cosmos,正打破這些屏障,為物理AI的發展注入新的活力。
Cosmos並非簡單地提供現成的數據,而是構建了一個強大的平台,它基於世界基礎模型(WFM),能夠生成高度逼真的合成數據,就像創造了一個虛擬的「宇宙」,讓AI系統在這個虛擬世界中自由探索和學習。
那麼,Cosmos是如何構建這個「宇宙」的呢?其核心在於其世界基礎模型(WFM),它們是經過海量數據訓練的生成模型,能夠理解和模擬物理世界的各種規律,例如物體的運動、碰撞、光照、材質等等。有了這些「定律」,Cosmos就能創造出各種各樣的虛擬場景,從簡單的物體運動到複雜的交通環境,應有盡有。Cosmos使用WFM可以從Omniverse平台上開發的可控3D場景中生成逼真影片。「使用Cosmos 模型從NVIDIA Omniverse™ 平台上開發的可控3D 場景中生成逼真影片。同時,開發者無需從零開始構建複雜的物理模擬環境,大大降低了開發難度。
有了「宇宙」,還需要高效的「信號」來傳遞資訊。Cosmos可以將圖像和影片轉換為高保真度的「數據令牌」。這種轉換不僅提高了數據處理的效率,還有助於模型更好地理解和處理視覺資訊。NVIDIA Cosmos Tokenizer 是先進的可視化tokenizer(Tokenizer是預處理文本數據的重要步驟,它將連續的文本切分成具有實際意義的詞彙或子詞序列。),可將圖像和影片轉換成token。與當前領先的tokenizer 相比,其總壓縮率提高了8 倍,處理速度提高了12 倍。
要讓「宇宙」高效運轉,還需要強大的「引擎」。Cosmos利用NVIDIA的GPU加速技術和NeMo Curator驅動的數據處理管線,構建了高效的數據處理和策劃管道。使用NVIDIA 的計算平台,Cosmos可以在14天內處理、整理和標記2000萬小時的影片,而使用CPU則需要3年以上。「NVIDIA NeMo™ Curator 驅動的NVIDIA AI 和CUDA® 加速數據處理管線,使開發者能夠使用NVIDIA 的計算平台 在14 天內處理、整理和標記2000 萬小時的影片,而如果單純使用CPU 則需要3 年以上。
Cosmos不僅創造了「宇宙」,還提供了「實驗室」,供AI模型進行各種實驗和研究。開發者可以在WFM的基礎上構建自定義模型,使用Cosmos進行強化學習以改進模型,或者測試模型在特定仿真場景中的表現。Cosmos可以用於預測與「多元宇宙」模擬,生成AI模型所有未來可能實現的結果,幫助其選擇最佳和最準確的路徑。
事實上,Cosmos也並非孤立存在,它能與NVIDIA Omniverse、NVIDIA NeMo等技術緊密集成,形成了一個完整的物理AI開發生態系統。這就像是「宇宙」的不同組成部分,相互關聯、相互作用,共同構成一個完整的體系。
有了這個強大的「宇宙」,物理AI的應用前景變得更加廣闊:自動駕駛汽車可以在虛擬的道路上行駛數百萬英里,機器人可以在虛擬的工廠里進行各種操作,而無需擔心安全和成本問題。
目前,交通運輸領域的領先企業也在使用Cosmos構建適用於自動駕駛汽車的物理AI。Agility的首席技術官Pras Velagapudi表示,Cosmos能夠生成和增強逼真的場景,並利用這些場景訓練模型,而不需要採集那麼多昂貴的真實數據。「藉助Cosmos 的文本、圖像和影片到『世界』的能力,我們能夠在各種任務中生成和增強逼真的場景並利用這些場景訓練模型,而不需要採集那麼多昂貴的真實數據。」
寫在最後:賦予智能無限的進化空間
NVIDIA Isaac GR00T、Omniverse 和 Cosmos 正構建一個前所未有的生態系統,推動物理 AI 和人形機器人領域實現巨大飛躍。從波士頓動力和 Figure 等行業領軍者率先採用NVIDIA Isaac GR00T 並展示相關成果可以看出,人形機器人正加速走出實驗室,走向現實應用。
事實上,在科學研究中,演繹與歸納方法是兩種重要的推理方式,這位為人類理解世界提供了不同的路徑。演繹推理從一般性原則出發,通過邏輯推導得出具體結論;而歸納推理則從個別事實出發,通過觀察總結出普遍性規律。
遵循規律,基於對物理世界規律的理解(例如運動學、動力學),通過 Cosmos 和 Omniverse 構建虛擬環境,進行「演繹」,推導出機器人在不同場景下的行為模式。通過 Isaac GR00T 和實際機器人進行實驗,收集數據,進行「歸納」,驗證和修正之前的推論,並進一步完善模型。這種「演繹-歸納」的循環往復,不斷推動著機器人技術的進步,使其更加精確、智能。它也類似於控制論中的反饋機制,通過不斷地比較實際輸出和期望輸出之間的差異,進行調整和優化,最終達到控制目標。
這種不斷自我完善的能力,賦予了它們無限的成長空間,也預示著機器人智能的未來擁有無限的可能。
這是一種進化,是矽基生命演化的另一種形式。