當你把AI編程智能體放進一個配備了機械臂、計算資源,並給予充裕Token預算的實驗室,讓它們負責訓練機器人完成各類任務時,會發生什麼?研究結果顯示,這些智能體能夠自主制定訓練方案,使機器人成功學會剪斷扎帶,甚至將GPU精準插入主板上的細小插槽。
這一展示AI如何以全自主方式實現機器人訓練自動化的研究成果,源於一個全新的智能體框架——ENPIRE。這是一種包裹在AI模型外層的軟體框架,能夠使模型調用各類工具,同時提供記憶、上下文管理、約束控制和反饋循環等能力。ENPIRE由英偉達
GEAR(通用具身智能
體研究)實驗室的機器人研究人員,聯合卡內基梅隆大學和加州大學伯克利分校的合作團隊共同開發。
英偉達AI總監Jim Fan在領英上寫道:"我們NVIDIA GEAR實驗室的一部分,現在已經能在夜間不間斷地自我疊代,我們只需每天早上查看報告就好。"
Fan還調侃地描述了這種AI主導的機器人訓練願景:"我們都去度假,Jensen都不會察覺到異常。"這裡的Jensen指的是英偉達創始人兼CEO黃仁勛。他同時表示,團隊將開源所有相關代碼,讓任何人都能在家中搭建屬於自己的"自運行機器人實驗室"。
ENPIRE框架包含四個核心模組,分別負責對任務進行自動重置與驗證、優化指導機器人行為的策略、在多台並行運行的物理機器人上評估這些策略,以及通過分析日誌、讀取研究論文、改進訓練架構和算法代碼來處理故障。更多技術細節已收錄於2026年6月16日發布的研究論文中。
該框架在三款不同的AI編程智能體上進行了測試,分別是:搭載GPT-5.5的OpenAI Codex、搭載Opus 4.7的Anthropic Claude Code,以及搭載Kimi K2.6的月之暗面Kimi Code。多組編程智能體團隊各自獨立開發了不同的機器人訓練算法,在真實場景中進行測試,並在多輪自主測試循環中保留能有效提升整體成功率的改進方案。
AI主導機器人訓練的成果與局限
配備ENPIRE框架後,AI編程智能體為機器人自我疊代訓練制定的策略,在多項操作任務中達到了99%的成功率。這些任務涵蓋標準"Push-T"測試(要求機器人將T形積木移動至桌面目標位置)、在插針盒中整理插針、綑紮與剪斷扎帶,以及將GPU插入主板後再拔出以重置下一次測試。
其中最具潛力的成果來自插針與整理任務。在該訓練場景中,AI編程智能體達到近100%成功率的速度,甚至超過了由眾多同一批人類研究員開發的"前沿人機協同方法"。
實驗還表明,由多達八個AI編程智能體組成的團隊,在機器人訓練中達到高成功率的速度,明顯快於四智能體團隊或單智能體單獨工作的情況。例如,八智能體團隊在兩小時內使Push-T任務達到了99%的成功率,而四智能體團隊需要三小時,單智能體則需要近五小時。
然而,人類研究員也發現了將AI編程智能體作為自主機器人訓練者時存在的關鍵局限。當編程智能體忙於"讀取日誌、編寫代碼、調試或等待語言模型響應"時,機器人往往處於閒置狀態。規模較大的智能體團隊還會花費更多時間相互匯總想法,而非實際操控機器人;在啟動並行訓練任務時,智能體有時也未能充分利用可用的計算資源。
更多智能體與機器人協同運作所帶來的更快成功率,同時也意味著更高的Token消耗——這在當前時機下尤為值得關注,因為Anthropic等AI開發商正在考慮調整定價策略,這將大幅提升使用AI服務的Token相關成本。
憑藉AI浪潮帶來的充裕資金,英偉達正積極推動其物理AI願景,多項機器人相關計劃同步推進。5月31日,公司宣布與中國知名機器人公司宇樹科技達成合作,為開發通用AI機器人的研究實驗室提供"參考人形機器人"平台。
在6月初旋風式訪問韓國期間,英偉達創始人兼CEO黃仁勛還會見了現代汽車集團執行董事長鄭義宣,雙方就擴大AI機器人量產規模展開討論。現代汽車集團旗下擁有美國機器人公司波士頓動力,該公司以四足"機器狗"Spot廣為人知,目前正致力於推動Atlas人形機器人的商業化落地。
Q&A
Q1:ENPIRE框架是什麼?它有哪些核心功能?
A:ENPIRE是英偉達GEAR實驗室聯合卡內基梅隆大學和加州大學伯克利分校開發的智能體框架。它包含四個核心模組:自動重置與任務驗證、優化機器人行為策略、在多台並行物理機器人上評估策略,以及通過分析日誌和研究論文來處理故障並改進算法。該框架使AI編程智能體能夠在無人干預的情況下自主完成機器人訓練。
Q2:AI編程智能體訓練機器人的成功率有多高?
A:在配備ENPIRE框架後,AI編程智能體在多項機器人操作任務中實現了99%的成功率,涵蓋Push-T積木移動、插針整理、剪斷扎帶以及GPU插拔等任務。在插針整理任務中,AI智能體達到近100%成功率的速度甚至超過了人機協同方法。八個智能體組成的團隊可在兩小時內完成Push-T任務的高成功率訓練。
Q3:AI自主訓練機器人存在哪些局限性?
A:目前主要有三方面局限:一是當智能體在讀取日誌、編寫代碼或等待模型響應時,機器人往往處於閒置狀態,導致硬體資源浪費;二是大型智能體團隊會花大量時間相互匯總資訊,而非實際操控機器人;三是智能體在啟動並行訓練時未能充分利用計算資源。此外,更多智能體的協同也意味著更高的Token消耗,會帶來更高的使用成本。






