這項由中國電信人工智慧研究院(TeleAI)聯合復旦大學、華東理工大學與上海交通大學共同開展的研究,於2026年6月以預印本形式發布,編號為arXiv:2606.08548,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究的核心成果被命名為OASIS,它試圖解決一個機器人領域長期懸而未決的難題:如何讓人形機器人學會在真實世界裡又走又拿東西,而且還要學得又快又好?
要理解這個問題的分量,不妨先想像一下這樣的場景。你正在教一個從未見過廚房的人學做飯,每次他一失手打碎了盤子,你都得親自跑進廚房收拾殘局、重新擺好食材,然後才能繼續下一次示範。如果他不小心把爐火點得太猛,燒壞了鍋具,你還得另外花錢買新的。更別提每次示範完畢,都要把所有東西精確復位到起始位置,才能繼續錄製下一段教學影片。這種教學方式不僅費時費力,還極其容易因為意外損失而受阻。
這恰恰是目前主流的人形機器人訓練方式——真實機器人遠程操控數據採集——所面臨的窘境。操作人員通過特殊設備遠程操控一台真實的機器人完成任務,系統記錄下整個過程作為訓練數據。每當機器人失敗、摔倒或者把東西弄亂,工作人員就必須親自走進場地,把機器人扶起來,把道具重新擺好,再從頭開始。研究團隊甚至在實驗過程中因為機器人接觸力度控制不當,真實地損壞了一台顯示器。
OASIS提出的解決方案,就像是給這位學廚師的學員配備了一個無限重置的虛擬廚房——在裡面怎麼砸鍋都沒關係,按一個鍵就能恢復原狀,而且這個虛擬廚房還會在拍攝教學影片時,自動變換出各種不同的燈光環境和背景裝飾,讓最終拍出來的教學內容涵蓋儘可能多的真實情況。
一、為什麼要把訓練搬進虛擬世界
人形機器人的訓練,本質上是一個"餵數據"的過程。機器人需要看大量的示範動作——機器人該怎麼走過去、怎麼伸手、怎麼抓住物體、怎麼放下——然後從中學習規律,最終在真實場景中自主執行。數據越多、越多樣,機器人學到的能力就越紮實、越能應對各種突發狀況。
麻煩就在於,人形機器人同時需要調動雙腿走路和雙手操作,這種"邊走邊幹活"的能力在機器人領域被稱為"運動操控"(loco-manipulation)。示範這樣的任務,需要操作人員在真實空間裡驅動真實的機器人完成完整的動作序列,複雜程度遠超普通的桌面機械臂抓取任務。一旦任務步驟變長,失敗的概率就越高,每次失敗後的重置成本也越高。研究團隊的測量數據清楚地顯示了這一點:在最簡單的"把杯子放進盒子"任務中,真實機器人採集50條成功軌跡需要17.5分鐘,而在最複雜的"跪下擦桌底"任務中,這個數字膨脹到了44.8分鐘。
更深層的問題是視覺多樣性的缺失。真實環境下的數據採集往往在固定的房間裡進行,燈光條件、背景顏色、攝影機角度都相對固定。這就像是一位廚師只在自家廚房練過手藝,一旦換到燈光昏暗的餐廳後廚或者陽光充足的戶外野炊,就可能變得手忙腳亂。機器人面臨同樣的困境:訓練時看到的是一種環境,部署時遇到的是另一種環境,這種"視覺落差"會嚴重削弱實際表現。
OASIS的思路是:把整個示範數據的採集過程完整地搬進仿真器里,但要讓仿真器里的物體儘可能真實,讓視覺訓練數據儘可能多樣。
二、虛擬廚房裡的食材從哪裡來——真實物體的數字復刻
把訓練搬進虛擬世界,首先要解決的是食材問題:仿真場景里需要有跟真實物體高度相似的數字孿生體,否則機器人在虛擬廚房裡練習的,可能是一種跟真實物體完全不同的奇怪形狀,到了真實世界就全部失效。
OASIS為此設計了一套自動化的"物體數字化"流程。給定一張真實物體的照片,系統首先調用騰訊混元3D(Hunyuan3D)這個大規模3D生成模型,自動合成一個帶有紋理貼圖的三維網格模型。這個過程有點像是掃描儀——你拍一張杯子的照片,系統吐出一個3D杯子模型。
然而,剛生成出來的3D模型只有形狀和外觀,卻沒有任何物理屬性:它不知道自己有多重,不知道自己摸起來是光滑還是粗糙,也不知道碰到地面會彈多高。為了給這個數字物體賦予真實的物理特性,研究團隊引入了Qwen3-VL(一個具有強視覺推理能力的大語言模型)來扮演"物理估算師"的角色。
Qwen3-VL拿到參考圖片和物體類別描述後,會通過一套設計好的提示模板輸出物體的實際尺寸(長、寬、高)以及材質類別(比如"聚丙烯塑料"或"柳編材料")。研究團隊隨後把這些資訊轉化為具體的物理參數:尺寸數據用來把歸一化的3D網格縮放到真實大小,材質類別則對應一張預定義的物理屬性表格,從中查找相應的密度、摩擦係數和彈性恢復係數,再據此計算出物體的質量和轉動慣量。
為了驗證這套估算流程的可靠性,研究團隊用遊標卡尺實際測量了5個真實物體的尺寸,然後與Qwen3-VL的預測值進行對比。結果顯示,顯示器的平均誤差僅1.0厘米,杯子的誤差只有0.3厘米,籃子的誤差最大也只有3.0厘米——這樣的精度對於物理仿真來說完全夠用。
值得關注的是,研究團隊還在數據採集階段對這些物理參數進行隨機擾動,以應對估算誤差。這就像是在練習時故意換用不同重量的杯子,讓機器人學會在一定範圍內應對物體參數的不確定性,而不是死記硬背只針對某一個特定重量的杯子。
三、在虛擬廚房裡示範動作——仿真遙操作的實現
有了虛擬廚房和逼真的數字食材,下一步是如何高效地在仿真環境裡採集示範數據。OASIS選擇的方式是VR遙操作:操作人員戴上頭顯,拿起手柄,腳踝上綁好追蹤器,實時操控仿真器里的人形機器人完成任務。
具體使用的設備是PICO 4U,這是一款便攜式混合現實頭顯。頭顯捕捉操作人員的頭部朝向,一對手持控制器追蹤雙手位置和姿態,兩個腳踝追蹤器記錄下肢運動。操作人員的全身動作通過GMR(一套運動重定向算法)轉化為人形機器人的參考全身運動指令,再交給Teleopit(一個開源的基於強化學習的全身控制器)驅動仿真機器人執行相應動作。同時,機器人頭部攝影機的畫面實時傳送給VR頭顯,操作人員就像身臨其境地從機器人的視角看世界。
整個遙操作階段刻意使用了輕量渲染模式,以保證仿真器能以足夠高的幀率運行,給操作人員提供流暢的操控體驗。這個階段記錄下兩類關鍵數據:其一是機器人和場景中所有可交互剛體的運動學狀態序列(位置、姿態等),用於後續軌跡重放;其二是GMR重定向後的參考運動指令,用於訓練高層規劃器。
在數據採集效率上,仿真遙操作展現出相比真實機器人遙操作的明顯優勢。研究團隊使用相同的低層控制器和相同的操作員,在相同任務上各採集50條成功軌跡,然後比較總耗時。最簡單的"把杯子放進盒子"任務,OASIS耗時15.2分鐘,真實環境耗時17.5分鐘,提速1.15倍;而最複雜的"跪下擦桌底"任務,OASIS耗時28.4分鐘,真實環境耗時44.8分鐘,提速1.84倍。任務越複雜,仿真的效率優勢越明顯,因為複雜任務在真實環境中的每次失敗都意味著更繁瑣的手工重置流程。
四、一條示範變成二十個場景——離線渲染的視覺擴增魔法
OASIS最具創造性的設計在於它對採集好的軌跡數據的後處理方式。拿到一條示範軌跡之後,系統並不直接用它來生成訓練圖像,而是把它當作一個"劇本",然後在二十個不同的"舞台布景"下重新演一遍,得到二十套視覺截然不同的訓練樣本。
這個階段完全在離線狀態下運行,不需要操作人員實時參與,因此可以切換到路徑追蹤渲染模式——這是一種計算密集但圖像質量極高的渲染技術,能產生接近真實照片質感的圖像。
具體的隨機化涉及三大類參數。背景材質方面,牆面紋理從混凝土、木材、水磨石、金屬中隨機選取,地板紋理從混凝土、木材、水磨石中隨機選取,桌面紋理則固定為木材但會隨機調整粗糙度(在0.1到0.65之間)和金屬感(在0.25到1.0之間),紋理的旋轉角度、位移比例也都在一定範圍內隨機變化。光照方面,穹頂光的強度在1000到3000之間隨機,色溫在4500到6500K之間隨機,RGB三通道顏色各自在0.85到1.0之間獨立隨機;室內照明的強度更是在20000到200000之間大幅變化。攝影機外參方面,位置在三個軸向各自偏移正負1厘米以內,俯仰滾偏三個旋轉角各自在正負1.5度以內隨機擾動。
研究團隊還系統地測試了渲染數量對效果的影響,發現隨著每條軌跡渲染環境數的增加,真實機器人的成功率穩步上升,在15到20個環境附近趨於飽和。因此最終配置選擇每條軌跡渲染20個不同環境,在效果和計算開銷之間取得平衡。
這套機制的直覺非常清晰:相比之下,真實環境採集的數據就像是同一道菜只在同一家餐廳的同一張桌子上拍照,而OASIS的數據就像是把同一道菜搬到了二十種不同裝修風格、不同燈光氛圍的場合下各拍一遍。用後者訓練出來的"菜品識別系統",自然對各種拍攝條件都更有免疫力。
五、機器人的大腦長什麼樣——層次化全身策略的設計
有了高質量的訓練數據,OASIS還需要一套合適的"大腦架構"來把這些數據轉化為實際的操控能力。研究團隊設計了一個兩層嵌套的層次化策略:上層是一個"規劃器",負責看圖理解任務並預測接下來該怎麼動;下層是一個"執行器",負責把規劃器的意圖轉化成機器人每個關節的具體角度。
規劃器接受三類輸入信號。第一類是文字指令,比如"把杯子放進盒子",通過CLIP文字編碼器轉化為數值向量。第二類是視覺資訊,來自機器人頭部和兩個腕部的三路攝影機畫面,通過凍結參數的DINOv2視覺編碼器提取特徵。第三類是機器人自身的"本體感覺",也就是最近兩幀的參考運動指令歷史,通過一個MLP網路編碼。這三類特徵拼接成條件序列,輸入到一個基於Transformer架構的去噪網路中。
規劃器的輸出是未來32幀的參考運動指令序列,每幀包含67個數值:身體傾斜角度的三角編碼、偏航角變化量、根部在局部坐標系下的平移、根部高度、29個關節的位置,以及這些關節位置相對上一幀的增量。這套運動指令格式直接沿用了研究團隊此前在TextOp工作中提出的表示方式。
生成這套運動指令序列的方法是流匹配(Flow Matching)——一種可以把隨機噪聲逐步"塑造"成有意義運動序列的生成技術。直覺上,可以把它理解成一種"去噪雕刻":從一堆雜亂的大理石碎屑開始,通過學習到的雕刻規律,逐步去除多餘的部分,最終顯現出想要的動作姿態。推理時用10步歐拉求解器積分完成這個過程,在計算效率和生成質量之間取得良好平衡。
下層執行器直接沿用了Teleopit這個開源全身控制器,把規劃器輸出的參考運動指令轉化為機器人29個身體關節的目標角度,再加上14個手指關節,整個系統合計輸出43個關節的控制信號。規劃器以25Hz運行,每次預測一個32步的動作塊,下層控制器以50Hz執行這些預測動作。
六、讓規劃器學會應對自己的失誤——兩個訓練技巧的重要性
OASIS在訓練層面還引入了兩個設計細節,這兩個細節看似簡單,卻對最終的實際表現產生了巨大影響。
第一個細節是關於本體感覺輸入的選擇。規劃器在推理時需要一個"歷史狀態"作為參考——告訴它自己之前是在什麼狀態下,這樣才能規劃接下來的動作。一種直覺的做法是直接使用機器人真實的關節角度狀態。但這樣做有個問題:真實機器人執行動作時,關節角度會與目標指令之間存在跟蹤誤差和各種噪聲,如果把這種"帶噪"的狀態歷史餵給規劃器,規劃器在訓練時學到的是"基於乾淨數據做預測",但推理時卻接收到充滿誤差的實際數據,兩者之間的分布差異會導致性能下降。
OASIS的解決方案是:不管訓練還是推理,始終用參考運動指令序列(而非實際執行後的機器人狀態)作為本體感覺輸入。參考運動指令是規劃器自己產生的,格式固定、無噪聲,在訓練和推理時保持完全一致,消除了這種分布不匹配問題。
第二個細節是基於課程的展開訓練(Curriculum-based Rollout Training)。規劃器一次性預測32幀的運動序列,然後實際執行這32幀,再基於執行結果預測下一個32幀,如此循環。問題在於:如果只用真實的歷史數據訓練規劃器,它在訓練時從未見過"自己的預測輸出當歷史"這種情況,但推理時偏偏就是這種情況。這就像是一位導航員平時只練習根據精確地圖規劃路線,從來沒練習過根據自己上一次規劃結果(可能有偏差)繼續規劃,真正上路時就可能越偏越遠。
為了解決這個問題,研究團隊設計了一套漸進式訓練方案。每次訓練時抽取同一條軌跡中4個連續片段,第一個片段使用真實歷史數據,之後每個片段以一定概率"接著上一個片段規劃器自己預測的最後H幀"來代替真實歷史,讓規劃器逐漸習慣在自己的預測輸出上繼續預測。這個"接續概率"在訓練前20%的階段保持為0(讓模型先學會基本的條件分布),之後線性增加到0.8。通過這種課程式的暴露,規劃器逐漸學會應對自身預測誤差的累積效應,在長時程任務中保持穩定。
研究團隊在附錄中專門對這一機製做了消融實驗,結果觸目驚心:不使用展開訓練的版本,在"把杯子放進盒子"任務上10次只成功2次,在"抬起籃子並放入杯子"任務上10次全部失敗,在"跪下擦桌底"任務上也是10次全部失敗;而使用展開訓練的完整版本,這三個任務的成功率分別為8/10、8/10和10/10。這組數據清楚地說明,展開訓練機制是整個系統能在長時程任務上正常工作的關鍵保障。
七、在真實機器人上的檢驗——仿真數據究竟有多管用
所有這些精心設計,最終都要接受一個最樸素的檢驗:訓練出來的策略放到真實機器人身上,到底好不好用?
研究團隊在宇樹G1人形機器人上進行了實驗。G1具備29個身體自由度,配備7自由度三指靈巧手,頭部裝有Realsense D435i攝影機,每個手腕處各裝有一個Realsense D405攝影機。實驗涵蓋了四個難度遞增的任務:把杯子放進盒子(純桌面操作)、抬起籃子並放入杯子(需要全身協調提起重物)、擦拭顯示器(需要精確的接觸力控制)、跪下並擦拭桌底(需要腿部的彎曲運動和手臂同時工作)。
核心對比實驗是在三種數據來源之間展開的,每種來源都使用相同數量的50條軌跡:純仿真數據(OASIS)、純真實機器人遙操作數據、兩者各25條的混合數據。
實驗結果相當有說服力。在"把杯子放進盒子"任務上,仿真數據訓練的策略10次成功8次,真實數據訓練的策略10次成功7次;在"抬起籃子並放入杯子"任務上,仿真數據7次,真實數據7次;在"擦拭顯示器"任務上,仿真數據9次,真實數據8次;在"跪下擦桌底"任務上,仿真數據10次,真實數據9次。仿真數據在多數任務上不僅追平、甚至小幅超越了真實數據。
研究團隊將仿真數據偶爾超越真實數據的現象歸因於視覺多樣性:真實數據是在一個相對固定的環境中採集的,一旦部署時的燈光或背景稍有不同,策略就容易受到干擾;而OASIS的大規模隨機渲染覆蓋了豐富得多的視覺條件,使策略對各種視覺變化具備更強的魯棒性。
混合數據的效果則在每個任務上都超過了任一單一來源:四個任務的成功率分別為9/10、8/10、9/10和10/10,平均成功率0.90,高於純仿真的0.85和純真實的0.78。這個結果揭示了一種有意思的互補關係:仿真數據提供視覺多樣性和大規模樣本,真實數據提供真實物理交互和感知特性,兩者結合實現的效果比各自單獨使用都要好。
八、哪個環節最重要——消融實驗的發現
為了搞清楚OASIS各個組件各自貢獻了多少,研究團隊還進行了系統的消融實驗。
在隨機化因素的消融實驗中,研究團隊比較了四種變體:完全不做隨機化、去掉紋理隨機化、去掉光照隨機化、去掉攝影機外參隨機化,以及保留所有隨機化的完整版本。結果中最戲劇性的發現是:完全不做任何隨機化的版本,在四個任務上的平均成功率只有可憐的0.05——近乎全軍覆沒。這充分說明,視覺隨機化不是可選的錦上添花,而是仿真數據能夠遷移到真實世界的根本前提。
在具體的隨機化因素中,光照隨機化的貢獻最為突出,去掉光照隨機化後成功率從0.83驟降至0.30;去掉攝影機外參隨機化後成功率為0.63;去掉紋理隨機化後成功率為0.43。三者的貢獻都不可忽視,且相互之間具有互補性——只有全部保留時才能達到最高性能。這說明這三類隨機化分別針對了仿真到真實視覺差距的不同方面,不能相互替代。
歸根結底,OASIS的實驗結果傳遞了一個對機器人研究界頗具啟發性的信號:精心設計的仿真數據,在視覺多樣性方面甚至可以超越在固定真實環境中採集的數據。真實場景的數據並非不可替代,關鍵在於如何讓仿真數據覆蓋足夠豐富的視覺變化,以及如何保證仿真物體的物理特性足夠真實。
當然,研究團隊也坦誠地指出了現有方法的局限。目前的數據增強只針對視覺外觀進行隨機化,軌跡本身並未改變——因為人形機器人的全身動作牽一髮而動全身,隨意擾動運動狀態很容易導致機器人失去平衡。運動軌跡的多樣化生成是下一步值得探索的方向。此外,自動生成的3D資產在幾何形狀和物理參數上仍可能存在偏差,對於需要精確接觸力控制的任務(比如需要拿捏力度的精細抓取)來說,這種偏差可能造成更大的仿真到真實差距,需要更精準的資產重建和物理參數標定方法來彌補。
說到底,OASIS做了一件聽起來有些反直覺的事:它證明了你不需要一台真實的機器人、一個真實的房間和無數次真實的失敗重試,就可以給人形機器人提供高質量的全身操控訓練數據。你只需要幾張真實物體的照片、一套VR設備,以及大量隨機化的離線渲染,就能在真實機器人上實現零樣本部署——也就是說,機器人在沒有任何真實環境預熱的情況下,直接上手就能把活兒干好。
這對於未來人形機器人的普及有相當實際的意義。當前的真實數據採集流程需要昂貴的硬體、寬敞的物理空間和大量人工時間,這些成本構成了機器人研究規模化的主要壁壘之一。如果仿真數據能夠在效果上與真實數據持平甚至局部超越,那麼機器人訓練數據的生產效率將得到質的提升,更多的任務類型將變得可以快速擴展覆蓋。
當然,目前的結論仍然來自特定的任務集合和特定的硬體平台,能否推廣到更廣泛的任務場景(比如需要用手指精確旋轉旋鈕,或者處理柔性材料)還有待驗證。研究團隊指出的兩個主要改進方向——運動軌跡的多樣化增強和更精準的物理參數估計——將是檢驗OASIS能否進一步擴展適用範圍的關鍵。有興趣深入探究技術細節的讀者,可通過arXiv編號2606.08548找到完整論文。
Q&A
Q1:OASIS框架中,仿真數據為何能在某些任務上超過真實機器人採集的數據?
A:這主要是因為OASIS在離線渲染階段對每條軌跡進行了大規模視覺隨機化,每條示範軌跡會被渲染成20種不同燈光、紋理和攝影機角度的版本,覆蓋了遠比單一真實環境豐富的視覺條件。真實數據往往在固定房間採集,燈光和背景變化有限,一旦部署環境與採集環境有差異,策略就容易受到干擾;而OASIS訓練出的策略見過各種光線和背景,因此對視覺變化具備更強的適應能力。
Q2:OASIS中物體的3D模型和物理屬性是怎麼生成的,精度夠用嗎?
A:系統用騰訊混元3D模型從單張照片生成3D網格,再用Qwen3-VL語言模型估計物體的實際尺寸和材質類別,然後查表獲取密度、摩擦係數等物理參數。研究團隊用遊標卡尺實測了5個真實物體做驗證,杯子的平均誤差僅0.3厘米,顯示器誤差1.0厘米,籃子誤差最大也只有3.0厘米,對於仿真中的物理模擬來說精度基本夠用,但對於需要精確接觸力控制的精細任務可能還存在一定偏差。
Q3:課程式展開訓練對OASIS的效果影響有多大,不用行不行?
A:影響非常大,不用幾乎等於放棄長時程任務。消融實驗顯示,不使用課程式展開訓練的版本在"抬起籃子並放入杯子"和"跪下擦桌底"兩個任務上10次全部失敗,在其餘任務上也只有個位數成功;而使用該機制的完整版本,四個任務的成功率分別達到8/10、8/10、7/10和10/10。這個機制的作用是讓規劃器在訓練時逐步習慣"在自己的預測結果上繼續預測",避免推理時誤差不斷累積導致任務失敗。






