這是一個關於機器人學習的故事,而且它的靈感來自一個看似簡單但深刻的觀察:小孩子是如何學會拿東西的。
想像一個嬰兒坐在地板上,周圍散放著各種玩具。他不是一開始就能精準地拿起任何東西,而是通過反覆玩耍幾個簡單的玩具——積木、球、鈴鐺——慢慢理解了物體的形狀、大小和重量。一旦掌握了這些基礎,他就能夠拿起從未見過的新東西。這個過程看起來很自然,但其中蘊含的學習原理卻深刻得令人驚訝。
加州大學伯克利分校的一個研究團隊,包括Dantong Niu、Yuvan Sharma、Baifeng Shi、Rachel Ding、Matteo Gioia、Haoru Xue、Henry Tsai、Konstantinos Kallidromitis、Anirudh Pai、Shankar Shastry、Trevor Darrell、Jitendra Malik和Roei Herzig等研究者,決定用這個簡單的觀察來解決機器人領域一個長期存在的難題。他們的研究成果發表在2025年10月,論文編號為arXiv:2510.12866v1。這項研究提出了一個名為LEGO的框架,其核心思想是:機器人也可以通過在簡單玩具上的訓練,學會抓取真實世界中的各種物體。
機器人在執行抓取任務時面臨一個根本性的困境。當工程師們訓練一個機器人在某些特定物體上抓取時,這個機器人往往無法處理與訓練對象不同的新物體。這就像一個學生只在教科書上學過如何計算正方形的面積,突然被要求計算圓形的面積時就完全懵了。這種現象在機器學習中被稱為"泛化能力差"。
為什麼會這樣呢?原因在於機器人的視覺系統學到的往往是非常具體的特徵。當它看到一個紅色的立方體時,它學到的可能是"這個紅色的東西"而不是"立方體這個形狀"。所以當它看到一個藍色的立方體時,它就不認識了。這就像一個人只見過紅色的蘋果,突然看到綠色的蘋果時會感到困惑一樣。
更糟的是,現有的解決方案往往需要大量的數據。一些最先進的機器人模型需要數百萬個訓練樣本才能學會基本的抓取技能。這就像為了讓一個學生掌握乘法,你需要給他做一百萬道乘法題,這顯然不符合學習的自然規律。
研究團隊的突破性想法來自認知科學的研究。心理學家們發現,嬰幼兒並不是通過接觸成千上萬種不同物體來學習操縱技能的。相反,他們通過掌握少數幾個簡單玩具的特性,然後將這些知識應用到新物體上。這個過程被稱為"原型學習"。
這個觀察給了研究團隊一個啟發:如果機器人也能以類似的方式學習呢?不是用真實世界的物體進行訓練,而是用一些簡單的、有代表性的形狀進行訓練。這就引出了他們研究的核心創新——"塞尚玩具"的概念。
這個名字來自著名畫家保羅·塞尚的一句話:"用圓柱體、球體、圓錐體來對待自然,一切都要放在適當的透視中。"塞尚認為,複雜的物體實際上可以分解為幾個簡單的基本形狀。研究團隊決定用這個藝術原理來指導他們的機器人訓練。
研究團隊選擇了四個基本的幾何形狀作為他們的"積木":球體、立方體、圓柱體和圓環。這些形狀看起來非常簡單,但它們的組合方式卻能創造出令人驚訝的多樣性。
具體來說,他們隨機地將這些形狀組合在一起。一個玩具可能由一個球體和一個立方體組成,另一個可能由三個圓柱體和兩個環組成。每個形狀的大小也會隨機變化——球體的直徑可以從1厘米到8厘米,立方體的尺寸可以在各個維度上變化很大。此外,每個玩具還會被隨機著色,可能是藍色、紅色、綠色或黃色。
通過這種方式,研究團隊生成了250個獨特的玩具。這些玩具看起來都很奇怪,不像任何真實世界中的物體。這正是設計的妙處——這些玩具足夠不同尋常,以至於機器人無法通過簡單的記憶來學習,但又足夠有結構性,使得機器人可以學到關於形狀、大小和組合的通用原理。
研究團隊在兩個環境中收集了機器人抓取這些玩具的數據。首先,他們在一個名為ManiSkill的虛擬模擬器中進行了實驗,使用一個模擬的Franka機械臂和夾爪。這就像在電腦遊戲中進行練習一樣。他們收集了2500個虛擬抓取演示。
但虛擬世界和真實世界之間總是存在差異。所以研究團隊還進行了真實世界的實驗。他們用3D印表機製造了這250個玩具的物理版本,然後使用真實的Franka機械臂通過遠程操縱收集了1500個真實的抓取演示。此外,他們還用一個名為Unitree H1-2的人形機器人,配備了靈巧的機械手,收集了500個額外的演示。
這個數據收集過程非常重要。通過讓人類操作者遠程控制機器人進行抓取,研究團隊確保了收集到的數據質量很高,同時也確保了每個玩具都有多種不同的抓取方式被記錄下來。畢竟,一個物體可以用許多不同的方式被抓取,機器人需要學會這種多樣性。
現在我們來到了這項研究最精妙的部分——一個名為"檢測池化"(Detection Pooling,簡稱DetPool)的新技術。這個技術看起來很複雜,但其核心思想其實很簡單。
想像你在一個嘈雜的餐廳里試圖聽某個特定的人說話。周圍有很多噪音——其他人的談話聲、碗碟的碰撞聲、背景音樂。你的大腦做的一件事是自動地將注意力集中在那個人的聲音上,忽略其他的聲音。這就是所謂的"選擇性注意"。
檢測池化對機器人的視覺系統做的就是類似的事情。當機器人看一張圖片時,它需要識別出要抓取的目標物體,然後集中所有的注意力在那個物體上,忽略背景、其他物體,甚至桌子或房間的其他部分。
技術上,這是這樣工作的:首先,研究團隊使用一個名為SAM 2的圖像分割模型來識別目標物體在圖像中的位置,並創建一個"掩碼"——本質上是一個標記出物體所在區域的地圖。然後,他們修改了視覺編碼器(一個處理圖像的神經網路)的注意力機制,使其只關注物體對應的像素區域,而完全忽略其他區域。最後,他們對物體區域的所有特徵進行平均,得到一個專注於物體本身的視覺表示。
這個看似簡單的改變實際上非常強大。它確保了機器人學到的不是"這個特定背景下的紅色立方體",而是"立方體這個形狀"。這就是為什麼機器人能夠泛化到完全不同的物體上。
研究團隊構建的完整系統包括幾個相互配合的部分。在視覺處理方面,他們使用了一個預訓練的視覺編碼器,稱為MVP,它已經在大量圖像上學過如何識別視覺特徵。這個編碼器與檢測池化機制結合,產生了一個專注於物體的視覺表示。
然後,這個視覺表示被輸入到一個基於Transformer的策略網路中。Transformer是現代深度學習中的一種強大架構,它能夠處理序列數據並學會複雜的時間依賴關係。在這個案例中,Transformer接收過去16個時間步的視覺和本體感覺資訊(關於機器人自身位置和姿態的資訊),然後預測接下來16個時間步的動作。
整個系統使用行為克隆進行訓練,這是一種模仿學習的方法。簡單來說,機器人就是在學習模仿人類操作者的動作。訓練目標是最小化預測動作和真實動作之間的差異。
研究團隊首先在虛擬環境中測試了他們的方法。他們在一個包含65個真實物體的測試集上評估了他們的模型,這些物體來自YCB數據集,這是機器人操縱研究中的一個標準基準。
結果令人印象深刻。當使用2500個演示進行訓練時,他們的模型在模擬中達到了80%的成功率。更重要的是,他們與兩個最先進的基線進行了比較:π0-FAST和OpenVLA-OFT。這兩個模型都是大規模預訓練的視覺-語言-動作模型,參數數量分別為30億和70億,遠大於LEGO的8600萬參數。
令人驚訝的是,LEGO不僅超越了這兩個更大的模型,而且表現出了更好的數據效率。當數據量增加時,LEGO的性能穩定地提高,而OpenVLA-OFT實際上在更多數據上表現更差,這表明它過度擬合了。π0-FAST則根本無法從這個相對較小的數據集中學到有用的東西。
這個結果的含義是深刻的。它表明,僅僅擁有更多參數和更多預訓練數據並不總是更好。有時候,正確的架構設計和學習策略可以用更少的資源實現更好的結果。
但模擬中的成功並不能保證真實世界中的成功。這就是所謂的"現實差距"問題——在虛擬環境中學到的東西在真實世界中往往表現不佳。所以研究團隊進行了真實機器人實驗。
在第一組真實機器人實驗中,他們使用了一個Franka Emika Panda機械臂,配備了一個Robotiq夾爪。這是一個標準的工業機械臂,有7個關節。他們在64個真實YCB物體上測試了他們的模型,每個物體測試16次。
結果是66.67%的成功率。這是一個很好的成功率,特別是考慮到他們只用1500個真實演示進行訓練。為了進行比較,他們還測試了其他方法。OpenVLA-OFT只達到了9.47%的成功率。ShapeGrasp,一個基於大型語言模型的方法,達到了26.56%。π0-FAST在零樣本設置下達到了61.82%,但當在他們的數據上微調時達到了76.56%。
LEGO的66.67%成功率排在第二位,僅次於微調後的π0-FAST。但這個比較很重要:π0-FAST是在一個包含75000個演示的大型機器人數據集上預訓練的,然後在他們的1500個演示上進行微調。相比之下,LEGO完全是從零開始訓練的,沒有任何預訓練。這表明LEGO的數據效率是非常高的。
為了進一步驗證他們方法的通用性,研究團隊還在一個更複雜的機器人系統上進行了測試:Unitree H1-2人形機器人,配備了Inspire RH56DFTP靈巧手。這種手有6個自由度,總共12個關節,能夠執行非常精細的操縱任務。
這是一個更具挑戰性的設置,因為靈巧手的控制比簡單的夾爪複雜得多。研究團隊在13個日常物體上測試了他們的模型,每個物體測試5次。
結果是50.77%的成功率。雖然這個數字低於Franka實驗,但這是可以預期的,因為任務更加困難。更重要的是,LEGO再次超越了其他基線。π0-FAST只達到了26.15%,OpenVLA-OFT只達到了18.46%。這再次證明了LEGO方法的有效性和通用性。
為了真正理解他們的方法為什麼有效,研究團隊進行了一系列的消融研究——這是一種通過逐步移除系統的不同部分來理解每個部分的重要性的方法。
首先,他們研究了檢測池化的重要性。他們將DetPool與其他池化方法進行了比較,包括注意力池化、CLS池化和簡單的平均池化。結果非常清楚:DetPool顯著優於所有其他方法,性能提升22%到48%。這證實了他們的核心創新確實是關鍵。
接下來,他們研究了訓練數據的兩個關鍵方面:演示的數量和玩具多樣性的影響。他們訓練了多個模型,使用1、25、125、250、500和1000個不同的玩具,每個模型使用不同數量的演示。結果表明,增加玩具的多樣性確實有幫助,但效果有遞減。然而,演示的數量有更強的影響。這與認知科學的發現一致,即重複練習對學習的影響往往大於接觸多樣的例子。
他們還研究了模型大小的影響。他們嘗試了不同大小的Transformer骨幹網路,從小到大。結果表明,ViT-Base(8600萬參數)是最優的選擇,它在性能和計算效率之間達到了很好的平衡。更大的模型並不一定更好,有時甚至更差。
此外,他們研究了每個基本形狀的重要性。通過逐個移除四種形狀中的每一種,他們發現球體是最關鍵的,移除它會導致最大的性能下降。環和圓柱體的重要性相對較低。這很有趣,因為它表明並非所有的基本形狀對學習都同樣重要。
最後,他們研究了玩具複雜性的影響。他們發現,由兩個原始形狀組成的玩具對性能的貢獻最大,而由五個形狀組成的更複雜的玩具的貢獻較小。這可能是因為測試集中的真實物體往往有相對簡單的結構。
現在讓我們退一步,思考為什麼這個方法有效。核心在於一個關鍵的洞察:物體識別和操縱的關鍵不在於物體的具體外觀,而在於其結構特性。
當機器人學會了如何抓取各種由四個基本形狀組成的隨機組合時,它實際上學到了關於形狀、大小和結構的深層原理。這些原理是通用的。當機器人看到一個真實的物體,比如一個杯子時,它能夠識別出杯子具有圓柱形的主體和某種形式的把手,然後應用它從玩具中學到的關於如何抓取圓柱形物體的知識。
檢測池化的作用是確保機器人學到的是這些結構特性,而不是特定的視覺外觀。通過強制視覺系統只關注物體本身,而忽略背景和其他干擾,機器人被迫學到關於物體形狀和結構的資訊,而不是關於特定像素模式的資訊。
這就像學習一門語言時的區別。如果你只在一個特定的教室里學英語,你可能會學到"在這個教室里說英語"。但如果你在各種不同的環境中學習,你會學到"英語本身",然後你就可以在任何地方使用它。
這項研究的實際意義是深遠的。首先,它表明我們不需要收集數百萬個真實機器人演示來訓練有效的操縱策略。僅僅1500個演示就足以實現強大的泛化性能。這大大降低了開發機器人系統的成本和時間。
其次,它提供了一個新的思考方式來思考機器人學習。與其試圖用越來越多的數據和越來越大的模型來解決問題,我們可以思考如何設計更好的學習環境和更好的架構來促進泛化。
第三,這項研究與認知科學的聯繫表明,我們可以從人類和動物學習的方式中獲得靈感來改進機器學習。這是一個重要的跨學科見解。
第四,檢測池化機制是一個通用的技術,可以應用於任何使用視覺Transformer的機器人學習系統。它不僅僅局限於抓取任務,還可以應用於其他需要物體識別和操縱的任務。
研究團隊也誠實地討論了他們工作的局限性。首先,他們的方法主要關注剛體物體。對於具有不同物理特性的物體,比如柔軟的布料或易碎的陶瓷,性能可能會下降。
其次,他們的工作專注於單步抓取任務。許多真實世界的操縱任務涉及多個步驟,比如拿起一個物體,移動它,然後放下它。擴展到這些更複雜的任務是一個重要的未來方向。
第三,雖然他們的模型相對較小,但在資源受限的機器人上部署仍然可能很困難。進一步優化模型的計算效率是一個實際的需求。
儘管有這些局限性,這項研究代表了機器人學習領域的一個重要進步。它表明,通過正確的設計和靈感來自認知科學,我們可以構建更有效、更高效的機器人學習系統。
這項研究的意義超越了學術界。在現實世界中,機器人正在越來越多的領域被部署——從製造業到物流,從醫療保健到家庭服務。這些應用中的許多都涉及操縱各種不同的物體。
如果我們能夠用更少的數據和更少的計算資源訓練機器人執行這些任務,那麼機器人技術就會變得更加可及和實用。一個小公司或初創企業可能無法負擔收集數百萬個機器人演示的成本,但他們可能能夠負擔收集幾千個演示的成本。
此外,這項研究表明,機器人學習不一定需要大型的預訓練模型。這意味著組織可以在自己的特定任務上訓練定製的模型,而不必依賴於大型科技公司提供的通用模型。這可能會導致更多樣化和分散的機器人生態系統。
最後,這項研究表明,認知科學和機器學習之間的交叉可以產生強大的見解。也許我們對人類和動物學習的理解可以指導我們如何構建更好的人工智慧系統。反過來,機器學習的進步可能也會為認知科學提供新的見解。
##########
Q&A
Q1:什麼是"塞尚玩具",為什麼研究團隊選擇用這些簡單的形狀來訓練機器人?
A:塞尚玩具是由四個基本幾何形狀(球體、立方體、圓柱體和圓環)隨機組合而成的訓練物體。研究團隊受到畫家塞尚的啟發,他認為複雜物體可以分解為簡單形狀。這些玩具足夠不同尋常,使機器人無法通過簡單記憶學習,但又有足夠的結構性,讓機器人學到關於形狀和組合的通用原理,從而能夠泛化到真實物體。
Q2:檢測池化(DetPool)機制具體是如何工作的,為什麼它對機器人的泛化能力如此重要?
A:檢測池化首先識別目標物體的位置並創建一個掩碼,然後修改視覺編碼器的注意力機制,使其只關注物體區域而忽略背景。最後對物體特徵進行平均。這很重要是因為它強制機器人學到物體的結構特性(如形狀)而非特定的視覺外觀,這樣機器人就能識別和操縱從未見過的新物體。
Q3:LEGO方法與其他大型預訓練模型相比有什麼優勢?
A:LEGO僅用1500個真實演示就能在YCB數據集上達到67%的成功率,而OpenVLA-OFT和π0-FAST這樣的大型模型雖然參數量大得多且經過大規模預訓練,但在相同任務上表現更差。這表明LEGO具有更高的數據效率,不需要大量預訓練數據就能實現強大的泛化性能。






