加州大學伯克利分校的機器人，竟然會「自己玩耍」來學習技能？

這項由加州大學伯克利分校與Impossible Research聯合完成的研究，以預印本形式於2026年6月17日發布在arXiv平台，編號為arXiv:2606.19419。對機器人學習和人工智慧感興趣的讀者，可以通過該編號查詢完整論文。

贊助商廣告

一個孩子在沒人教他之前，已經學會了怎麼疊積木、怎麼把球塞進盒子裡。沒有人給他評分，沒有人告訴他任務目標，他只是在"玩"，而玩著玩著，手就變得越來越靈巧了。這項研究的出發點，正是這樣一個樸素的觀察：能不能讓機器人也擁有這種"在玩耍中成長"的能力？

研究團隊將這套系統命名為RATS，全稱是"機器人智能體團隊"（Robotics Agent Teams）。RATS的核心理念是，在真正的工作任務下達之前，讓機器人先自己"玩"一段時間——自己給自己提出任務、自己練習、自己記錄哪裡做成了、哪裡又摔跟頭了，然後把那些成功經驗打包成可以反覆使用的"技能庫"。等到真正的任務來了，機器人就可以從這個庫里調取工具，大大提高解決問題的成功率。

這個思路乍聽之下很簡單，但實現起來涉及到了一套相當精密的設計。研究團隊在多個模擬環境和真實機器人平台上驗證了RATS的效果，結果顯示，經過"玩耍期"訓練的機器人，在執行全新任務時的成功率比從未玩耍過的基準系統提升了超過20個百分點。更令人印象深刻的是，這些在模擬環境中練出來的技能，甚至可以直接被其他機器人系統"借用"，無需重新訓練底層模型。

一、機器人為什麼需要"玩耍"？

現有的機器人系統大多是典型的"命令執行者"——給一個任務，它就去做；任務做完，學習也就結束了。即使系統在完成任務過程中積累了一些有用的經驗，這些經驗也只是執行任務的副產品，而非主動學習的結果。這種被動模式帶來了一個明顯的短板：每次遇到新任務，機器人幾乎都要從零開始，之前積累的東西很難被有效復用。

贊助商廣告

人類孩子的學習恰恰相反。發展心理學研究表明，孩子在3到4歲時就會通過自發的探索發現可控的物理規律，比如"用力推這個積木，它會倒"、"輕輕放這個球，它會滾"。這種探索不是漫無目的的隨機行為，而是一種本能地在"已經會了"和"還不會"之間尋找練習點的過程——既不挑太容易的，也不碰根本搞不定的。心理學家把這稱為"金髮姑娘原則"，即在難度適中的挑戰中學習效率最高。

RATS的設計者們把這個理論搬進了機器人領域。他們認為，在大型語言模型和視覺語言模型已經能夠理解語言、生成代碼、感知圖像的今天，機器人完全可以用語言表達自己想練習什麼，用代碼執行這個練習，觀察結果，然後把成功的經驗存起來備用。這讓"玩耍"真正成為了一種可工程化的技能積累機制，而非模糊的比喻。

二、RATS是怎麼"玩"的？

把RATS的整個運作方式理解為一個有組織的練習營會更直觀。這個練習營由三個分工明確的小組組成，各自負責不同的環節，共同推進機器人的自我學習。

第一個小組負責"選題"，被稱為任務提議團隊。每輪練習開始時，這個小組會觀察當前場景里有哪些物體，同時查看機器人已經掌握的技能清單和過去的失敗記錄，然後提出一批候選練習任務。提出任務後，它不會隨機選一個，而是用一套評分機制篩選出最適合練習的那個。評分機制包含兩個維度：一是"新鮮度"，即這個物體和動作的組合以前練習過多少次，練得越少得分越高；二是"可學習性"，即機器人對完成這類任務所需技能的歷史成功率是否在50%左右——太高說明已經掌握了，練了也沒多大意思；太低說明根本沒有基礎，練了也是白費。只有兩個維度都達標的任務，才會被選中進行本輪練習。這套機制在論文中被稱為"金髮姑娘驅動的任務選擇"，直接對應前文提到的心理學理論。

選好任務之後，第二個小組登場，負責"執行"。執行團隊內部又分為幾個角色。規劃者負責把任務拆分成一步一步的行動序列，並標註每一步應該調用哪些已有技能。代碼編寫者把這個行動計劃翻譯成可以真正運行的Python代碼，交給機器人執行。與此同時，一批"驗證者"在旁邊盯著過程：規劃核查者檢查計劃邏輯上有沒有問題，代碼質檢者掃描代碼里有沒有語法錯誤或者危險指令，目標核查者在執行完成後判斷任務有沒有成功，逐步核查者則對每一個執行步驟單獨給出成敗判斷。如果失敗了，故障診斷者會綜合所有資訊找出問題出在哪一步、為什麼失敗，並提出下一次重試的修改建議。

贊助商廣告

這套"寫代碼—執行—核查—診斷—重試"的循環最多會進行若干次。如果某個子動作在多次嘗試後始終過不了關，系統會專門派出一個"子智能體"，讓它在隔離的環境裡單獨練這個動作，直到摸索出一套可行的方案，再匯報給主執行流程使用。這就像一支賽艇隊裡，負責協調的人發現某個隊員的划槳動作總是出問題，就讓他單獨去訓練，練好了再回來合練。

第三個小組負責"記憶管理"。每次任務結束後，不論成功還是失敗，記憶管理團隊都會更新兩個持久化的儲存庫。成功的情況下，系統會從成功的代碼里提取出通用性強的子函數，寫上說明文檔，存入"技能庫"，標記為"實驗性"等級。隨著這個技能在後續任務中被反覆調用並持續成功，它會被提升為"已驗證"狀態，在未來的規劃中享有更高的調用優先級；反之，如果一個技能屢戰屢敗，就會被降級為"廢棄"狀態，不再出現在規劃建議中。失敗的情況下，系統會把這次經歷提煉成一條教訓，存入"失敗記憶庫"，供日後遇到類似情況時參考。每隔五輪練習，記憶整理者還會對兩個庫進行一次清理，合併重複的內容，刪除過時的教訓，並主動根據反覆出現的失敗模式起草新的候選輔助函數，讓機器人的下一輪練習有更好的工具可用。

三、技能庫里究竟裝著什麼？

從研究的實驗數據來看，經過50輪玩耍練習後，機器人在MolmoSpaces環境中積累了27個自學的輔助技能，同時儲存了70個原始失敗記錄和121條提煉後的經驗教訓。這些技能涵蓋了物體定位、抓取規劃、方向判斷、推拉操作、放置釋放等多種操作類別。

以一個具體的技能為例，有一個被命名為"get_axis_aligned_pull_direction"的函數，它的作用是計算出相對於機器人底座最對齊的拉動方向——也就是說，當機器人需要拉開一個抽屜時，它可以調用這個函數判斷應該朝哪個方向用力，而不用每次都從頭計算。這個函數是在第2次練習中嘗試拉開一個小桌上的抽屜失敗之後，由技能提議者根據失敗原因起草，後來又在第16次練習中被成功調用，驗證可靠後正式晉升為高優先級技能。到評估階段，這個函數在400次測試任務中被調用了整整614次，其中僅在"打開"類任務中就貢獻了超過32%的輔助函數調用量。

贊助商廣告

另一個典型的技能叫"push_object_closed"，專門處理推合抽屜或櫥櫃的動作。它的實現邏輯是先定位目標物體的位置，判斷應該朝哪個方向推，然後控制機械臂執行推合動作。這個技能的誕生故事同樣有跡可循：第2次練習成功推合了抽屜之後被提取，之後在第10次練習的"推合部分打開的抽屜"任務中再次被調用並成功，之後在評估階段的"關閉"類任務中承擔了21.6%的輔助函數調用量。

相比之下，也有一些技能在積累了足夠多的失敗記錄之後被標記為"廢棄"。例如一個專門處理腕部攝影機視角下抓取規劃的函數，在26次被調用中只成功了6次，成功率不足25%，最終被系統降級，不再出現在常規規劃建議里。這套動態的技能生命周期管理機制，保證了技能庫始終保持精簡且可靠，而不會越積越亂。

四、實驗結果告訴我們什麼？

研究團隊在三個不同的測試場景中檢驗了RATS的效果，每個場景關注的問題略有不同。

第一個場景是LIBERO-PRO，一個專門測試機器人操控任務泛化能力的模擬環境。測試任務涵蓋對物體、目標和空間關係的三種擾動，每種擾動又分為"初始位置交換"和"任務描述變體"兩種形式，共6個子測試集，每個測試集10個任務，每個任務執行10次，合計600次測試。基準系統（完全沒有玩耍期）的平均成功率是23.2%，加入RATS玩耍期之後升至43.8%，提升了20.6個百分點。在物體操控類任務中，成功率甚至分別達到了61%和63%，幾乎是基準系統的兩倍多。相比之下，業界知名的視覺-語言-動作模型π0和OpenVLA在這套測試中成功率均為0%，最好的π0.5也只達到了12.8%。

第二個場景是MolmoSpaces，一個通過自然語言描述評判成功與否的模擬環境，測試任務包括打開、關閉、拾取和拾取放置四類，每類10個任務，每個任務10次，共400次測試。基準系統平均成功率為21%，RATS提升至38%，增幅17個百分點。其中關閉類任務的成功率從36%跳升至73%，提升最為顯著。

贊助商廣告

第三個場景測試的是跨環境遷移能力——在LIBERO-PRO中練出來的技能，能不能直接用在一個從未見過的模擬環境RoboSuite里？結果是肯定的。把LIBERO-PRO的技能庫直接"插入"基準系統後，RoboSuite上的平均成功率從40.3%提升至49.1%，增幅8.9個百分點。其中兩臂協同舉起物體這一任務的成功率提升了整整24個百分點——這尤其值得注意，因為練習技能時用的是單臂機器人，而測試時用的是雙臂機器人，技能跨越了不同的機器人形態依然發揮了作用。

研究團隊還專門做了一組消融實驗，來判斷"玩耍的質量"和"執行系統的質量"對最終結果各自貢獻了多少。實驗將"不玩耍"、"隨機玩耍"（隨機選任務練習）和"好奇心驅動玩耍"（使用金髮姑娘機制選任務）三種玩耍策略，分別配合基準執行系統和完整RATS執行系統進行對比。在基準執行系統下，隨機玩耍的平均成功率是24.7%，僅比不玩耍的23.2%高出1.5個百分點，說明漫無目的地練並沒有多大用處；而好奇心驅動的玩耍達到了32.3%，說明任務選擇策略的質量至關重要。在完整RATS執行系統下，不玩耍已經能達到36.3%，好奇心驅動玩耍進一步提升至44.3%，說明"玩什麼"和"怎麼執行"是相互獨立又相互增強的兩個因素，兩者疊加才能達到最佳效果。

五、技能能不能用在真實機器人上？

在所有實驗結果中，最讓研究者感到驚喜的或許是真實機器人上的測試。團隊將LIBERO-PRO模擬環境中練習得到的技能庫直接導出，不做任何真實世界的微調，加載到一台真實的機械臂上，然後讓它執行"拾起紅色方塊"和"將方塊放入碗中"兩個任務，每個任務40次，合計80次測試。

沒有技能庫的基準系統成功率為30%，加入技能庫後成功率提升至38.8%，提升8.8個百分點。這個數字或許聽起來不驚天動地，但考慮到技能完全來自模擬環境、沒有經過任何真實場景適應性調整，這種從虛擬到現實的直接遷移已經相當難得。從機器人實際操作的影片畫面來看，它能夠順利完成"把方塊放入碗中"、"交換兩個方塊位置"、"關閉打開的抽屜"和"打開關閉的抽屜"等動作，這些技能全部來自模擬練習期間的積累。

贊助商廣告

研究團隊還額外測試了MolmoSpaces環境中練習得到的技能在真實機器人上的效果，針對"交換方塊"和"關閉抽屜"兩個任務各進行30次測試。沒有技能庫的基準系統在這兩個任務上幾乎完全失敗，成功率分別為0%和6.7%；加入技能庫後分別提升至23.3%和26.7%，平均提升21.7個百分點。

六、為什麼"玩耍積累的技能"比"臨場多試幾次"更有效？

研究團隊還進行了一項頗具說服力的對比實驗，專門回答這樣一個質疑：既然RATS在玩耍期消耗了大量計算資源，那直接把這些資源用來讓機器人在測試時多重試幾次，效果會不會一樣？

他們的計算表明，50輪玩耍大約消耗了3000萬個token（可以理解為AI處理文字的計算單位）。把這個成本平攤到60個測試任務上，相當於每個任務多給基準系統約50萬個額外token，足夠讓它從10輪重試延長到約15輪重試。於是他們真的測試了"15輪重試基準系統"的成功率，結果是26%——只比標準10輪重試的23.2%高了不到3個百分點。而同樣的計算成本用來練習，再配合10輪重試基準系統，成功率達到了32.3%。換句話說，預先練習積累技能，比臨場多重試幾次要高效得多。原因並不難理解：重試只是在同一個知識水平上多碰幾次運氣，而技能積累是真正提高了機器人的能力基礎。

七、RATS的每一個細節是如何設計的？

要完整理解RATS為什麼能奏效，有必要深入了解它各個組成部分的設計細節。

在任務提議環節，提議者會同時參考當前場景中可見且可觸及的物體列表、完整的技能庫摘要（包含每個技能的名稱、描述、可靠性等級和歷史成功率，但不包含完整代碼），以及過去10次任務的記錄（任務描述、是否成功、失敗原因）。在生成5個候選任務之後，系統會對每個候選任務計算兩個分數的乘積：新鮮度分數用歷史嘗試次數的平方根倒數來計算，嘗試越少得分越高；可學習性分數用4乘以歷史成功率再乘以1減成功率來計算，這個函數在成功率約50%時達到峰值，接近0%或100%時都趨向於0。兩個分數相乘，得分最高者入選。如果某個候選任務因為與當前環境配置不兼容而被否決，它會在進入評分之前就被過濾掉，不消耗執行資源。

贊助商廣告

在執行環節，規劃者看到的技能清單是有優先級排序的：已驗證的技能排在最前面，實驗性技能次之，廢棄技能默認不顯示。規劃者在為每個步驟選擇技能時，既可以調用已有技能，也可以標註"需要編寫新技能"。代碼編寫者拿到規劃之後，在生成代碼時會接收到上一次失敗的步驟級診斷和已經成功的代碼片段，這樣它就知道哪些部分不用改、只需要修改哪些關鍵之處，而不必每次都從頭重寫整個程序。這個設計大大減少了無效的重複工作，也降低了改了已經成功部分的風險。

在記憶管理環節，新技能被提取出來時會經過一套靜態驗證：確認它定義了一個可調用的函數，只使用已知的基礎原語或現有技能，且與庫中已有技能沒有重大重複。通過驗證後，才會被正式加入技能庫。每個技能的調用成功率會隨時間持續追蹤更新，晉升規則是"至少被調用3次且成功率不低於50%"，降級規則是"至少被調用10次且成功率不超過20%"。記憶整理者每5輪執行一次清理，合併相近教訓，刪除無效教訓，並根據反覆出現的失敗模式主動起草候選輔助函數——注意，這些主動起草的函數進入技能庫後也是"實驗性"狀態，需要通過後續實際使用來驗證其價值。

八、局限性在哪裡？

研究團隊在論文中誠實地列舉了RATS目前面臨的挑戰。

首先，RATS的評估絕大部分仍在模擬環境中完成，真實機器人的測試規模較小，兩個任務各40次，這距離證明穩健的現實世界適用性還有一定距離。模擬環境和真實世界之間的差距（如物理摩擦、光線變化、傳感器噪聲）可能在更複雜任務上顯著放大。

其次，玩耍期可以練習的內容受限於模擬環境的豐富程度。如果模擬場景中只有有限的物體類型和動作種類，機器人能積累的技能就自然有限，難以覆蓋真實世界中多樣的物體形態和物理特性。

第三，技能檢索並非總是準確的。當檢索到的技能與當前任務並不匹配時，強行使用可能反而降低成功率——論文中的數據顯示，在MolmoSpaces的"打開"類任務中，成功率僅有20%，遠低於"關閉"類的73%，部分原因可能與技能與任務的匹配質量有關。

贊助商廣告

第四，RATS的推理成本較高。完整的規劃-驗證-診斷-重試循環涉及大量語言模型調用，從token消耗分析來看，僅10輪玩耍就消耗了超過500萬個token，其中故障診斷器占40.5%，代碼編寫者占28.8%，失敗記憶提煉占19.4%。這意味著RATS的運行成本相當可觀，如何在不犧牲效果的前提下降低計算開銷，是未來需要解決的問題。

第五，系統目前依賴視覺語言模型來判斷每個步驟是否成功，這種"視覺核查"本身也可能出錯，特別是在光線不佳、遮擋嚴重或場景複雜的情況下。

說到底，RATS揭示的核心洞見其實並不複雜：如果你想讓一個人變得更有能力，最好的辦法不是在他接到任務時臨時抱佛腳，而是給他足夠的時間和空間在任務來臨前主動積累經驗。這對人類如此，對機器人也不例外。

研究團隊用數據證明了，玩耍積累出來的技能不僅能幫助機器人在熟悉環境中表現更好，還能跨越環境邊界、跨越機器人形態的差異，直接被其他系統調用。這種"先練再用"的範式，可能為未來機器人學習提供一個不同於"邊做邊學"的新路徑。

當然，目前的成果還相對初步。真實機器人的測試任務只有兩到四個，模擬環境的物理保真度與現實世界仍有差距，系統的計算成本也需要進一步優化。但這個方向本身值得繼續探索，畢竟人類花了好幾年在學校里"玩耍式地"積累基礎能力，才能勝任各種複雜工作——沒有理由要求機器人在沒有任何預先練習的情況下，一開機就無所不能。

對這個話題感興趣的讀者，可以在arXiv上通過編號2606.19419找到完整論文，以及通過Playful-RATs.github.io查看更多演示影片和實驗細節。

Q&A

Q1：RATS系統的"玩耍期"和普通機器人訓練有什麼區別？

A：普通機器人訓練需要人類事先指定任務、提供反饋或標註數據。RATS的玩耍期則是完全自主的——機器人自己決定練什麼、自己評判成功與否、自己把成功經驗整理成可復用的技能。沒有人工干預，沒有外部獎勵信號，就像孩子一個人在房間裡玩，而不是被老師布置作業。

贊助商廣告

Q2：RATS學到的技能能直接用在其他機器人上嗎？

A：可以，而且這正是研究的重要發現之一。RATS在LIBERO-PRO模擬環境中練習得到的技能庫，被直接"插入"到RoboSuite這個從未見過的模擬環境中，不做任何額外訓練，成功率就提升了8.9個百分點。甚至在單臂機器人環境裡練出來的技能，也能幫助雙臂機器人完成協作任務，跨越了機器人形態的限制。

Q3：RATS的"金髮姑娘機制"是怎麼判斷一個任務難度是否合適的？

A：RATS會查看機器人對完成該任務所需各項技能的歷史成功率，然後用公式計算一個"可學習性"分數。這個分數在歷史成功率約50%時最高——說明機器人有一定基礎但還沒完全掌握，繼續練有意義；如果成功率接近100%說明已經會了，練了收益不大；如果接近0%說明根本沒有基礎，練了也很難成功。系統會優先選擇處於這個"甜區"的任務進行練習。