Google旗下DeepMind新發布RT-2(Robotic Transformer 2),它是一種與眾不同的視覺-語言-行動(vision-language-action,VLA)模型,從網路和機器人的數據進行學習,並將這些知識轉化為控制機器人的通用指令。
RT-2教導機器人識別視覺和語言,解釋指令並推斷哪些對象最符合要求。過去訓練機器人需要很長的時間,研究人員必須單獨規劃研究方向,如今藉助RT-2等VLA模型的強大功能,機器人可在取得大量數據組後,推斷下一步該做什麼。
DeepMind在一篇論文表示,新模型以網路和機器人數據進行訓練,也利用自家Bard等大型語言模型的研究進展,與機器人自身數據相互結合,例如決定需要移動哪個機器手臂關節等,甚至能夠理解英語以外的其他語言指令。
DeepMind舉例,RT-2可讓機器人在沒有經過特定訓練的情況下識別並扔掉垃圾,以AI試圖理解垃圾是什麼以及通常如何處理垃圾,來引導行動。
DeepMind研究人員在像是廚房的測試環境利用機械手臂測試RT-2,《紐約時報》看完機械手臂的現場測試指出,一名研究人員下達「撿起絕種動物」的指令,機器手臂順利從3個小物中撿起1隻恐龍。不過,機器手臂也會把汽水口味識別錯誤,把水果誤認成白色,可見RT-2目前應用還不夠完美。
Google涉足更智能的機器人應用是從去年開始,當時宣布在機器人上使用PaLM模型,創建全新PaLM-SayCan機器人,將大型語言模型和機器人技術集成在一起。
RT-2未來持續發展和測試下,Google的機器人通過大型語言模型在運行上更聰明,不需要複雜的指令將能完成任務,仿佛讓人們距離皮克斯電影《瓦力》(WALL-E)描述的未來世界更進一步。
(首圖來源:Google DeepMind Blog)