機器人AI世代來了，谷歌推出新Gemini模型，可在本地運行

今年三月，谷歌推出了Gemini Robotics的「視覺語言動作」（VLA）模型，近日，他們再次推出該模型的升級版，名為Gemini Robotics On-Device。

贊助商廣告

根據谷歌的介紹，該模型是他們最強大的VLA模型，經過優化後，可在機器人設備上本地運行。

谷歌DeepMind高級總監兼機器人主管透露，「該模型獨立於數據網路運行，因此它對延遲敏感的應用很有幫助，並確保在間歇性斷網或無網路連接的環境中，依舊穩定運行。」

另外，谷歌明確表示，Gemini Robotics On-Device是基於3月份推出的Gemini Robotics升級改進而來，專為「雙臂機器人」而設計，旨在提高靈巧應對複雜任務的適應能力。

在此前的一次演示中，該團隊展示了運行這種本地模型的機器人，它們可以輕鬆執行拉開拉鏈和摺疊衣服等基本動作。

谷歌表示，雖然該模型是為ALOHA機器人而訓練，但後來他們對其進行了調整，使其適用於雙臂Franka FR3機器人和Apollo人形機器人。

贊助商廣告

與此同時，谷歌DeepMind還發布了Gemini Robotics SDK。該公司表示，開發人員可以在MuJoCo高級物理模擬器上使用這些模型，允許向機器人展示50到100個任務演示，以訓練它們完成任務。

相比單純的「大語言模型」，這些機器人AI需要面對更多問題，因為機器人不僅存在於物理世界中，還會改變其環境。谷歌DeepMind機器人技術負責人表示，「Gemini能夠生成文本、寫詩、總結一篇文章，甚至編寫代碼，現在，它還可以生成機器人動作。」也就是說，谷歌認為他們的機器人模型已經可以通過大數據訓練各種動作，在快速疊代中面對各種物理世界的問題。

另一個擔憂是，相比對話型AI，這種機器人AI更需要關注安全問題，畢竟「終結者」這種恐怖橋段更容易成為現實。谷歌方面表示，為了保障Gemini Robotics的安全，他們採用了多層限制的辦法。具體來說，控制機器人的是一個底層VLA模型，在其之上還有一個VLA上級模型，該上級模型用推理模型的方案來判斷什麼指令是安全的。簡而言之，用「AI管理AI」的方式來確保安全。

毫無疑問，機器人AI又是一個新賽道，包括Nvidia在內的很多公司都在秘密研究自己的機器人項目，相信國內也有很多企業在這條賽道上默默前行，讓我們拭目以待新一場AI大戰的揭幕吧。