機器人技術令人驚嘆,卻也令人沮喪——它們幾乎能完成你交代的任何任務,前提是你得以正確的方式下達指令。不久前,"正確方式"意味著編寫代碼。儘管我們已經擺脫了那種僵化的限制,但易用性與任務複雜度之間仍然存在一種令人頭疼的反比關係。
AI曾承諾改變這一現狀。其核心理念在於:當AI被具身化地植入機器人——賦予AI軟體一個存在於現實世界的物理載體——這些機器人便將具備推理與理解能力。這仍屬前沿領域,儘管我們已在研究場景中見到了大量具身AI的案例,但要找到能讓推理型機器人穩定創造商業價值的應用場景並不容易。波士頓動力是少數幾家能在一定規模上實現腿式機器人商業化部署的公司之一,目前已有數千台機器人投入實際運營。近日,該公司宣布其四足機器人Spot正式搭載谷歌DeepMind的Gemini Robotics-ER 1.6——這是一款高級具身推理模型,為複雜任務帶來了更強的可用性與智能化水平。
儘管相關影片展示的是Spot在家庭場景中的表現,但此次合作的核心聚焦於腿式機器人少數已被證明具有商業可行性的應用領域之一:巡檢。也就是說,在工業設施中四處遊走,確認沒有任何東西處於即將失控的危險狀態。搭載新AI後,Spot現在能夠自主識別危險碎片或泄漏物,讀取複雜的儀表和液位計,並在需要理解周圍環境時調用視覺-語言-動作模型等工具。
波士頓動力Spot業務副總裁兼總經理Marco da Silva在一份新聞稿中表示:"Gemini Robotics ER 1.6等技術的進步,標誌著機器人在更好地理解和運作於物理世界方面邁出了重要一步。儀表讀取和更可靠的任務推理等能力,將使Spot能夠完全自主地感知、理解並應對現實世界中的各種挑戰。"
"推理"和"理解"這兩個詞越來越頻繁地被用於AI和機器人領域,但正如豐田研究院的Gill Pratt近期指出的那樣,這些詞對機器人在實際中意味著什麼,並不總是清晰的。谷歌DeepMind機器人業務負責人Carolina Parada在接受採訪時解釋說:"我們衡量理解能力的基準是:系統給出的回答應當與人類的反應一致。"要讓機器人可靠、安全地執行任務,機器人對世界的理解方式與人類保持一致至關重要。否則,人類給機器人下達的指令與機器人實際執行任務的方式之間,可能會出現偏差。
波士頓動力的演示影片就是一個潛在問題的典型案例。其中一條指令是讓Spot"回收客廳里的易拉罐"。從影片來看,它完成了任務,但在執行過程中是橫向夾持易拉罐的——如果罐內還有殘餘液體,後果可想而知。人類會憑藉多年的生活經驗自然而然地避免這種情況,但機器人目前尚不具備這類世界常識。
Parada表示,Gemini Robotics-ER 1.6會從安全的角度處理類似情況。"如果你讓機器人給你端杯水,它會推理出不能把水杯放在桌子邊緣,以免摔落。我們通過ASIMOV基準來追蹤這一能力,其中包含大量以自然語言描述的、機器人不應做的事情示例。"當前版本的Spot在操作過程中尚未啟用這些語義安全模型,但未來計劃讓其在持握物體時具備相應的安全推理能力。
Gemini Robotics-ER 1.6作為機器人高級推理模型,與機器人本身作為物理世界接口之間,目前似乎仍存在一定脫節。1.6版本的新功能之一是"成功檢測",該功能整合多個攝像角度,以更可靠地判斷Spot是否已成功抓取物體。如果完全依賴視覺來完成物體交互,這無疑是個好方案;但機器人其實還有許多成熟的抓取成功檢測方式,例如觸覺傳感器和力傳感器,而1.6版本目前並未使用這些手段。這背後的原因,折射出機器人領域尚未攻克的一個根本難題:如何在需要物理數據的情況下訓練模型。
Parada解釋說:"目前,這些模型嚴格來說只支持視覺輸入。網路上有大量關於如何拾取一支筆的視覺資訊。如果我們擁有足夠多的觸覺數據,完全可以學習這項技能,但網際網路上幾乎沒有觸覺傳感相關的數據。"使用Spot新巡檢功能的客戶將被要求與波士頓動力共享數據,這正是獲取此類數據的來源之一。
擁有付費客戶這一事實,使波士頓動力在依賴AI進行商業化部署的腿式機器人領域顯得頗為罕見。而這些客戶必須能夠信任機器人——這在涉及AI時始終是一大難題。da Silva在採訪中表示:"我們對此非常重視。我們通過面向少數客戶的Beta計劃來推出DeepMind的新能力,以了解可能出現的問題,並且只會主動推廣那些我們有把握能正常運作的功能。"像Spot這樣的機器人需要達到一定的實用門檻,好在現實世界並不苛求完美。da Silva說:"設施中大多數關鍵基礎設施都會配備儀表來告知你是否出現了問題。但也有很多未被儀表監測的地方,一旦疏忽同樣可能引發故障。我們發現,80%以上的準確率是讓用戶不會感到煩躁的門檻。低於這個水平,機器人基本上就像在'狼來了',操作人員會開始無視它。"
da Silva與Parada都認為,機器人巡檢領域仍有大量改進空間。正如Parada所指出的,Spot作為可規模化商業平台的獨特地位,為探索Gemini Robotics-ER 1.6等模型如何發揮最大價值提供了寶貴機會,並可將這些經驗應用於其他具身AI平台,包括波士頓動力的Atlas。這是否意味著Atlas將成為下一代工業巡檢機器人?大概不會。但如果這些來自真實世界的經驗能讓我們離安全可靠、能夠收拾衣物、遛狗、且不會弄得一團糟地清理易拉罐的機器人更近一步,那確實值得所有人為之期待。
Q&A
Q1:Gemini Robotics-ER 1.6是什麼?它給Spot帶來了哪些新能力?
A:Gemini Robotics-ER 1.6是谷歌DeepMind開發的高級具身推理模型。搭載該模型後,Spot能夠自主識別危險碎片或泄漏物、讀取複雜工業儀表和液位計,並在需要時調用視覺-語言-動作模型來理解周圍環境,從而在工業設施巡檢中實現更高程度的自主操作。
Q2:Spot在執行任務時如何保證安全性?
A:Gemini Robotics-ER 1.6從安全角度出發設計了推理機制,例如不會將水杯放在容易摔落的桌邊。谷歌DeepMind通過ASIMOV基準進行追蹤,該基準包含大量自然語言描述的"機器人不應做的事"。不過,當前版本的Spot在物體操作方面尚未完全啟用語義安全模型,這一功能計劃在未來版本中加入。
Q3:為什麼Spot目前只依賴視覺傳感器,而不使用觸覺或力傳感器?
A:主要原因是訓練數據匱乏。網際網路上存在大量視覺數據,但觸覺傳感相關的數據極為稀少,導致模型無法從中學習。為解決這一問題,使用Spot新巡檢功能的客戶需要向波士頓動力共享使用數據,以幫助逐步積累物理交互數據,支撐未來模型的訓練與優化。






