
Hugging Face 和 Physical Intelligence 本周悄然推出了 Pi0 (Pi-Zero),這是首個可將自然語言命令直接轉換為物理動作的機器人基礎模型。
Hugging Face 的首席研究科學家 Remi Cadene 在一條引起 AI 社區廣泛關注的 X 平台帖子中宣布:"Pi0 是最先進的視覺語言動作模型。它接收自然語言命令作為輸入,直接輸出自主行為。"
這次發布標誌著機器人技術的一個重要時刻:首次通過開源平台廣泛提供機器人基礎模型。就像 ChatGPT 革新了文本生成一樣,Pi0 旨在改變機器人學習和執行任務的方式。
Pi0 如何將 ChatGPT 式學習引入機器人技術,解鎖複雜任務
這個最初由 Physical Intelligence 開發並現已移植到 Hugging Face 的 LeRobot 平台的模型,可以執行諸如疊衣服、收拾餐桌和打包雜貨等複雜任務——這些任務傳統上對機器人來說都極具挑戰性。
Physical Intelligence 研究團隊在他們的公告中寫道:"當今的機器人是狹隘的專家,僅被編程用於在編排好的環境中進行重複動作。Pi0 改變了這一點,讓機器人能夠學習並遵循用戶指令,使編程變得像告訴機器人你想要做什麼一樣簡單。"
Pi0 背後的技術代表著重要的技術突破。該模型通過七個不同機器人平台和 68 個獨特任務的數據進行訓練,使其能夠處理從精細操作到複雜多步驟程序的各種任務。它採用了一種稱為流匹配的新技術,以 50Hz 的頻率產生平滑的實時動作軌跡,使其在現實世界部署中具有高精度和適應性。
新的 FAST 技術將機器人訓練速度提升 5 倍,擴展 AI 潛力
在此基礎上,團隊還推出了 "Pi0-FAST",這是模型的增強版本,incorporates 了一種稱為頻率空間動作序列標記化 (FAST) 的新標記方案。這個版本的訓練速度比前代提高了五倍,並在不同環境和機器人類型中表現出更好的泛化能力。
這對工業界的影響是巨大的。製造設施可能通過簡單的口頭指令而不是複雜的編碼來重新編程機器人執行新任務。倉庫可以部署更靈活的自動化系統來適應不斷變化的需求。甚至小企業也可能發現機器人技術更容易獲得,因為編程和部署的門檻顯著降低。
然而,挑戰依然存在。雖然 Pi0 代表著重大進步,但它仍有局限性。該模型在處理非常複雜的任務時偶爾會遇到困難,並且需要大量計算資源。在工業環境中的可靠性和安全性也存在問題。
這次發布恰逢 AI 行業發展的關鍵時期。當各公司爭相開發和部署人工通用智能 (AGI) 時,Pi0 代表了首次成功跨越語言模型和物理世界交互之間鴻溝的嘗試之一。
該技術現已通過 Hugging Face 平台提供,開發者只需幾行代碼就能下載和使用預訓練策略:
```python policy = Pi0Policy.from_pretrained("lerobot/pi0") ```
對企業用戶來說,這種可訪問性可能加速各行業採用先進機器人技術。企業現在可以針對特定用例微調模型,可能減少部署機器人解決方案所需的時間和成本。
企業領導者為何應關注開源機器人技術
開發團隊還發布了全面的文檔和培訓材料,使這項技術能夠被更廣泛的用戶群體使用。機器人技術的這種民主化可能導致各個領域的創新應用,從醫療保健到零售業。
隨著技術的成熟,它可能重塑我們對自動化和人機交互的認知。通過自然語言控制機器人的能力可能使機器人輔助在家庭、醫院和小企業中更容易實現——這些領域由於編程複雜性,傳統機器人技術一直難以獲得發展。
隨著這次發布,機器人技術的未來看起來越來越對話化、適應性強和易於使用。雖然還有工作要做,但 Pi0 代表著向使多功能、智能機器人成為實用現實而不是科幻幻想邁出的重要一步。