來自中國機器人產業發展報告的數據顯示,2022年,中國服務機器人市場規模首次超過了工業機器人。
而之所以有這樣的發展趨勢,離不開這些年人工智慧技術在機器人領域的推廣應用。
實際上,智能化已經是機器人產業的大勢所趨,而且有了推動機器人產業發展的可能,就連全球機器人領域明星企業波士頓動力,也在2022年成立了人工智慧研究院,在花大力氣研究機器人的認知智能和運動智能。
這其中,視覺智能又是這些年在機器人領域應用最廣,也是不少機器人能夠在封閉或半封閉空間實現「自動駕駛」的關鍵。
2023年7月,來自GGII的統計數據顯示,在3D視覺傳感器這一細分領域,奧比中光在中國服務機器人領域2022年的市占率達到了71.09%。
奧比中光董事長兼CEO黃源浩稱,「奧比中光2013年成立,2015年就開始為機器人產業提供3D視覺傳感器。」
他認為,大模型對於整個機器人產業的影響堪比「核彈」。
在WRC 2023現場,我們與黃源浩進行了一次深入交流,聊了聊大模型如何影響機器人產業、人形機器人軟硬體如何協同發展,以及奧比中光在機器人領域的產業布局。
「核彈」大模型,變革機器人
問:大模型,尤其是視覺大模型的出現,對機器人產業有怎樣的影響?
黃源浩:視覺大模型和語言大模型類似,都是基於谷歌在2017年提出的transformer架構。
這讓機器視覺經歷了一次從基於CNN的架構到基於transformer架構的變化,機器人由此也變得聰明了很多。
為什麼這麼說?
因為基於CNN架構的機器視覺算法模型的學習過程需要大量的樣本數據,這樣的模型和你下1萬盤棋,它記住了怎麼下棋,也就學會了下棋。
但基於transformer架構的機器視覺算法模型,可能只需要很小的樣本,在下棋方面就有了不錯的能力,這樣的大模型已經接近零樣本學習,甚至已經和人腦的學習模式有點相似了。
這就讓機器人有了類腦的能力,能夠實現端到端控制,你只需要輸入各種感知資訊,輸出直接就是動作了。
這也是為什麼我會覺得大模型對於機器人產業而言會是一個核彈,因為它讓機器人有了和人相似的運動控制模式。
問:大模型對3D視覺技術發展,會有怎樣的影響?
黃源浩:現在大模型在朝著多模態方向發展,而多模態的大模型,本身已經在以圖像、3D圖像,甚至熱成像圖像作為輸入數據了,這是它需要的一個基礎資訊。
另外就3D視覺而言,基於雷射雷達和大模型兩種方式的視覺技術是相輔相成的。
基於雷射雷達的視覺技術更精準,但遠距離定位能力會有所缺失;基於大模型的視覺技術現在還沒那麼精準,工作模式類似人眼,但它能夠實現遠距離定位。
我有一個觀點是,未來機器人在某些方面的性能會比人表現得更好,比如機器人的感知能力。
問:現在3D視覺在機器人的認知智能和運動智能上,分別能實現哪些功能?
黃源浩:認知智能其實更容易做,現在也已經做得很不錯了,現在基於3D圖像數據訓練的視覺模型,進行一些測距等工作已經比人更精準,將來基於這類模型的機器人很有可能會比人更聰明。
例如人如果要將一個凳子從一個地方搬到另一個地方,用肉眼觀察通道的寬度,可能不知道是否能搬得過去,機器人看一眼就能測量出結果,這就是機器人比人厲害的地方,其中實現的就是認知智能。
至於涉及到決策、規劃、控制等運動智能,目前有些企業或者機構做的是確定性模型,基於確定性模型的機器人可能拍出來的運動演示影片很好看,但在實際演示過程中,可能失敗幾百次後調了某一個參數,然後再測試幾百次,又調了另外一個參數,這樣往複測試才拍出一個不錯的demo影片。
然而,這樣實現的運動模型目前沒有泛化能力,如果換到一個新的環境,模型也就無法完全適用了,這也是為什麼像波士頓動力這樣已經創立了超過30年的公司仍沒能實現商業化的原因。
大模型到來之後,只要把基於transformer架構的大模型部署好,隨著數據不斷輸入,機器人就可以做各種動作;當成功做出一個動作,這樣產生的就是一個好的樣本數據,沒成功就是一個不好的樣本數據……。慢慢地,它自己就能學會如何運動。
大模型的參數量級非常大,普遍都在10億級乃至百億級,如果純靠人,是無法實現這樣級別的參數調參的。因而,企業基於確定性模型研發的機器人,如果再遷移到新模式上,可能只能貢獻10%-20%的能力,80%-90%都要基於transformer框架重新再做模型訓練。
今年大模型發展這麼迅速,接下來你會發現,無論是四足機器人,還是人形機器人,它的進化速度會比原來快很多。
明年世界機器人大會上,相信我們就會看到,這些機器人已經聰明很多了。
今年大會上的機器人還沒有很多互動演示,估計明年至少四足機器人會出現比較好的互動能力,後年人形機器人也可能會有很好的互動能力,甚至能跑起來。
人形機器人,軟硬體發展如何協同?
問:雷射雷達、3D視覺在人形機器人上,現在有怎樣的應用?
黃源浩:現在人形機器人產品中,基本都有傳感器,雷射雷達、避障傳感器正常也都有。
實際上,人形機器人未來必然會有多種傳感器做數據輸入,像特斯拉的多目方案會是一種輸入方式,我們這種雙目結構光傳感器也會是一種輸入方式,雷射雷達當然也會是一種必不可少的輸入方式。
目前人形機器人的功能、性能都還不夠強,隨著它的能力變得越來越強,量產能力上來了,元器件的成本也就會隨之下降,這是一個產業化必然要經歷的一個過程。
問:您如何看人形機器人未來的商用情況?
黃源浩:在我看來,人形機器人現在就像一個小孩,它一定會長大,長大過程中會逐漸學會一些技能,等到它18歲、20歲的時候,可能就能夠實現普及應用了。
這麼來看,其實還有20年,現在他才剛剛1歲,20年後人形機器人說不定會有幾十億個。
而要說人形機器人第一個商用場景,我認為大概率會是工業,像在汽車工廠里,未來人會越來越少,預計5-10年就能大規模實現無人化工廠了。
其它諸如家庭陪伴這樣的場景,我認為可能不會那麼快到來,還需要一定時間。
問:人形機器人的軟硬體技術如何協同發展?
黃源浩:當下人形機器人的智商和運動控制能力像是剛出生的孩子,但他的身體骨架已經接近七八歲,所以現在我們處於一個硬體發展快於軟體算法發展的階段。
可能再發展幾年,硬體相對軟體,又會變成短板。
例如機器人的關節,現在一個成年男性能夠輕鬆抬起30公斤、50公斤的重物,但人形機器人拿5公斤、10公斤的重物就已經很難平衡行走了;
此外,人的關節可以用一輩子,但人形機器人的關節可能使用500次、1000次後,各項指標就會下降。
所以現在硬體也還沒有準備好。
如果將人形機器人的軟體和硬體比作它的兩條腿的話,只有人形機器人的「兩條腿」邁步走路,整個產業才能持續前進。
問:所以現在其實是硬體已經發展到一定階段,軟體算法需要跟上的階段,而大模型的出現,讓人們看到了人形機器人在軟體上實現快速突破的可能。
黃源浩:傳統人工智慧可能短期還追不上人形機器人硬體的發展,但是大模型的出現大大加速了這個過程,同時,行業也在硬體上攻堅克難,往前邁步。
機器人迎來產業大分工
問:今年7月你們發布了一個機器人視覺產業技術中台,奧比中光具體在機器人領域有怎樣的思考業務部署?
黃源浩:其實2016年我們就開始為機器人企業供貨3D視覺傳感器了,之前機器人出貨量相對比較少,但7年下來,我們確實為機器人產業提供了很多視覺傳感器。
其實transformer在2017年就被谷歌提出了,只是GPT、大模型的出現,讓大家意識到了這個框架的強大, transformer架構出現的這幾年,我們也一直在思考,也許大模型的出現會讓機器人產業,站到20年前網際網路行業發展初期的時間節點上,而它之後將會保持高速發展。
在機器人產業中,未來除了陪伴類機器人會是大批量出貨的產品外,還會有幾十億小批量、多型號、多機種的各類機器人。
現在機器人企業很多,未來經過大浪淘沙後,還會有兩三千家機器人企業。
現在每個機器人企業都得自己做關節、傳感器、模型算法等等,這種模式的投入產出比顯然是不夠的。
對於機器人這個新興產業,尤其是人形機器人,沒有自研技術,就很難獲得資本市場青睞。
但隨著產業的發展,市場的關注點會逐漸從技術這個單一維度轉向更注重投入產出比,投入產出比能否至少打平,就成了一個企業未來是否能夠融到資金的關鍵。
我的觀察是,現在強調自研能力的機器人企業,慢慢會轉向外采,整個產業會走向一個更符合現在商業世界規則的大分工時代。
這也是為什麼我們會做一個產業技術中台的原因,從技術角度看,奧比中光的綜合能力很強,從傳感器、雷達、模型算法,到小批量多機種的機器人製造,我們都積累了很強的能力。
就製造角度而言,機器人行業更需要的小批量、多機種的製造,這也是奧比中光的優勢。
我們對機器人視覺產業技術中台的定位是,不做機器人(整機)品牌,但是整個機器人產業需要的諸如視覺傳感器、雷射雷達等提供通用能力的產品,我們會盡我們所能去提供,並邀請生態夥伴一起進來,推動整個機器人產業發展。
問:奧比中光機器人業務目標要實現怎樣的業務規模?
黃源浩:機器人產業每年肯定是持續上升的,也會是我們一條持續增長且增長很快的業務線。