宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

具身智能專題研究:解耦還是耦合?從AI化到工程化!

2023年08月21日 首頁 » 熱門科技

 

1、產業鏈圖理解傳感器 大模型 具身智能

1.1 從框圖開始理解具身智能 AI

它尤其適用於描述 L2-L3-L4 自動駕駛的智能化處理方式。而自動駕駛是「具身智能」重要落地場景。最上面是「傳感後融合」,傳感器數據處理後再融合、預測、決策、控制。中間是「傳感前融合」,即數據先同步和融合後,再預測、決策、控制。下面近似為「端到端」,大大增加了預測、規劃、控制的數據處理。如果這個問題擴張到更大的範疇,例如增加 AI 推理 理解 運動,把機器人也繪製進去,就得到下面的「具身智能產業鏈圖」。

1.2 傳感器:機器人傳感器

值得一提的是,2020-2022 年是智能汽車傳感器獲得高關注的階段,尤其「硬體預埋」趨勢下。2022-2023 年是機器人傳感器獲得高關注的階段。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

1.3 AI 3D 視覺:NeRF,三維重建新範式

NeRF,即 Neural Radiance Fields(神經輻射場)。其通俗理解:給予海量不同視角的二維圖,合成同一場景不同視角下的圖像。還可以通俗理解為 X-Y-Z 到三維極坐標的轉化,第三視角到第一視角的轉化。NeRF 提出的隱式表達以空間點的坐標和觀察者的視角、位置作為輸入,輸出則是點的 RGB 資訊和占用密度。占用密度這一點與占用函數相似,但沒有像占用函數那樣粗暴地用 0 和 1 表示一個點是否被占用,而是用 0~1 之間的數字表示點被占用的程度,這樣可以大幅減少計算量。

輻射場:如果我們從一個角度向一個靜態空間發射一條射線,我們可以查詢到這條射線在空間中每個點(x,y,z)的密度 ρ,以及該位置在射線角度(θ,φ)下呈現出來的顏色 c( c=(R,G,B))。即 F(x,y,z, θ,φ)→(R,G,B,ρ)。密度是用來計算權重的,對點上的顏色做加權求和就可以呈現像素顏色。給定 F(x,y,z,θ,φ)直接查表獲得 RGB 值和密度,給體渲染方法。體渲染:對上述輻射場的密度和顏色做積分,就可以得到像素的顏色,並遍歷所有像素,這個視角下的圖像就渲染出來了。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

1.4 AI 3D 感知:BEV,可用於具身智能感知

BEV 鳥瞰圖。BEV 的全稱是 Bird's eye view(鳥瞰圖),我們以特斯拉為例:特斯拉車型使用多個攝影機採集圖像,並進行有效的融合。系統直接通過將所有攝影機採集圖像通過矯正後,統一輸入到神經網路來提取特徵。然後利用大模型的 Transformer,將這些特徵進行關聯,之後再投影到一個向量空間之中。BEV 的通俗理解:把不同視角的觀察合成一個「天眼模式」整體圖,了解全局。尤其圖像是 2D 傳感,通過連續序列,恢復出 3D 資訊。

這種方式的優點有:減少硬體傳感器、提高純視覺精度、可復用多種數據源(甚至多模態),缺點是成本高。1)這種鳥瞰圖仿佛就是開了一個整體視角,讓車輛能夠把近處的感知統一放到一個平面中,儘可能的增大了感知的範圍和冗餘度。2)但缺點是成本,2023 年,如果要做 BEV 的城市輔助駕駛,可能需要投入超過百億元。3)BEV 可以結合國內的傳感器優勢。儘管國外通常利於 AI 軟體優化智能駕駛,國內通常利用雷射雷達等傳感器優 化智能駕駛,但 BEV 可以融合雷射雷達的點雲,做到儘量統一。下圖就是一個案例:主要有兩個分支將點雲數據轉換為 BEV 表示。上分支提取 3D 空間中的點雲特徵,提供更準確的檢測結果。下分支提取 2D 空間中的 BEV 特徵(原始點雲轉換),提供更高效的網路。

1.5 AI 3D 感知:占用網路

占用網路 Occupancy Network。Tesla 在 2022 年 10 月的 AI Day 中展現了 Occupancy Network 感知技術。基本的思想是將三維空間劃分成體素(voxel),通過 0/1 賦值對 voxel 進行二分類:有物體的 voxel 賦值為 1,表示 voxel 被物體占據;沒有物體的 voxel 被賦值為 0。當然實際中的賦值可以是概率值,表示 voxel 存在物體的概率,這個概率也可以理解成密度或者透明度。Occupancy Network 的通俗理解:兩維的鳥瞰 BEV,變為三維的鳥瞰。而增加運動序列預測。Voxel 的使用:1)voxel 其實是電腦圖形學和電腦視覺中早期使用的三維重建表達方式,主要用於一些對精度要求不是很高的場景進行三維建模。2)Voxel 的屬性除了是否被占據,還包含語義資訊和速度資訊(Occupancy Flow)等。其中速度資訊是一個三維向量,用於表述 voxel 運動的速度和方向,類似於 2D 圖像中的光流(Optical Flow)。這可以用於判斷物體是否運動。Occupancy 和 Occupancy Flow 都是底層層次資訊,非常適合表示非剛體(non-rigid)場景。3)一個應用領域是汽車 AI,還一個領域是 CT 醫學圖像。Voxel 的表達方法存在解析度、內存占用大、渲染效率的問題,在三維重建領域早已經被 mesh 所取代。但近些年來,隨著深度學習在三維重建領域中的興起,voxel 的重建方案重新興起(以上來自《自動駕駛之心》2023 年 1 月觀點)。

在恢復空間特徵後,融合、恢復高解析度、複雜輸出是關鍵。特斯拉採用暫時對齊(Temporal Alignment)將不同時序的特徵,對齊後融合。進而採用反卷積上採樣,恢復高解析度。畢竟是分割 3D 空間的每個 voxel, 資訊量更加稠密,低解析度可能會導致性能受限。接下來就是占用網路的預測輸出(Volume Outputs)。後面則可以做更多高級語義非任務和輸出(比如:Occupancy Flow,Semantic,Shape,Road Surface 等)。可以根據特斯拉在 CVPR2022 workshop 的演講、特斯拉歷次 AI 發布會的披露,了解細節。占用網路有雙重監督信號。第一是直接占用值的監督,第二是 NeRF 渲染的監督。智能汽車軟體進步還包括端到端能力、多模態、大模型規控算法等。2023 年 5 月,特斯拉推出 FSD v1.4,要現 FSD 端到端能力,即包含高速領航、城市道路領航和泊車的智駕功能。2023 年 6 月,多模態神經網路可能成為後續特斯拉亮點,如攝像影片、地圖、導航、IMU(慣性測量單元)、GPS 等。雖然國內的傳感器方案較為領先,預計會越來越多的借鑑 Transformer、BEV、占用網路等技術。2023 年 6 月,理想汽車家庭科技日的發布,可以作為國內汽車大模型發展的縮影:1)AD Max 3.0 基於 BEV 架構的車端感知模型已經可以在絕大多數路段實時生成穩定的道路結構資訊,奠定擺脫高精地圖依賴的基礎。2)不止感知算法層面,規控算法也使用了大模型技術。3)其 NOA 技術架構特點可以理解為:使用 NPN 特徵和 TIN 網路增強 BEV 大模型,做到不依賴高精地圖,識別萬物;使用模仿學習讓規控算法做出更加擬人的決策;全自動、全閉環的訓練平台支撐大模型持續進化。

1.6 從 AI 感知,到端到端 具身智能(感知 預測 推理 理解 運動)

2023 年 6 月,《Planning-oriented Autonomous Driving》(以路徑規劃為導向的自動駕駛)獲得本屆 CVPR2023 年最佳論文獎(Best Paper Award),其涉及的是自動駕駛大模型,很多思路可以同時用於未來智聯汽車、具身智能機器人。而上述難點 1)識別控制相關軟體、2)基於感知的運動、5)學習與控制交叉,也在本篇論文的思路中有所涉及。從分塊優化,變成一體化 AI 優化,即「端到端」。在過去自動駕駛 AI 中,一般將認 為劃分為多模塊,例如感知、預測、路徑規劃等。論文提出的「端到端」,即一體化訓練、一體化 AI(論文提出 Unified Autonomous Driving,即 UniAD)。它把感知、預測、規劃等三大類主任務、多種子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃)整合到統一的端到端網路框架下。

例如:1) 在 backbone 環節,特徵提取,其中涉及 BEV 和多模態等大模型技術。將一系列多相機圖像輸入特徵提取器,並將生成的特徵通過 BEVFormer 中的現成 BEV 編碼器轉換為統一鳥瞰圖(BEV)特徵。UniAD 並不局限於特定的 BEV 編碼器,並且可以利用其他替代方案通過長期時間融合或多模態融合來提取更豐富的 BEV 表示。2)在感知環節,目標檢測與跟蹤模塊可以實現對動態元素的特徵提取、幀間物體跟蹤。檢測和跟蹤 agents。MapFormer 將 map queries 作為道路元素(例如,車道和分隔線)的語義抽象(semantic abstractions),並對地圖進行全景分割。3) 預測模塊,實現動靜態元素交互與長時序軌跡預測,而且已經有「聯合訓練 AI」。占據柵格預測模塊實現了短時序全場景 BEV、實例級預測。由於每個單元的動作都會顯著影響場景中的其他,因此該模塊對所有考慮的單元進行聯合預測。4)在規劃模塊,基於軌跡預測,做防碰撞,其中涉及占用網路(Occupancy network)等大模型技術。基於自身的軌跡預測和基於占據柵格的碰撞優化並使自己遠離 OccFormer 預測的占用區域(occupied regions)以避免碰撞。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

此前,端對端 AI 訓練很容易出現的問題是:由於涉及環節太多、系統太複雜,很容易出現「局部最優」和「梯度下降」問題。我們本來以為會用殘差網路(ResNet)增加反饋參數,來幫助自動駕駛大模型的訓練。而論文提出的「聯合訓練 AI」,即預測聯合訓練、預測規劃一體訓練,實現了「類似全局優化」,而「子任務」的引入也細化了環節。這篇論文的趨勢可能會改變具身智能(智聯汽車 機器人 智能家居)的 AI 軟體訓練方式:嘗試端對端,並用一系列聯合訓練,來防止局部最優,達到更好的效果。

1.7 具身智能:AI 推理 理解,例如谷歌 微軟等

作為科技巨頭,微軟的 chatGPT 也在努力滲透硬體載體,例如機器人軟體領域。而這些,恰恰將 AI 從感知,推進到推理和理解範疇。ChatGPT 在人機交互的 4 大潛在應用。

1)Zero-shot task planning。根據自然語言指令,生成適用於不同機器人平台和任務的代碼,無需任何預先訓練或微調。這種能力可以讓用戶快速地探索不同的機器人方案,而不需要了解底層的編程細節。場景:機械臂操作、無人機導航、家庭助理機器人等。優點:可以實現跨平台、跨任務的機器人控制缺點:可能存在代碼錯誤或效率低下的風險。

2)User on the loop

交互式對話,以解決複雜的機器人任務,例如需要多步驟或多個目標的任務。用戶可以通過對話提供高層次的反饋、指導或修改指令,而 ChatGPT 可以根據用戶的意圖和上下文調整代碼或行為。這種能力可以讓用戶更靈活地控制機器人,而不需要一次性給出完整的指令。

場景:機器人協作、機器人教學、機器人規劃等。優點:可以提高機器人任務的成功率和魯棒性。缺點:可能需要更多的對話輪次或用戶干預。

3)Perception-action loops

ChatGPT 可以利用視覺資訊來指導機器人的動作,例如識別物體、估計距離、規避障礙等。可以通過 XML 標籤或其他格式來接收和處理圖像數據,並生成相應的代碼或動作序列。這種能力可以讓機器人更好地適應複雜和動態的環境,而不需要預先定義所有可能的情況。適用場景包括機器人導航、機器人抓取、機器人搜索等。優點是可以增強機器人的感知和決策能力。缺點是可能存在視覺誤識別或動作不準確的風險。

4)Reasoning and common-sense robotics tasks

ChatGPT 可以利用常識知識和推理能力來解決一些需要邏輯、幾何或數學思維的機器人任務,例如計算角度、判斷方向、選擇最優路徑等。ChatGPT 可以通過自然語言或數學表達式來表達和解決這些問題,並生成相應的代碼或動作序列。這種能力可以讓機器人更智能地執行一些抽象或難以描述的任務,而不需要用戶提供過多的細節。適用場景包括機器人推理、機器人遊戲、機器人創造等。優點是可以拓展機器人的應用範圍和難度。缺點是可能存在常識錯誤或推理失敗的風險。

谷歌的 PaLM-E 會利於具身智能(Embodied AI)的發展。一方面,具身智能主要涉及機器人的感知、規劃、控制、導航等上層部分。另一方面,具身 AI 不再像傳統 AI 僅從圖像、影片、文本等資料庫中學習,而是基於自身傳感器(多是視覺傳感器)感知環境並通過與環境交互進行學習。模型 AI 發展後,其對具身智能的提升至少包括:1)通過抽象的自然語言直接對機械智能控制。2)Zero shot 下的 CV 能力:圖像分類、語義分割、目標檢測、實例分割、物體追蹤。3)更多跨模態的理解能力。其中,PaLM-E 目前一大特色就是跨模態。PaLM-E(562 Billion parameters)=PalM(540B) ViT(Vision Transformer,22B)。它本身是個多模態的大模型,不僅能理解文本,還能理解圖片(因為加了 ViT),可以理解圖片中的語義資訊。Few-shot prompt 可以看懂笑話(左上角),zero-shot 可以具有圖文思維鏈。

1.8 具身智能:AI 理解 運動

上述微軟、谷歌等 AI 功能,似乎和運動執行、路徑規劃等更加聚焦的智能關聯度低,而以 UCLA 論文《Design of a Highly Dynamic Humanoid Robot》、《Development and Real-Time Optimization-based Control of a Full-sized Humanoid for Dynamic Walking and Running》為例,涉及這些軟體較為深入。這些會啟發我們 2023H2 甚至未來多年,機器人軟體、AI 大模型的一些趨勢。計算單元分為控制安全接口、控制接口、攝像感知接口、硬體接口等,均涉及軟體。

它們對 AI 機器人軟體的涉及包括:1)穩定性問題,可以歸納為識別、控制相關軟體。ARTEMIS 的最初動機是一個可以進行超動態運動的平台。本論文側重於這項努力的第一步,有力地行走和奔跑的能力。後續希望滿足跳躍/轉身等複雜問題,需要做一些延展。例如:其一為推廣運動生成流水線,使其不需要專家知識和平台經驗(可以歸納為 zero-shot 經驗的運動生成),其二為提高穩定性的軟體(跟蹤潛在複雜和快速變化的魯棒控制器)。2)路徑規劃。當前已經有一定「泛化」能力,希望後續發展身體控制/路徑規劃/跨平台運動(沒有感知數據、地面上存在重大障礙物時,ARTEMIS 也能夠保持平衡並在遇到意外時避免掉落。這是因為 ARTEMIS 的運動堆棧的反應性質)。但下一步可以在沒有運算指引的情況下,通過身體控制、路徑規劃等,實現高效的運動(ARTEMIS 可以穩健地從 A 點移動到 B 點,但走哪條路仍然是一個未完成的任務)。如果這樣做成,不僅限於 ARTEMIS,還為混合系統的路徑規劃領域開闢路徑。3)基於感知的運動,下一步有兩個路徑,一個是多步驟足跡規劃,一個是狀態估計。當前基於環境的運動有一定進展。當前先感知數據,以告知機器人腳可以定位的安全區域,這可以從頭部的立體相機或位於其身體的兩個立體相機獲得。感知數據可用後,下一個挑戰是呆在安全區域。一個解決方法是,更長的足跡規劃;另一個解決方法是,態估計。目前機器人浮動底座的位置狀態不可觀察,導致坐標系漂移。若將感知數據與定位上下文中的狀態估計結合,則所有狀態都變得可觀察。

儘管這是當前領先的設計,但也做出下一步機器人軟體發展的趨勢展望:4)把物理接觸建模,在抓取/碰撞等任務中,問題會放大。工作控制器中,模擬建模和實際物理情況,經常有差距。模擬與現實之間的差距經常在學習社區中討論,但在機器人技術中卻很少被強調。這個問題可能會在碰撞檢查很重要的其他機器人領域反覆出現, 例如靈巧操作和抓取領域。5)學習與控制交叉口。硬體上做上述測試,成本太高。在考慮魯棒性或隨機性的作品,但另一種方法可能是在管道中採用基於機器學習 AI 的方法。而且可以推測,一旦 AI 訓練資源足夠,很可能後續的動作會更加多樣。因為論文提到,「模型相關的計算負擔,模型中的非線性通常會禁止它們在在線規劃和控制中的使用」(「Additionally,nonlinearities in the models often prohibit their usage in online planning and control because of the computational burden associated with them」)。6)人機交互(HRI)。ARTEMIS 也可以成為一個有趣的平台,可用於探討超動態運動以外的主題,其中之一就是人機交互。7)合成運動,也就是連續運動反映的意圖和情緒。運動發生的規模和速度可以暗示接下來的運動是什麼。此外,運動的空間和時間方面的差異也可以表示情緒和意圖。而其中1)識別控制相關軟體、2)基於感知的運動、3)學習與控制交叉,正是下一 章節論文涉及的。

1.9 具身智能的零樣本嘗試:如李飛飛 VoxPoser

解決需要預定義動作、機器無法直接被 LLM(大語言模型)操控問題。2023 年 7 月《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》中,指出:1)很多訓練需要預訓練、預定義。大語言模型 LLM 雖然取得了進展,但大多數人仍然依賴預定義的動作原語來與環境進行物理交互,這仍然是一個主要瓶頸。2)大語言模型直接輸出控制不可行。文本通常由高維空間中的高頻控制信號驅動,而機器人運動無法直接達到高維高頻率。本論文的解決思路是利用 LLM 的優點。LLM 在自由形式語言教學中,擅長推斷可能性和約束條件。而且,通過 LLM 可以具備代碼編寫能力。代碼能力可以與視覺語言模型(VLM)交互,以組成 3D 價值圖,將知識根植於觀察空間。然後將組合的值映射為機器人的軌跡(專業說法是,基於模型的、零樣本、具有動態擾動魯棒性的閉環機器人軌跡)。論文將這種方法稱為 VOXPOSER。這是一種從 LLM 中提取可能性和約束的公式,用於在 3D 觀察空間中組成體素(Voxel1)值圖,以引導機器人與環境交互。具體來看:1)從指令語言中,輸出語言的可供性和約束;2)轉化成 PYTHON 代碼;3)代碼調用 API;4)API 操縱 3D 體素(Voxel);5)AI 的獎勵機制(正文指出,有效地提供觀察空間中的「密集獎勵」,能夠 在每一步都重新規劃)訓練動作;6)路徑規劃期目標函數,併合成路徑。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

1.10 具身智能的泛化嘗試:谷歌 RT1、RT2

我們分析了 2022 年 12 月《RT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE》、2023 年 7 月《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》,做一些分析。2022 年 12 月《RT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE》,指出:1)難點是可擴展和大容量。AI 在視覺、NLP 等領域已經成功,從孤立的小規模數據模型轉向大型通用模型(預訓練過)。後續,要點是開放式任務不可知訓練,以及能夠吸收大規模數據,形成高容量架構。2)難點是機器人的多任務模型。在有監督學習中,消除對大型特定任務數據集的訓練很有意義,但對於多任務訓練很難。在機器人領域,希望訓練一個強力的、大型的多任務骨幹模型。

具體來說:3)對圖像和語言,轉為標記 Token。模型建立在 Transformer 架構上,以圖像和任務描述的歷史作為輸入,並直接輸出標記化的動作。4)依賴圖像和語言的預訓練,這是後續可以改善的。圖像通過 ImageNet 預訓練的 EfficientNet-B3(Tan&Le,2019)模型,該模型以 6 幅解析度為 300×300 的圖像作為輸入,並從最終卷積層輸出形狀為 9×9×512 的空間特徵圖。對於語言的預訓練,先通過 Universal 語句編碼器嵌入(Cer 等人,2018)。然後轉為 FiLM 層(Perez 等,2018)的輸入。該層被添加到預訓練的 EfficientNet 中,以調節圖像編碼器。5)經過 TokenLearner,到標記化動作。上述指令被轉換後,通過 FiLM 層調節預先訓練的 EfficientNet。生成的視覺語言標記由 TokenLearner 精簡,輸入到 Transformer 中,輸出標記化動作。

2023 年 7 月 《 RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》。1)增加網際網路學習能力,利於擴展。論文指出:研究了如何將基於網際網路規模數據訓練的視覺語言模型直接納入端到端機器人控制中。並使 RT-2 能夠從網際網路規模的訓練中獲得一系列緊急能力。這利於解釋機器人訓練數據中不存在的命令的能力(例如將對象放置在特定數字或圖標上),以及響應用戶命令執行基本推理的能 力(如例如拾取最小或最大的對象或最接近另一對象的對象)。2)增加有效率的「泛化」能力。論文指出:為了將自然語言響應和機器人動作都適應相同的格式,將動作表示為文本標記,並以與自然語言標記相同的方式將其直 接合併到模型的訓練集中。正文稱之為視覺語言動作模型(VLA)。 值得注意的是,本文的 VLA/VLM 與李飛飛團隊定義的 VLM 的含義有相似之處,均為 vision language action model,只是 VLA 更強調動作 action。3)強調了動作微調。為了使視覺語言模型能夠控制機器人,必須訓練它們輸出動作。論文採取了一種直接的方法來解決這個問題,將動作表示為模型輸出中的標記(類似語言標記)。動作空間主要包括機器人末端執行器的六自由度(6DoF)位置和旋轉位移。

連續維度(除離散終止命令外)被均勻地離散為 256 個倉。因此,機器人動作可以使用離散倉的序數表示為 8 個整數。為了使用這些離散化的動作將視覺語言微調為 VLA(視覺語言動作模型),需要將模型的現有標記化中的標記與離散動作倉相關聯。可見:RT-2 的發展,將「具身智能」的智能化繼續推進。它 1)延續了 RT-1 的多模態(視覺、指令、動作一體化智能),與李飛飛團隊 VoxPoser 的 VLM 思路有相似之處。2)泛化和延展性大大增加,但在「0 樣本」和動作自由度上,依然有空間。3)投資者 2022-2023 年機器人投資標的主要是減速器、傳感器等硬體,預計未來會走向大模型軟體等標的。

1.11 產業鏈小結

可見:1)2020-2022 年,大智聯汽車的傳感器環節是產業鏈重點。2)2022-2023 年,大機器人成為重點,催化劑為特斯拉機器人的進展。3)2022H2 至今,軟體能力、智慧能力,得到大幅度增強,主要是大模型的研發、營銷、工程化落地加速。

2、兩大關鍵問題

本章討論兩大關鍵問題:耦合/解耦,鐘擺效應。

2.1 軟硬體耦合或解耦:可能是兩套體系

部分投資者認為具身智能會「解耦」,即軟體、硬體(甚至製造和生產等)分離。我們認為:可能是兩套體系。尤其「東方式」、「西方式」產業鏈不同。我們的科技 TMT 價值鏈往往屬於「東方式」。我們每個環節的價值鏈都相對平均,體現「行行出狀元」,也與「共同富裕」更加契合。這樣為了變強變大,往往需要在零件/產品/IT 服務/品牌均較為出色,才能成為國內 tmt 領軍。這樣會促進「硬體 軟體 生產一體化」,也會促進 tmt 領軍直接接觸客戶。而「西方式」的 tmt 往往是「解耦」的,某個細分領域成為世界領先即可,即使當前甚至較長時間不盈利。一旦持續收入較快增長,預計會在某個時間扭虧為盈,利潤率快速提升(例如 NFT、chatGPT、軟體等較為虛擬的事物在西方更流行)。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

2.2 鐘擺效應

正是由於「解耦」與「耦合」,均在較長時間內存在,但市場往往一段時間只傾斜一個,這就形成認知的鐘擺。

最終兩種路徑往往互相學習、借鑑,形成「折中」的形態。

3、下一步:現金流和工程化

當前情況下,具身智能和 AI 軟體的工程化落地是關鍵。我們從歷史經驗中發現,現金流好的公司,創新勝率明顯更高。工程化能力雖然難以量化,但淨營業周期往往是很好的代替,就是經營周轉能力。往往反映了「研發 產品 工程 銷售 話語權」。

3.1 「倉廩實而知禮節」:適用於具身智能 AIGC

從當前網際網路、網際網路 ,都可以發現:有較好的現金流,對創新的勝率明顯提高。這也適用於具身智能、AIGC。眾所眾知,1995-2001 年「資訊高速公路」,帶來了產業和股票都較大表現。但此後為「泡沫破裂」、「去偽存真」。最後崛起的代表例如微軟、亞馬遜、思科、英特爾;讓人惋惜的代表包括網景公司、Webvan、雅虎等。1)網景公司 Netscape。微軟在於網景競爭中逐漸處於上風。1998 年 11 月 24 日,美國在線以 42 億美元、免稅換股的方式,收購網景。而在 2000 年美國在線又與時代華納合併。2007 年 12 月 28 日,美國在線在博客表示將停止網景瀏覽器的開發。2)雅虎。1998 年,雅虎本來有機會收購當時的谷歌雛形——「BackRub(網路爬蟲)」 項目,谷歌創始人拉里·佩奇和謝爾蓋·布林要價 100 萬美元將項目賣給雅虎。但當時的雅虎只願意在搜索方面跟它合作。2006 年,雅虎報價 10 億美元收購 Facebook,但最終收購價下調至 8.5 億美元,雅虎沒有收購。2008 年,微軟出價 446 億美金試圖收購雅虎,但沒有成功。

我們認為,雅虎對技術的關注度高低、對長期發展的關注高低,決定了這幾次決策。3)Webvan。Webvan 是一家美國的網上雜貨零售商,曾經一度非常著名。當時,Webvan 一度開支巨大。Webvan 斥資 10 億美元建設先進的倉庫,但這並不能迅速帶來回報。Webvan 在 2001 年宣布破產。我們認為,1995-2001 年生存下來、甚至最終發展壯大為網際網路領軍的:第一點是長期主義,體驗在戰略和研發。1997 年亞馬遜的貝佐斯開始寫致股東的信,希望創造一種「經久不衰的特許經營權」機制,一種通過釋放網際網路的力量,這體現著長期主義。這種精神,在最終網際網路領軍上均有體現。第二點是安全邊際,主要通過現金流體現。相關公司 1996-2006 年財務情況驗證了安全邊際的重要性:即使網景公司如日中天時,自由現金流也不佳。即使亞馬遜還在起步階段,2002 年起自由現金流已經是正數。

3.2 技術和工程能力的財務篩選

工程化能力雖然難以量化,但淨營業周期往往是很好的代替,就是經營周轉能力。往往反映了「研發 產品 工程 銷售 話語權」。

4、重點公司分析

4.1 螢石網路:工程能力強 2C 機器人

螢石網路短中長期邏輯均有較大看點:短期看,半年報業績超預期且高增有望持續;中期看,「SaaS AI」拉動新增量,螢石雲有望非線性加速;長期看,面向具身智能積極備戰,有望成為 2C 機器人「國家隊」。首先,公司近期發布 2023 半年報,利潤大超預期:2023 上半年收入 22.85 億元,同比增長 9.3%;歸母淨利潤 2.59 億元,同比增長 70.3%。其中 23Q2 收入 12.06 億元,同比增長 14.1%,歸母淨利潤 1.67 億元,同比增長 100%。我們在業績前瞻中預測 23Q2 收 入 12 億元、歸母淨利潤 1.25 億元,實際收入完全符合預期,利潤大超預期。23Q2 毛利率同比大幅提升 8.6pct 至 44.6%,是利潤超預期的主要推動力。我們認為原因在於:1)公司通過對採購和訂單管理精細化,使得供應鏈成本下降;2)上半年主要電子元器件價格處於下行周期;3)收入結構上,毛利率水平偏低的專業客戶占比下降、高毛利率的物聯網雲平台業務占比提升、海外業務占比提升。以上 1)、3)兩點因素將在長周期維度上,持續提升公司毛利率中樞。

 

具身智能專題研究:解耦還是耦合?從AI化到工程化!

 

其次,「SaaS AI」拉動新增量,螢石雲有望非線性加速。此前雲服務付費率不高(根據公司年報,2022 年 C 端持有螢石設備的年度累計活躍用戶數約 2100 萬,持有螢石設備的年度累計付費用戶數約 227 萬,付費率約 10.8%),主要由於能力單一(雲存儲占絕對大頭)。當前變化正在發生,2022 年底公司推出了首款老人看護服務套包,此外面向寵物看護、兒童看護等特殊場景將持續推出 SaaS 化訂閱的 AI 算法包,通過為客戶提供增量價 值、切中用戶剛需,實現雲業務付費率、ARPU 值的上行。並且在未來有望結合 AI 大模型,在改善體驗的同時增加收費點,進一步提升雲服務收入增速和占比。

第三,面向具身智能積極備戰,有望成為 2C 機器人「國家隊」。我們認為,公司發展具身智能已集齊多重有利因素:1)起步早、能力全。公司在 2023 半年報中,明確表示「針對 C 端具身智能機器人方面做積極的布局沉澱和前瞻性預研。」截至上半年在研的 9 大項目中,多數與具身智能相關,其中技術涉及硬體的運動控制、軟體的導航算法,以及大模型、雲邊融合等,均將為 2C 機器人的研發奠定基礎。在智能服務機器人產品線上,目前公司已經布局了清潔機器人和陪伴機器人,未來產品線有望持續豐富。2)雲能力 製造能力,兩道護城河。一方面,公司憑藉稀缺的雲服務能力,能夠為智能家居和機器人注入智慧的靈魂,提升用戶體驗,並實現快速疊代進化;另一方面,公司不斷強化製造能力,包括 IPO 募投的螢石智能製造重慶基地項目,將為 2C 機器人降低成 本、快速疊代帶來關鍵優勢,有望更快實現「更低成本-更高市占-更多數據-更大競爭優勢」的飛輪,在 C 端具身智能領域占據領先位置。3)既有國家隊身份,又富有管理活力。螢石實控人為中電科,又背靠實力強勁的母公 司,C 端機器人「國家隊」身份下容易獲得各方資源支持;同時,公司管理團隊在長期的市場競爭中,已經充分證明了戰略和管理能力,並擁有高度市場化的激勵機制。

此外,公司在線上線下、國內國際渠道全面布局,助力上述邏輯加速兌現。1)國內電商渠道方面,加大在常規的電商平台上直播和優質達人帶貨,還積極開拓抖音等內容興趣電商的直播渠道銷售;2)國內線下渠道方面,公司形成了直營旗艦店、經銷商專賣店、下沉市場堡壘店等多層次的終端渠道架構,積極布局線下專賣體驗店,助力全屋智能系統業務;3)海外渠道方面,上半年在零售連鎖賣場、家居建材類連鎖店、專業經銷渠道和街邊店等多渠道中均取得了較好的增長,目前已在多個國家和地區實現線上與線下多渠道覆蓋。

4.2 柏楚電子(申萬機械):具身智能領軍。切割主業高速成長 焊接新品或迎放量期

公司上市前主業為雷射切割設備運控系統,上市後公司縱向延伸智能雷射切割頭業務、橫向拓展智能焊接機器人控制系統業務。

(一)業務 1:雷射切割系統-柏楚方案降低行業准入門檻,綜合市占率持續提升

運動控制系統是雷射切割設備、自動化生產設備的關鍵功能部件,一個完整的雷射切割流程包括:第一步,使用控制系統提供商提供的雷射專用設計軟體或第三方工業設計軟體如 AutoCAD、Solidworks 等繪製零件、裝配體的加工圖紙;第二步,將加工圖紙通過軟體進行後期圖形處理及排版,生成加工的工具機代碼;第三步,雷射切割工具機根據代碼指令執行切割任務,整個切割過程中涉及圖形編輯、工藝設置及具體加工工藝選擇、運動控制、切割頭和雷射器等外設控制、加工控制、切割頭與切割部件之間焦距控制及隨動等各環節,最終完成零件、裝配體的加工。雷射切割過程所需的關鍵技術包括 CAD、CAM、NC、傳感器技術等硬體設計技術:1)CAD 技術:通過電腦建模或從圖紙讀取數字模型,進行圖形識別、編輯和優化處理,生成零件並將零件通過電腦輔助在板材或型材上進行排版,並輸出待加工模型;2)CAM 技術:根據工藝要求,通過電腦輔助生成所需的刀路軌跡以及光路、氣路、焦點等控制參數和自動化加工模型,並生成指令;3)NC 技術:可以實現根據生成的工具機代碼指令執 行具體加工工序的功能,具體涉及加工過程中的運動/加工控制、切割頭和雷射器等外部設備控制等;4)傳感器技術:通過傳感器技術實現切割過程中溫度、濕度、壓力、光電、視覺、氣壓、雷射加工頭與被切割板材之間的間距等因素的控制,從而優化雷射加工效率,提高智能化水平;5)硬體設計技術:針對雷射行業特殊需求,定製開發相應硬體產品,合理的硬體設計和專業的檢測手段可以起到提高切割穩定性及抗干擾能力的作用。

柏楚產品推出後重新定義雷射加工行業標準、降低切割設備操作門檻及學習成本。公司核心技術自主研發,完整地掌握了雷射切割控制系統研發所需的 CAD 技術、CAM 技術、NC 技術、傳感器技術和硬體設計技術五大類關鍵技術。在柏楚電子推出「CAD、CAM 和 NC 三合一雷射切割控制系統」和「網路通訊式隨動系統」兩項技術變革前,國際雷射切割的完整流程通常為:利用 AutoCAD、Solidworks 等專用 CAD 設計軟體繪製零件圖,然後 再導入美國 SigmaNest 或西班牙 Lantek 等專業排樣軟體中進行零件後處理和排版,生成加工文件後導入德國倍福、德國 PA、西門子等數控系統中,搭配德國 Precitec 的電容隨動系統進行後續加工操作。柏楚電子推出上述技術變革後,為下游雷射設備製造商提供了一站式的解決方案,重新定義了我國雷射加工行業的標準,用戶可以在柏楚電子的控制系統中同時實現上述雷射加工的全部流程,大幅降低雷射切割設備的操作門檻和學習成本,簡化雷射切割設備的裝機和調試過程。柏楚電子在雷射切割領域保持強競爭力。1)中低功率雷射切割控制系統:柏楚電子的中低功率產品在穩定性、可靠性、精度、速度、易用性等各方面均具備明顯優勢,市場占有率約為 60%。2)高功率雷射切割控制系統:目前國際廠商依然占據絕對優勢,為中國市場主導者,柏楚 2021 年市占率約 17%,近年隨著國內高功率雷射切割市場發展及柏楚產品日益成熟,柏楚份額持續提升中。

(二)業務 2:智能切割頭-搭載高功率切割設備,滲透率提升 中國替代

切割頭充當「四肢」的角色,與控制系統實現協同互補。雷射切割控制系統與智能雷射切割頭是大腦與四肢的關係,兩者軟硬結合,需要在資訊收集、傳輸、反饋的同步性和精密性上達到很高的契合。切割頭在雷射切割中的工作流程是:雷射器產生雷射,通過外光路傳輸,在切割頭內經聚焦鏡聚焦後,作用於被加工材料表面,將材料氣化或者在切割氣體輔助下形成熔池,以實現吹散被雷射融化的金屬熔渣或助燃。由於高功率雷射切割的工作環境惡劣,設備需要在高溫、高濕、粉塵污染大的環境下運行,外部環境和切割頭內部任何微小的變化都會對設備性能和切割效果產生較大影響,因此及時將工況資訊傳遞迴控制系統,由控制系統進行實時調整,有助於最大程度保證雷射切割設備的工作效率。

柏楚電子智能切割頭產品與高功率軟體搭載銷售,客戶認可度高、銷售額快速提升。目前我國整機製造廠商使用的高功率雷射切割頭和三維雷射切割頭主要依賴進口,主要供應廠商分別為德國 Precitec 和德國 LT。且德國廠商生產的切割頭的傳感器數據無法與中國的雷射切割系統進行實時的通訊,從而無法實現智能的閉環控制策略。公司雷射切割頭具備安裝、調試簡易,傳感器齊全,將是目前市場為數不多的具備與國外同類產品競爭力的中國智能切割頭。從產業層面來看,公司原有主業雷射切割頭軟體和智能雷射切割頭在雷射切割設備整機製造中屬於平行工序的關係,下遊客戶高度重合。基於公司在控制系統細分領域內的龍頭位置,公司拓展智能雷射切割頭具有渠道優勢,且客戶對於切割頭評價反饋較高,子公司波刺自動化(切割頭業務主體)營收快速增長。2020 年波刺自動化子公司營收進 0.11 億元,2023 年上半年營收達到 1.54 億。

(三)業務 3:智能焊接機器人控制系統-機器換人大勢所趨、柏楚產品或迎放量期

鋼構非標場景屬性,倒逼智能焊接機器人需求。智能焊接機器人產品為電弧焊焊接機器人。按照機器人加工路徑生成的方式不同,焊接機器人產品可以分為示教焊接機器人和智能焊接機器人兩類。示教焊接機器人主要需要人工示教來編輯焊縫的加工的路徑;智能焊接機器人通過離線編程來生成焊縫加工路徑。目前國內焊接行業自動化水平較低,現有進口產品成本過高,且對操作調試人員的技術能力具備較高的要求。而隨著我國鋼結構產業的持續快速發展,鋼構產品產量增加將直接帶動鋼構焊接市場需求。與此同時,焊工工種的持續短缺,使得鋼構企業對於焊接自動化解決方案的需求與日俱增,智能焊接機器人替代人工為行業趨勢。

完整的鋼結構零件焊接加工流程及公司核心技術在焊接工藝的應用情況如下:第一步、從 Tekla,Revit 等建築設計軟體里導出需要焊接的鋼結構零件模型。第二步、對鋼結構零件模型進行編輯,設置焊縫,生成坡口並設置焊道順序。第三步、在數字孿生系統中編輯機器人焊接動作,進行運動仿真,確認加工路徑正確沒有碰撞。並生成焊接加工站運行指令。第四步、3D 相機掃描整個工件,對工件進行識別和空間定位,並校正焊縫的加工位置數據。然後機器人根據焊接指令運動到焊縫起始位置進行焊接。焊接過程涉及機器人姿態自適應調整,動態規劃路徑以及自動避障,焊接工藝選擇匹配,焊縫跟蹤傳感器控制,圖像信號處理,焊縫跟蹤過程以及焊接工藝動作實時調整,最終完成零件的焊接。

切割與焊接為上下道工序,柏楚切割場景積累技術工藝可部分復用於焊接場景。切割與焊接在鋼結構產品生產製造中屬於上下游工序的關係。由於焊接與切割在 CAD 技術、CAM 技術、NC 技術、傳感器技術和硬體設計在智能製造和自動化領域的共通性,公司在切割領域所積累的核心技術儲備為進軍智能焊接機器人及控制系統領域奠定了堅實的基礎。目前,中國焊接機器人大多數為需要人工示教的半自動化模式,公司通過開發工件視覺定位系統、智能焊縫跟蹤系統通過視覺傳感器識別工件和焊縫,智能焊接離線編程、控制系統通過 CAD 技術、CAM 技術、NC 技術進行焊接機器人加工工藝控制,達到取代人工示教模式進行自動化智能焊接的效果。當前下游鋼構企業迫於產能及成本壓力,對於智能焊接機器人需求迫切,隨著公司產品成熟度提升及積極市場推廣,未來焊接產品或將迎來放量期。

4.3 德賽西威(tmt&汽車):從中國領先 tier1 走向世界級

德賽西威是中國領先的汽車 tier1,從事智能座艙、智能駕駛、智能互聯業務。預計未來要衝擊成為世界級 tier1

公司成長來自乘用車銷量、智能化滲透率、智能化 ASP、客戶結構四重因子的成長。收入增長的持續強勁驗證了滲透率和 ASP 的增加。現金流的優秀、減配壓力下較強的毛利率(剔除匯兌影響)體現優質客戶結構的增加。而 2023 年 5 月開始,車市恢復狀態中。2) 2023H2-2024,預計德賽西威即將迎來 IPU02 增長、第四代座艙電子、高階 ADAS 量產、ADAS 出海等新型機會。

4.4 虹軟科技:工程化能力強 車載 AI

虹軟科技在 AI 底層視覺優化較好,適用於手機 車載 VRAR 商戶 AIGC 等領域。伴隨特斯拉視覺 AI 大模型熱議,投資者尋找 BEV 路線圖的標的。而虹軟科技官方網站實際披露了虛擬 BEV 幫助停車。我們認為 BEV 和占用網路分成軟體到硬體等多種工業實現級別,虹軟科技可能已經布局較早較深,是特斯拉視覺 AI 路線圖技術路線的核心標的。

4.5 立訊精密(申萬電子):被低估的汽車 tier1

向汽車 Tier1 進軍:十年厚積薄發,可簡單歸納為「投資」、「產品」「擴張 客戶」、 「合作 研發」等幾大階段。2012-2014 年,其通過投資試水。2015-2019 年,在提高汽車業務在公司的戰略優先級,產品線也在拓展,但主要在連接器與線束。2019-2020 年報指出「汽車向智能汽車演進的過程中將迎來黃金十年」,開始清楚的繪製產品線矩陣圖。2021-2022 年,在規模擴張、產品拓展、商務合作(主要是奇瑞與華為)的同時,執著於 下一代研發成為特色:2021 年年報指出「線束、連接器、動力、智能網路等」,2022 年報指出「FAKA 線束、高壓線束、二充電槍、MCU」。汽車 Tier1 空間:單車 ASP 1 萬元,峰值 4 萬元,預計空間 2000 億。產品覆蓋汽車線束、連接器、智能網聯、智能座艙及新能源汽車動力系統等核心零部件,形成六大產品系列:汽車線束、連接器、智能新能源、智能網聯、智能駕艙、智能製造等。我們依照其披露的產品,得到單車 ASP 價值約 4 萬元。

4.6 雙環傳動(汽車&機械):精密齒輪製造平台公司,機器人減速機打開新空間

公司深耕齒輪行業 40 餘年,齒輪技術和工藝積累深厚,由傳統燃油車到自動變速器、新能源車、商用車,再到工業機器人,平台化模式持續打開成長空間。乘用車齒輪:在新能源車的齒輪精度提升背景下,主機廠需求向有優質產能的第三方供應商轉移,預計 25 年市場空間 107 億。公司核心工藝 高端設備 二次開發能力構成護城河,保障領先地位。預計 23-25 年乘用車齒輪收入為 47.1/56.5/67.3 億元,同比 29%/ 20%/ 19%。商用車齒輪:國內商用車 AMT 滲透率遠低於歐美,在景氣回升 汽車油耗排量標準的驅動下,滲透率有望快速提升,預計 25 年市場規模 19 億元;公司綁定大客戶有望享受超額成長。預計 23-25 年收入為 8.6/11.4/13.3 億元,同比 67%/ 32%/ 16%。工業機器人:RV 減速器目前尚未市場大規模中國化,公司產品已有 40 型號,產能超 10 萬台,22 年市占率提升至 14%,在中國品牌中最高。人形機器人:目前尚處於 0-1 階段,主流硬體方案尚未收斂,執行機構持續優化改進,公司具備齒輪加工經驗 機器人行業深刻理解 客戶資源,在機器人減速器領域潛力巨大!

4.7 中控技術(tmt&機械):智能製造軟體領軍

中控技術是基於流程製造業智能製造的解決方案領軍,其軟體能力近年大大增強。根據 Wind,公司始終堅持通過自主創新打破跨國公司的技術壁壘,持續加大研發投入及研發平台建設,成功取得了一系列發明專利、技術獎項、產品認證及國際標準和國家標準。公司曾獲得國務院授予的國家科學技術進步獎二等獎、一項中國標準創新貢獻一等獎和多項省部級以上科技進步類獎項,牽頭或參與制定國際標準、國家標準多項。2014 年公司成為首批被推薦的兩化融合管理體系貫標諮詢服務機構,首次通過 CMMI5 級軟體能力成熟度認證;2017 年,公司入選全國首批智能製造系統解決方案供應商推薦目錄和全國首批 30 家服務型製造示範企業名單;2018 年,入選中國智能製造系統解決方案供應商聯盟第一批供應商推薦目錄;2019 年,被工信部評為國家技術創新示範企業,被國家發改委認定為國家企業技術中心。

4.8 科博達(申萬汽車):汽車電子優秀系統方案提供商

根據 Wind,公司是汽車智能、節能電子部件的系統方案提供商,立足全球汽車產業平台並全面參與全球高端市場的競爭,專注汽車電子及相關產品在智能領域的技術創新與產業化,致力成為全球汽車電子高端產業鏈中富於創新和競爭力的卓越企業,公司是少數幾家進入國際知名整車廠商全球配套體系,同步開發汽車電子部件的中國本土公司。公司終端用戶主要包括大眾集團(包括其下屬子公司奧迪公司、保時捷汽車、賓利汽車和蘭博基尼汽車)、戴姆勒、捷豹路虎、一汽集團及上汽大眾等數十家全球知名整車廠商,且部分新產品已進入福特汽車、寶馬汽車、雷諾汽車的供應商體系,在全球汽車電子尤其是汽車照明電子領域中享有較高的知名度。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新