DAIMON Robotics：為機器人賦予觸覺感知能力

本文由 DAIMON Robotics 提供支持。

今年4月，總部位於香港的 DAIMON Robotics 正式發布了 Daimon-Infinity 數據集。該公司將其定位為目前全球規模最大的面向實體 AI 的全模態機器人數據集，具備高解析度觸覺感知能力，涵蓋從家庭疊衣到工廠流水線製造等多種應用場景。該項目獲得了來自中國及全球多方合作夥伴的協作支持，包括 Google DeepMind、西北大學和新加坡國立大學。

贊助商廣告

此舉標誌著 DAIMON 一項重要的戰略部署。這家成立僅兩年半的公司以先進觸覺傳感器硬體著稱，其核心產品是一款單色視覺觸覺傳感器，能夠在指尖大小的模組中集成超過11萬個有效感知單元。依託高解析度觸覺感知技術，以及每年可產生數百萬小時數據的分布式實驗室外採集網路，DAIMON 正在構建包含大量觸覺感知數據的大規模機器人操作數據集。為加速實體 AI 的現實部署，該公司還開源了1萬小時的數據。

這一戰略背後的核心人物是 DAIMON 聯合創始人兼首席科學家王煜教授。王教授在卡內基梅隆大學師從機器人操作領域權威 Matt Mason 完成博士學業，後創立了香港科技大學機器人研究所。他是 IEEE 會士、曾擔任《IEEE 自動化科學與工程彙刊》主編，在該領域深耕近四十年。他的目標是解決機器人操作中長期存在的"感知缺失"問題——現有方案主要依賴視覺-語言-動作（VLA）模型，而他與團隊開創性地提出了視覺-觸覺-語言-動作（VTLA）架構，將觸覺提升為與視覺並駕齊驅的感知模態。

我們就觸覺反饋如何改變靈巧操作、數據集計劃將如何深化機器人在自然環境中的能力理解，以及觸覺機器人將在哪些場景率先落地等話題與王教授進行了深入交流。

為何選擇現在發布數據集

DAIMON Robotics 已成立近兩年半。我們一直專注於開發高解析度多模態觸覺感知設備，用於感知機器人手部（尤其是指尖）與物體之間的交互。目前，我們的設備已相當成熟，被學術機構及頂尖人形機器人企業廣泛採用。

贊助商廣告

隨著實體 AI 的持續發展，數據的關鍵作用愈發凸顯。數據稀缺仍是機器人學習的主要瓶頸，尤其是物理交互數據的匱乏，而這恰恰是機器人在現實世界有效運作的基礎。因此，數據的質量、可靠性與獲取成本已成為研究和商業開發中的核心關切。

這正是 DAIMON 的優勢所在。我們的視覺觸覺技術能夠採集高質量多模態觸覺數據，不僅記錄基本接觸力，還涵蓋形變、滑動與摩擦力、材料屬性及表面紋理，從而實現對物理交互的全面重建。在多模態融合專業積累的基礎上，我們構建了一套完善的數據處理流程，將觸覺反饋與視覺、運動軌跡及自然語言無縫融合，轉化為可直接用於機器學習模型訓練的數據集。

鑑於行業整體面臨的數據缺口，我們將大規模數據採集不僅視為自身的核心競爭優勢，更視為對更廣泛社區的一份責任。通過構建和開源這一數據集，我們旨在為實體 AI 提供高質量的"燃料"，最終加速通用機器人基礎模型的現實部署。

如何實現大規模數據集的構建

儘管我們是一家規模相對較小的公司，但憑藉核心觸覺感知技術和創新的數據採集模式，我們得以建立大規模數據集。我們構建了全球最大的分布式實驗室外數據採集網路。這一輕量化、可擴展的系統擺脫了對集中式數據工廠的依賴，能夠跨越多樣化的真實世界環境採集數據，每年可產生數百萬小時的數據量。

"為推動整個實體 AI 領域的進步，我們向更廣泛的社區開源了1萬小時的數據集。"——王煜教授，DAIMON Robotics

合作夥伴的角色與貢獻

除中國本土團隊外，合作夥伴還包括西北大學、新加坡國立大學等頂尖高校研究團隊，以及 Google DeepMind、中國移動等全球領先企業。他們選擇與 DAIMON 合作，充分印證了富含觸覺數據的數據集所具備的重要價值。

部分合作企業已構建了自己的模型，目前正在將觸覺資訊融入其中。他們通過在研究、製造及其他真實場景中部署我們的數據採集設備，幫助我們獲取具有高度實用性、應用驅動的數據；與此同時，合作夥伴利用這些數據訓練針對各自具體應用場景的專屬模型。

贊助商廣告

為何觸覺感知不可或缺

在將通用機器人應用於操作任務（尤其是靈巧操作）的多年探索中，我們的目標不僅僅是抓握或夾持物體，而是真正意義上的物體操控——使用工具對零件施加力和運動。這類機器人將被應用於家庭和工業裝配等場景。

觸覺資訊對於感知接觸狀態至關重要，能夠引導機器人手指完成可靠的操作任務，這一點已得到充分驗證。缺乏觸覺感知的機器人存在嚴重局限：在黑暗環境中難以定位物體；缺少滑動檢測，容易損壞玻璃等易碎物品；無法精確控制力度，導致操作失敗甚至造成物理損傷。因此，在 VLA 框架基礎上融入觸覺資訊勢在必行——我們正是通過引入觸覺數據，將 VLA 擴展為 VTLA 模型。

我們觸覺傳感器的另一優勢在於其視覺化特性：通過捕捉指尖表面形變的視覺圖像序列，編碼接觸資訊，進而推斷力和其他接觸狀態。這與 VLA 所基於的視覺框架高度契合，使得觸覺資訊能夠自然融入 VLA 框架，實現向 VTLA 系統的轉化。

為何選擇單色視覺觸覺感知技術

在調研現有技術方案時，我們發現了多種類型的傳感器，包括採用三色光學的視覺觸覺傳感器及其他更簡化的設計方案。我們決定將其中的優勢整合為一套工程上切實可行的解決方案——在成本、可靠性和靈敏度之間取得滿意的平衡，最終開發出單色視覺觸覺感知技術。這本質上是一種工程化路徑，而非純粹的科學研究，因為大量基礎研究成果已然存在。隨著觸覺數據重要性的日益凸顯，相關技術將協同推進、共同發展。

核心優勢與潛在變革

我們傳感器的關鍵特性在於分布式力測量的感知密度，以及對指尖接觸面形變的精準捕捉。在感知單元密度方面，我相信我們處於行業領先水平。另一關鍵指標是動態性能，即頻率和頻寬——力變化檢測、信號傳輸和實時處理的速度。此外還涉及工程層面的要素，如可靠性、漂移量、軟性表面耐久性，以及對磁場、光線和環境干擾的抗性。

贊助商廣告

我們已開始觀察到對觸覺感知具有迫切需求的特定應用場景。例如，我們的一位潛在客戶正在便利店中部署人形機器人，面對貨架密集、空間極為有限的環境。機器人需要伸入極為狹窄的空間拾取物品，現有的兩指平行夾爪難以適用。觀察人類拾取物體的方式，明顯需要至少三根纖細的手指來觸碰、撥動並穩定物體，而這對觸覺感知能力提出了本質要求。

創立 DAIMON Robotics 的動因

我在卡內基梅隆大學攻讀博士期間開始系統學習機器人學，當時身邊匯聚了一批真正卓越的研究團隊——Marc Raibert（波士頓動力創始人）領導的運動控制研究組，以及我導師 Matt Mason 領導的操作研究組。此後，我們在靈巧操作領域持續深耕多年。

然而，這一領域長期進展緩慢，尤其是在構建靈巧手並使其真正發揮作用方面。直到近年來，運動機器人才實現了真正的突破，機器人手的重大進展也才剛剛出現。在香港科技大學期間，我看到越來越多的學生和博士後湧入這一領域。我的博士後 Duan Jianghua 博士具有敏銳的商業洞察力，他深刻認識到機器人市場的快速增長和我們視覺觸覺感知技術的獨特價值。我們由此共同創立了 DAIMON Robotics，目前發展勢頭良好。

商業模式與戰略布局

我們的業務戰略可以用"3D"來概括：設備（Devices）、數據（Data）和部署（Deployment）。我們為數據採集構建設備，建立自有生態系統，並在合作夥伴的潛在應用領域中加以部署。這一模式實現了真實世界觸覺富集數據的採集和完整的閉環驗證，將成為3D商業模式不可或缺的組成部分。目前，這一領域的大多數初創公司都在走類似的路徑，未來部分企業可能會走向更高度專業化，或與其他公司進行更深度的整合，但目前階段以垂直整合為主。

具身技能的願景

AI 的出現恰逢其時。大量資源被投入 AI 開發，尤其是大語言模型，如今正被推廣到世界模型領域，賦能實體 AI 能力。我們希望這些能力在現實世界系統中得到充分體現。

贊助商廣告

"我們的願景是讓機器人實現強大的操作能力，成為人類可靠的夥伴。"——王煜教授，DAIMON Robotics

雖然 AI 和核心硬體技術仍在持續演進，但方向已經更加明晰。例如，人形機器人在家庭環境中更受青睞，這是一個充滿潛力的領域——如果我們最終能夠實現安全、可靠、具有成本效益的機器人，將帶來巨大的社會效益。

現實部署的觸發點

通用機器人大規模部署的道路仍然漫長，但我們已開始在特定領域看到可行性的跡象。這與自動駕駛汽車的發展歷程十分相似：全面部署的無人駕駛計程車尚未出現，但移動機器人和小型配送車輛已在酒店行業廣泛落地。目前中國幾乎每家大型酒店都配備了配送機器人，能夠從大堂取貨並自主導航至客房完成配送，實際部署率接近100%。

酒店和餐廳場景的機器人被視為人形機器人在過夜藥店和便利店等特定場景落地的參考模型。我預計在相對較短的時間內，上述場景將實現完整部署，隨後向其他應用領域延伸。總體而言，包括人形機器人在內的自主機器人將逐步滲透特定行業，在各個領域創造價值並持續擴張。

我們的願景是讓機器人實現強大的操作能力，成為人類真正可靠的夥伴——無縫融入我們的家庭和日常生活，切實造福人類。

本採訪已經過篇幅和清晰度的編輯處理。

Q&A

Q1：Daimon-Infinity 數據集有什麼特別之處？

A：Daimon-Infinity 是目前全球規模最大的面向實體 AI 的全模態機器人數據集，具備高解析度觸覺感知能力，涵蓋80餘種真實場景和2000餘項人類技能數據，從家庭疊衣到工廠流水線製造均有收錄。DAIMON 還開源了其中1萬小時的數據，以推動整個實體 AI 行業的發展。

Q2：VTLA 模型和 VLA 模型有什麼區別？

A：VLA（視覺-語言-動作）是目前機器人領域的主流模型，但缺乏觸覺感知能力，導致機器人在黑暗環境定位困難、無法檢測滑動、難以精確控制力度。VTLA（視覺-觸覺-語言-動作）模型在此基礎上引入觸覺數據，將觸覺提升為與視覺並列的感知模態，使機器人能夠更可靠地完成靈巧操作任務。

贊助商廣告

Q3：觸覺機器人最先會在哪些場景實現大規模落地？

A：根據王煜教授的判斷，觸覺機器人最有可能率先在便利店、過夜藥店等零售場景實現大規模部署，因為這些場景對精細抓取操作有明確需求。此外，酒店和餐廳的配送機器人已在中國實現近乎全面部署，為人形機器人進入更多場景提供了參考路徑。