北京大學造了一個「人類行為百科全書」：百萬小時影片，讓機器人學會像人一樣動手

這項由北京大學主導、聯合SimpleSilicon創新團隊完成的研究，於2026年5月7日以預印本形式發布，論文編號為arXiv:2605.06747。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

贊助商廣告

在機器人技術飛速發展的今天，有一個問題始終困擾著研究人員：我們能造出會思考的機器，卻很難造出會"動手"的機器。一台機器人可以下棋贏過世界冠軍，但讓它去廚房幫你擰開一瓶醬油，往往會笨手笨腳地失敗。這背後的原因，說到底是數據的匱乏——機器人沒有足夠多的"經驗"來學習如何跟物理世界打交道。

正是為了解決這個瓶頸，北京大學的研究團隊打造了一個名為HumanNet的超大規模數據集，收錄了整整一百萬小時的人類活動影片。這個數字有多龐大？如果你不睡覺、不休息、每天24小時不停地看，也需要花超過114年才能看完。這些影片記錄的不是什麼特殊場景，而是人類每天都在做的事情：切菜、搬箱子、用工具修東西、在籃球場上防守對手——總之就是人類跟這個世界"動手"互動的全部樣子。這個項目的核心主張是：與其花大價錢讓機器人自己去試錯，不如先讓它好好觀察一百萬小時人類是怎麼做的。

一、機器人為什麼"不會動手"？數據荒漠是根本原因

要理解HumanNet這個項目的價值，先得搞清楚機器人學習面臨的困境。

在語言和圖像領域，人工智慧已經吃了網際網路上海量的數據長大，效果驚人。GPT、Gemini這類大模型，讀遍了人類寫下的幾乎所有文字，看遍了網上能找到的大量圖片。正因為數據足夠多、足夠雜，這些模型才能舉一反三、觸類旁通。

但是，當我們想訓練一個能操作物體的機器人時，情況完全不同。目前大多數機器人的訓練數據規模，只有語言模型的千分之一甚至萬分之一。更麻煩的是，這些數據往往只針對幾個特定任務——比如"在流水線上擰螺絲"或者"把積木從A格子移到B格子"。換個場景，換個物體，機器人就徹底傻眼了。而且這些數據通常還跟特定的機器人平台綁定，換一台機器人又得從頭來過。

贊助商廣告

這就好比你想培養一個廚師，但現有的"食譜庫"里只有三道菜，每道菜還是專門為一種特定尺寸的平底鍋設計的。這樣的訓練註定培養不出真正會做飯的廚師。

研究團隊意識到，有一個地方其實早就存在著近乎無限的"動手操作"數據，那就是人類本身。每天，全球數十億人都在用手操作各種各樣的物體，在各種各樣的環境裡完成各種各樣的任務。這些行為被攝影機記錄下來，散落在YouTube、各類影片平台和私人存檔里。問題不是數據不存在，而是沒人把它系統地整理成機器可以學習的形式。HumanNet就是做這件事的。

二、一百萬小時是怎麼來的？從網際網路大海里撈針

收集一百萬小時的人類活動影片，聽起來簡單，做起來卻是一項極其精細的工程。研究團隊設計了一套三階段的數據管道，像一條精密的流水線，把網際網路上雜亂無章的影片素材變成可以直接用於訓練的高質量數據。

第一階段是"找影片"。團隊從一小批種子關鍵詞出發，比如"擰瓶蓋"、"搬運貨物"、"使用工具"等，然後通過算法自動擴展關鍵詞庫，形成一個龐大的關鍵詞倉庫。依託這個倉庫，系統同時在影片平台、通用搜尋引擎、開源數據集等多個渠道檢索內容。與此同時，團隊還對一些專注於相關內容的影片頻道進行整體抓取，並在真實的日常環境中自行拍攝補充那些在網上難以找到的內容類型，比如某些不太常見的操作場景或特定視角的錄像。這一階段產出的是一個混合了各種來源的原始影片池。

第二階段是"處理影片"。原始影片裡充滿了噪聲：重複內容、畫質模糊、鏡頭一動不動的靜態錄像、人根本不在畫面中央的影片……這些都得過濾掉。系統首先進行去重和格式標準化，把來自不同來源的影片統一成相同的幀率、解析度和文件格式。然後進行內容過濾，只保留人類活動是主角、且動作清晰可見的片段。接著是質量過濾，淘汰有嚴重運動模糊、大面積遮擋或長時間無變化的鏡頭。更巧妙的一步是"場景切割"：一段二十分鐘的影片裡可能有人前十分鐘在切菜、後十分鐘在洗碗，系統會在場景切換的地方自動把影片切開，確保每個訓練片段只包含一種連貫的活動。最後，所有影片被切割成統一粒度的片段，供下一步標註使用。

贊助商廣告

第三階段是"給影片貼標籤"。這是讓數據從"看得見"變成"讀得懂"的關鍵一步。系統對每個影片片段做了好幾種類型的分析：一是用人工智慧模型檢測人的手部和全身的三維姿態，把人的動作轉化成機器能直接處理的數字坐標；二是對第一視角的影片運行單目SLAM算法（簡單說就是根據影片內容反推相機的移動軌跡，估算拍攝者在空間中的位置和朝向）；三是運行一個"動作重定向"模組，把從影片裡提取的人體動作套用到一個標準的類人形骨架上，如果這個轉換的誤差足夠小（小於15毫米）且覆蓋率足夠高（超過60%的幀都有效），這段影片就會被標記為"機器人可用"，意味著機器人可以直接從這段影片裡學習對應的運動指令；四是用大語言模型生成影片的文字描述，包括簡短的場景說明和詳細的動作描述，同時給影片打上層級化的分類標籤。

經過這三個階段，最終沉澱下來的HumanNet數據集包含了967,000小時的影片（實際上已經非常接近一百萬小時），覆蓋超過15萬種不同的物體類型和超過72萬種不同的任務類型。與之前所有同類數據集相比，這個規模是壓倒性的——此前最大的同類數據集EgoScale也只有約20,854小時，而EPIC-KITCHENS只有區區100小時。

三、數據集裡都有什麼？兩種視角，看見不同的世界

HumanNet把所有影片分成了兩大類：第一人稱視角（egocentric，也叫"自我中心視角"）和第三人稱視角（exocentric，也叫"外部觀察者視角"）。這兩種視角不是重複的，而是互補的，各自捕捉了人類行為中不同維度的資訊。

第一人稱視角就是你自己戴著攝影機看到的世界。當你伸手去拿桌上的杯子，鏡頭裡看到的是你的手在移動、杯子在接近、你的手指環繞杯身、杯子被提起。這種視角的優勢在於它完整呈現了"執行動作的人看到的東西"——手和物體之間的接觸細節、物體在操作過程中的狀態變化、操作者的注意力集中在哪裡。對於訓練機械臂或機器人手來說，這種視角尤為珍貴，因為機器人執行任務時的攝影機位置通常也類似於人眼或頭盔攝影機的位置。

贊助商廣告

第三人稱視角則是旁觀者看到的畫面。你站在旁邊拍一個人在切菜，看到的是他整個身體的姿態、手臂的彎曲角度、重心的轉移、雙腳的站位。這種視角的優勢在於呈現全身運動的整體結構——對於訓練需要移動整個身體的機器人（比如人形機器人），全身動作的數據至關重要。

研究團隊在項目概述中還特別展示了兩種將人類影片轉化為機器人訓練信號的路徑。第三人稱影片可以通過"動作重定向"技術，把人類的運動直接映射到機器人骨架上；而第一人稱影片則可以配合手部姿態識別，直接轉化為機械手的操作指令。這兩條路徑的存在，讓HumanNet的數據不僅僅是"好看"，而是真正可以被機器人拿來"用"。

數據集的活動類型覆蓋極廣。從精細動作來看，涵蓋了拿取、切割、倒液體、調整、組裝、摺疊、塗抹、開容器等大量手部操作；從全身活動來看，涵蓋了各類體育運動、健身動作、日常行走與搬運；從場景來看，廚房、客廳、倉庫、運動場、公共街道、工作檯等室內外環境都有大量覆蓋。每個影片片段還配有層級化的分類標籤，比如一段籃球影片會被標記為"運動→籃球→防守動作"這樣三層的分類結構。

四、數據質量怎麼樣？用數字說話

光說數量多沒用，質量才是關鍵。研究團隊對HumanNet的內部分布做了詳細的統計分析，用幾個維度的數據來展示這個數據集的"健康程度"。

姿態質量得分（pose score）用來衡量每個影片片段里人體姿態檢測的置信度。經過質量篩選之後，數據集裡留下來的片段，其姿態得分集中在高置信度區域，也就是說絕大多數影片裡的人體關鍵點都能被可靠地檢測出來，不會出現"手在哪裡系統也不知道"的情況。這保證了姿態相關的監督信號是可靠的。

運動幅度得分（motion score）衡量每段影片裡運動的"激烈程度"。從分布曲線來看，這個分數是一個典型的長尾分布，絕大多數片段是相對平靜的精細動作，但也有一條長長的尾巴延伸向高運動幅度區域，覆蓋了跑跳、大幅揮臂等激烈動作。這種分布結構恰恰反映了現實世界：人類大多數時候做的是細小的手部操作，但劇烈運動同樣存在，而且對於訓練運動規劃能力不可或缺。

贊助商廣告

運動持續時長（motion length）的分布也呈現出類似的長尾形態，大部分是短小的動作單元，但不乏持續較長的連貫動作序列，這為學習"長程任務"（比如"完整地做一道菜"而不只是"切一刀"）提供了原始素材。

從分類角度來看，體育運動和戶外活動的片段平均運動幅度最高、持續時間最長；日常生活和遊戲角色動作（指影片中記錄的人模仿遊戲角色的動作）的片段則集中在幅度較低、時長較短的區域。這種異質性並不是缺陷，恰恰意味著數據集覆蓋了機器人可能遇到的各種節奏和力度的動作場景。

五、關鍵驗證：人類影片能替代機器人數據嗎？

這是整個研究中最有說服力的部分，也是最能回答"這個數據集有沒有用"的核心實驗。

研究團隊設計了一個嚴格的對照實驗。他們選用了LingBot-VLA這個視覺-語言-動作模型架構作為統一的測試平台，然後在完全相同的下游任務數據上（100個任務，每個任務20個示例，合計34小時的機器人操作數據）對四種不同的初始化方案進行後訓練，比較最終的驗證損失。

四種初始化方案分別是：直接使用Qwen視覺語言模型（不額外訓練，作為基準）；用100小時真實機器人遙控操作數據（來自Magic Cobot系統）對Qwen進行微調；用1000小時來自HumanNet的第一人稱人類影片對Qwen進行微調；以及直接使用LingBot，其Qwen骨幹網路經過了20,000小時真實機器人數據的訓練。

實驗結果在五類保留測試任務（包括室內任務、短程任務、長程任務、移動操作任務等）上分別測量了驗證損失，數值越低代表效果越好。結果清楚地顯示了兩個重要發現。

第一個發現是：用1000小時人類第一人稱影片微調的模型，在五類任務上的驗證損失，始終低於（即優於）只使用原始Qwen基礎模型的結果，而且在多個任務類別上還略微超過了使用100小時真實機器人數據微調的版本。這意味著，同樣是在相同的下游機器人數據上繼續訓練，從人類影片出發的初始化點比從機器人數據出發的初始化點更好——儘管前者用的是千倍更多的人類影片，但人類影片的採集成本遠比機器人遙控操作數據低廉得多。

贊助商廣告

第二個發現是：用20,000小時機器人數據訓練的LingBot仍然處於領先地位，1,000小時人類影片還沒能完全追上它。但差距已經大幅縮窄。考慮到1,000小時人類影片只需要網路爬取就能獲得，而20,000小時機器人遙控數據需要大量人力和機器人設備的投入，這個"性價比"的對比是極其明顯的。

這個實驗的核心含義是：當機器人實際操作數據有限時，用大量人類行為影片來預先訓練模型的視覺感知和行為理解能力，是一條切實可行且成本低廉的替代路徑。

六、這個數據集能用來做什麼？不止機器人控制

HumanNet的應用場景遠不止於直接訓練機器人執行任務。研究團隊在論文中詳細描述了這個數據集可以支持的多種下游用途。

在影片理解和多模態模型預訓練方面，現有的影片理解模型往往在"普通網際網路影片"上預訓練，這類影片雖然量大但物理交互資訊稀薄。HumanNet的數據更密集地包含了手-物接觸、工具使用、動作因果關係等資訊，用它預訓練的影片編碼器，在理解"人在做什麼"和"物體狀態怎麼變化"方面可能會更加準確。

在世界-動作模型訓練方面，近年來機器人領域出現了一類新的模型，叫做"世界模型"，它的作用是預測"當我採取這個動作後，世界會變成什麼樣"。HumanNet里豐富的動作-結果對應數據（比如"拿起杯子"之後影片裡杯子位置的變化）是訓練這類模型的天然原料。

在運動感知表示學習方面，第三人稱影片的全身動作數據可以用來訓練理解人體運動的模型，這在人形機器人的步態控制、運動規劃等方向有直接的應用價值。第一人稱影片則可以用來訓練理解手部微動作的模型，服務於靈巧手的精細操控。

在跨形態遷移方面，人類和機器人的身體結構不同，但運動的底層邏輯有相通之處。HumanNet提供的動作重定向管線（即把人類動作映射到機器人骨架的那套流程）為這種遷移提供了一個可操作的技術路徑，儘管完整的遷移實驗並不在本論文的討論範圍內。

贊助商廣告

此外，這個數據集還可以用於大規模的影片-語言對齊訓練（利用LLM生成的字幕）、手部姿態和全身姿態的預測、程序性活動的邊界檢測（判斷一段影片裡何時完成了一個子任務、開始了下一個子任務）等多種多模態學習目標。

七、做大不代表沒有煩惱：局限與挑戰

研究團隊在論文中坦率地討論了HumanNet的幾個根本性局限，沒有迴避。

首先，人類的身體不等於機器人的身體。即使有一百萬小時的人類行為影片，物理上的"形態差距"依然存在。人類的手指可以彎曲成各種微妙的角度，而機械手的自由度通常有限；人類移動時依靠雙腿保持平衡，而輪式機器人的運動邏輯完全不同。這個數據集提供的是"理解物理世界"和"學習操作邏輯"的先驗知識，但不能直接替代在特定機器人平台上積累的、針對該平台特有限制的實際操作經驗。

其次，規模大了噪聲也大了。一百萬小時的影片來自網際網路的各個角落，標註質量必然參差不齊。有些影片的邊界劃分不夠精確，有些姿態估計可能存在誤差，有些文字描述可能不夠準確。這要求使用者在訓練時對數據的來源和質量保持清醒認識，而不是把一百萬小時等同於一百萬小時的高質量數據。

第三，覆蓋面仍然存在偏差。一個數據集可以很大，但同時仍然對某些地域、文化背景、體型、職業或活動場景過度代表或代表不足。網際網路影片天然地偏向有攝影習慣、有網際網路接入、有條件拍攝日常生活的人群，來自不同文化背景的家庭操作習慣、不同氣候環境下的戶外活動、需要特殊設備的專業操作等，在數據集裡可能是欠缺的。

第四，也是最敏感的一點，是隱私和倫理問題。第一人稱影片裡可能出現不知情的路人、私人住宅內部、敏感文件、電腦螢幕等內容；第三人稱影片可能在當事人不知情的情況下記錄了他們的日常行為。研究團隊表示，數據集的發布流程包含了版權審查、內容過濾、訪問控制等措施，但這個領域的規範標準仍在形成中，如何在數據利用和隱私保護之間找到平衡，是整個行業都需要持續面對的問題。

贊助商廣告

歸根結底，HumanNet代表的是一個思路上的重大轉變：與其把機器人學習的數據瓶頸看作一個只能靠"多買機器人、多請人遙控"來解決的硬體問題，不如把它看作一個資訊重組問題——人類已經積累了海量的"動手操作"知識，只是這些知識散落在影片平台上，從來沒有被系統地整理成機器人可以學習的形式。一旦這個整理工作完成，機器人的學習效率就可以跨越式提升。

這個邏輯並不複雜，但把它付諸實踐、做到一百萬小時的規模，並配上完整的標註體系和有效的下游驗證，仍然是一項相當紮實的工程。而驗證實驗的結果——1000小時人類影片超越100小時機器人數據——給出了一個清晰的、可量化的信號：這條路是走得通的。

至於未來能不能用更多的人類影片徹底消除對機器人專用數據的依賴，目前還很難下定論。但至少可以說，在昂貴的機器人操作數據有限的情況下，拿人類影片來補充甚至替代，已經是一個經過初步驗證的、值得認真對待的方向。

Q&A

Q1：HumanNet數據集和之前的人類活動影片數據集有什麼區別？

A：HumanNet最顯著的區別是規模，達到了約一百萬小時，而此前最大的同類數據集EgoScale約為兩萬小時，EPIC-KITCHENS只有約100小時。除了規模，HumanNet同時覆蓋第一人稱和第三人稱兩種視角，並配有姿態、運動、字幕等多維度標註，還包含專門為機器人遷移設計的動作重定向管線，使數據不只是"可看"，而是"可直接用於機器人訓練"。

Q2：HumanNet驗證實驗中，1000小時人類影片超過100小時機器人數據，是不是說明人類影片完全可以取代機器人數據？

A：並非完全取代。實驗顯示，1000小時人類影片在五類任務上的驗證損失與100小時機器人數據相當甚至略優，但20000小時機器人數據訓練的LingBot仍然領先。這說明人類影片是一種高性價比的補充或替代方案，在機器人數據有限時尤其有價值，但並不意味著可以完全繞開機器人專用數據。

贊助商廣告

Q3：HumanNet數據集現在公開可以下載使用嗎？

A：根據論文資訊，項目已設立了主頁和GitHub代碼倉庫，具體的數據獲取方式和訪問控制策略可通過論文編號arXiv:2605.06747對應的項目頁面查詢。由於數據集涉及隱私審查和版權審核，完整數據的公開訪問條件需以官方發布的最新說明為準。