機器人不只需要「看」和「說」——Motoniq.ai、斯坦福、ETH Zurich等機構聯合揭示下一代機器人智能的四個缺失拼圖

這項由Motoniq.ai聯合斯坦福大學、ETH蘇黎世聯邦理工學院、義大利技術研究所、達姆施塔特工業大學以及UCL人工智慧中心的研究人員共同撰寫的立場論文，於2026年6月發表在arXiv預印本平台，論文編號為arXiv:2606.06556。有興趣深入閱讀的讀者可以通過這個編號找到原文。

贊助商廣告

這篇論文不是在匯報某一項具體實驗的結果，而是在做一件更重要的事：告訴整個機器人研究領域，我們可能走錯了方向，或者說，我們只走對了一半。

**機器人研究正在進入一個"大模型時代"，但這個時代的地基還沒打好**

近幾年，人工智慧領域有一個非常流行的思路：只要收集足夠多的數據、訓練足夠大的模型，機器就能學會做任何事。這個思路在語言領域大獲成功——ChatGPT就是最典型的例子。於是，機器人研究者們也想把同樣的路子複製過來：收集大量機器人操作示範、訓練巨型"視覺-語言-動作"模型（簡稱VLA，可以理解為一種能"看圖說話並做動作"的機器人大腦），期待機器人自然而然地學會各種技能。

然而，這篇論文的核心觀點是：這條路是必要的，但遠遠不夠。機器人面臨的根本瓶頸，不是模型不夠大，也不是數據不夠多，而是**現有的數據絕大多數無法被機器人直接使用**。

為了解釋這個問題，可以用一個建築工地的比喻貫穿全文。VLA模型就像是一位熟練的建築工人，他技術精湛，但他只能使用已經預先加工好的標準建材——切割整齊的木板、規格統一的磚塊、已經預拌好的水泥。然而，世界上絕大多數的原材料都不是這種形態：有的是樹幹、有的是泥土、有的是石塊。如果我們想真正大規模地建造，就必須有一套把原材料加工成標準建材的系統。這套系統，正是當前機器人領域最缺失的東西。

**一、世界上到處都是"原材料"，但機器人用不上**

地球上每天發生著數以億計的人類活動：人們在廚房切菜、在工廠裝配零件、在家裡整理房間、在網上分享各種操作影片。這些活動包含了海量關於"如何與物體交互"的資訊——哪只手該抓哪裡、用多大力氣、什麼時候鬆手、失敗了怎麼恢復。從資訊量的角度看，這簡直是取之不盡的寶藏。

贊助商廣告

但機器人訓練需要的數據長什麼樣？它需要精確的動作標籤——每一幀畫面對應機器人關節應該轉多少度、手臂應該往哪個方向移動多少毫米。它需要任務標籤——這段操作是在幹什麼、完成了沒有、哪裡出錯了。它還需要獎勵信號——哪些動作是好的、哪些是壞的。

人類日常生活的影片裡，這些東西統統沒有。一段人手切菜的影片，對機器人來說就像是一張地圖，但沒有比例尺、沒有坐標系、沒有路線標註——你知道目的地大概在哪個方向，但根本無法導航。這就是論文所說的"接地氣問題"（Grounding Problem）：如何把廣泛存在於世界上的物理經驗，轉化成機器人能夠理解和使用的訓練信號。

目前，研究者們已經在多個方向上做出了努力，論文對這些努力進行了詳盡的梳理和評價。

**二、已有的努力：機器人原生數據的崛起與局限**

過去幾年，機器人領域積累了越來越多的"原生數據"——也就是直接由機器人執行並記錄的操作軌跡。這些數據就像建築工地上已經加工好的標準建材，可以直接拿來用。

在數據集層面，各個研究機構貢獻了規模可觀的成果。BridgeData V2提供了約六萬條在二十四種不同環境中收集的機械臂操作軌跡；DROID則收集了約七萬六千條示範軌跡，相當於三百五十小時的操作錄像，由分布在全球各地的數據收集者完成；RH20T更進一步，收集了超過十一萬條接觸豐富的操作序列，同時包含視覺、力覺、聲音和動作資訊。這些數據集的出現，證明了機器人學習在數據量擴大後確實會變得更好，多樣性不是錦上添花，而是泛化能力的核心要求。

在模型層面，RT-1使用約十三萬條真實機器人操作數據訓練出了一個能夠響應語言指令、執行七百多種任務的通用控制器；RT-2更進一步，把網際網路上海量的圖文數據和機器人軌跡數據混合訓練，讓模型能把網路上的語義知識遷移到機器人控制中；OpenVLA則在約九十七萬條操作示範上訓練了一個七十億參數的開源視覺-語言-動作模型；Physical Intelligence的π0採用了一種叫"流匹配"的架構，在繼承大型視覺-語言預訓練模型知識的同時輸出連續的機器人動作。還有專門針對人形機器人的系統，比如英偉達機器人不只需要看和說Motoniqai斯坦福ETHZurich等機構聯合揭示下一代機器人智能的四個缺的GR00T N1、谷歌的Gemini Robotics以及Figure公司的Helix，它們都試圖把VLA範式從桌面操作擴展到全身控制。

贊助商廣告

然而，這一切努力的共同局限在於：**它們的成功，正是因為數據已經是"標準建材"的形態**。每一條機器人軌跡，都需要有人或系統事先把它表達成機器人可以理解的動作、觀察、任務描述和成功標籤。這是VLA強大的原因，也是它無法簡單擴展的原因——世界上絕大多數的物理行為數據，並不是這種形態到達我們手中的。

**三、弱標註數據的價值與困境：影片裡的寶藏，夠不著**

既然機器人原生數據來之不易，研究者們自然想到：能不能從人類行為影片中提取有用的東西？畢竟，網際網路上有數不清的人類操作影片，從YouTube的烹飪教學到工廠操作記錄，資訊量遠超任何機器人數據集。

這個方向確實有進展。R3M在Ego4D這個巨型人類第一視角影片數據集上訓練視覺表徵，讓機器人的"眼睛"能更好地理解人類世界中的物體和動作；VIP用時間上的遠近作為任務進度的代理信號，從人類影片中提取能支持機器人強化學習的特徵；MVP和VC-1則專注於大規模視覺預訓練對機器人操作的幫助。更進一步的是LAPA（潛在動作預訓練），它試圖從影片幀的變化中學習一種"潛在動作"的表徵——也就是說，不直接要求影片提供機器人能執行的動作指令，而是先提取出"物體是怎麼變化的"這種中間表示，再用少量機器人數據把這種中間表示翻譯成具體動作。UniVLA走了類似的路線，試圖從任意視角、任意身體形態的數據中提取以任務為中心的潛在動作。

在獎勵信號這個維度，也有一批工作嘗試從影片中推斷"任務做得怎麼樣了"。PROGRESSOR從無標註影片中學習一種通用的獎勵函數；Adapt2Reward把影片-語言模型遷移成語言條件下的獎勵函數；ReWiND利用影片倒放和不對齊的影片-語言對作為負樣本來訓練獎勵模型；TimeRewarder通過幀對之間的時間距離來推導進度信號；SARM則用細粒度的子任務標籤來監督獎勵模型，以便判斷複雜任務的進展。

贊助商廣告

然而，這些方法都面臨同一個本質困難：**弱標註數據並沒有消除接地氣問題，只是把它移動到了別處**。從影片學到的"潛在動作"不是機器人能執行的指令，它只是一種物理變化的描述代碼，必須經過一個"翻譯"步驟才能變成真正的機器人動作。從影片提取的進度信號，也不一定就是對新機器人身體有效的獎勵。人類的操作策略，更不一定能被有著完全不同身體結構的機器人復現。影片擴展了物理經驗的來源，但同時也使接地氣問題變得更加無法迴避。

**四、生成物理經驗的嘗試：仿真、世界模型，以及它們的硬傷**

除了從已有的觀察中提取信號，還有另一條路：直接生成更多的物理經驗。如果真實的機器人操作太貴、太慢、太危險，那能不能在電腦里模擬出足夠真實的環境，讓機器人在裡面無限練習？

在仿真環境方面，RLBench提供了一百種精心設計的操作任務，可以用運動規劃自動生成無限量的示範；Meta-World標準化了多任務和元強化學習的評測；ManiSkill專注於從三維視覺輸入進行通用操作；CALVIN把挑戰推進到需要根據語言指令組合多個行為的長時序操作；LIBERO則研究機器人的終身學習，也就是如何在學會新任務的同時不忘記舊任務。這些仿真環境的價值在於讓研究可以大規模、可復現、可比較，但它們有一個前提假設：環境設計者已經把狀態空間、動作空間、任務定義、物體資產和成功條件全部規定好了。

更雄心勃勃的是MimicGen——它能從不到兩百個人類示範出發，通過把示範片段適配到新的物體位置和環境中，自動生成超過五萬條操作示範，覆蓋十八種任務。RoboCasa把這個思路擴展到日常家務場景，構建了一個大規模的模擬廚房環境；RoboCasa365更進一步，包含三百六十五種日常家務任務、兩千五百個廚房場景和超過兩千小時的機器人交互數據。RoboGen則用基礎模型和生成模型自動構建任務、場景和訓練數據，試圖讓機器人技能的獲取完全自動化。

贊助商廣告

真實到仿真再回到真實（Real-to-Sim-to-Real）是另一種思路：先從少量真實數據重建仿真環境，再在仿真中大量訓練，然後把策略部署回真實世界。RialTo用少量真實數據構建數字孿生，在仿真中用強化學習增強模仿學習策略；RL-GSBridge使用三維高斯潑濺（一種能生成高保真三維場景的技術）技術重建真實場景；Real-is-Sim則在數據收集、訓練、評估和部署的全過程中都使用動態數字孿生。還有專門針對導航任務的SOUS VIDE和SINGER，以及利用三維高斯潑濺可微分渲染特性進行端到端強化學習訓練的GRaD-Nav和GRaD-Nav++。

世界模型（World Model）是這個方向中最令人期待的概念。世界模型不是一個被動的影片生成器，而是一個能夠預測"如果我做了這個動作，世界會變成什麼樣"的預測系統——就像在大腦里裝了一個沙盤，可以在裡面模擬各種可能性。這個想法可以追溯到Schmidhuber在1990年代的早期工作，後來被Ha和Schmidhuber在深度學習時代重新推廣，PlaNet和Dreamer系列工作讓它變得實用，DreamerV3更證明單一的世界模型算法可以用固定的超參數解決各種控制任務，DayDreamer則直接在物理機器人上學習世界模型。

在機器人領域，RoboDreamer學習用於機器人想像的組合式影片世界模型；UniSim嘗試從多樣化數據集學習一個通用的交互式模擬器；DeepMind的Genie從無標註的網際網路影片中學習生成式交互環境，甚至不需要真實的動作標籤就能實現逐幀控制；V-JEPA 2把網際網路影片和少量機器人交互數據結合，展示了預測、規劃和零樣本機器人控制能力。

但關鍵問題來了：**一個對機器人有用的世界模型，需要的不只是視覺上的真實感，而是物理上的準確性**。它必須能預測物體會不會滑落、接觸會不會建立、關節會不會卡住、材料會不會變形。為此，研究者們發展了一系列更紮實的方法：FOCUS用以物體為中心的世界模型來表徵操作中的物體和它們的交互；ParticleFormer學習基於三維點雲的世界模型，直接從真實機器人感知數據預測多物體、多材料的動態；PointWorld把狀態和動作統一在三維空間域中，從RGB-D觀察和機器人動作預測完整場景的三維點流；ContactGaussian-WM結合高斯視覺表示和可微分接觸動力學，學習接觸豐富的物理操作世界模型。

贊助商廣告

在更基礎的層面，深度拉格朗日網路、哈密頓神經網路、拉格朗日神經網路、交互網路、圖網路物理模擬器等一系列工作，試圖把物理定律直接編碼進神經網路的結構中——讓模型不只是從數據中學習物理，而是從一開始就"懂得"守恆定律、幾何約束和對象關係。

還有一個常被忽視但至關重要的問題：**世界模型什麼時候會出錯，它自己知道嗎？** 一個機器人如果用了一個不知道自己局限在哪裡的世界模型來做規劃，就可能陷入一個惡性循環：世界模型的幻覺導致錯誤的動作，錯誤的動作把系統帶到世界模型更不熟悉的地方，進而產生更嚴重的幻覺。Mei等人的工作學習了一種帶有統計標定的潛在不確定性量化方法，可以把不確定性可視化到像素層面；Li等人的工作進一步證明了不確定性量化對於用世界模型訓練強化學習策略的重要性；Ward等人則展示了一個帶有標定潛在空間不確定性的世界模型可以用來檢測VLA操作策略在運行時的錯誤。

所有這些努力揭示的共同點是：**生成的經驗只有在保留了對控制至關重要的物理變量時才是有用的**。一個視覺上真實但忽略接觸、力、摩擦或穩定性的預測，對機器人控制來說不是可靠的訓練信號。這讓接地氣問題再次回到視野中心：想像中的未來只有在物理上是有根基的、可操作的時候，才對機器人學習有意義。

**五、四個缺失的拼圖：從物理經驗到物理智能**

經過以上梳理，論文給出了它最核心的觀點：下一代機器人系統需要的不只是更大的策略模型，而是四個此前缺失的關鍵組件。用建築工地的比喻來說，我們不只需要更多更好的建築工人（VLA模型），我們更需要完整的原材料加工體系。

**第一塊拼圖：物理數據引擎與具身自動標註**

這是整個體系的起點。物理數據引擎要做的事，是把各種各樣的原始物理經驗——機器人操作軌跡、人類行為影片、穿戴式傳感器數據、觸覺流、工廠操作記錄、仿真數據、部署失敗記錄——轉化成機器人學習實際需要的結構化信號：物體狀態、接觸事件、任務階段、潛在動作、目標和成功/失敗標籤。

贊助商廣告

論文用數學語言精確描述了這個問題的複雜性。原始經驗是異步的、多模態的：一個穿著感知服裝進行示範的人，可能同時產生影片幀、身體姿態測量、手部軌跡、觸覺信號尖峰和語言指令，但這些信號的採樣頻率不同，時間戳不一致。系統需要先把這些異步流對齊到一個共同的物理時間線上，識別出潛在的物理事件序列（比如"接近杯子"→"接觸開始"→"抓握"→"提起"→"放置"），再對每個事件推斷物體狀態、接觸標籤、任務階段、潛在動作代碼和進度/獎勵信號。

這個過程論文稱為"具身自動標註"：不是普通的語義影片理解（給影片加字幕說"一個人把杯子放到托盤上"），而是恢復出一系列物理事件的精確描述，包括杯子的姿態、手與杯子的接觸、當前任務階段、正在執行的潛在變換，以及任務進度是否在增加。這些物理上有根基的標籤，才能被用於訓練感知模型、獎勵模型、重定向系統、世界模型或機器人策略。

穿戴式傳感提供了特別有價值的信號。一套動作捕捉或感知服，能提供普通影片缺乏的結構化信號：身體姿態、手部軌跡、時序資訊、接觸事件、觸覺線索和物體交互痕跡。這意味著人類示範不再只是一段影片，而是一個包含任務階段邊界、手-物接觸、物體狀態變化、意圖、糾正和候選技能片段等豐富標籤的資訊來源。

更有意思的是，人類行為數據還有另一層價值：它不只是在教機器人怎麼完成任務，還在教機器人如何理解人類——人是怎麼移動的、怎麼使用身體和環境、怎麼相互交互。未來的機器人智能應該包含一個關於人類行為的協作模型，這類人類數據應該被用於訓練能夠感知人類、配合人類、與人類協作的策略。

**第二塊拼圖：跨身體的任務保留重定向**

從物理經驗中推斷出結構化的事件序列，並不等於擁有了機器人策略。一段人類示範、一個網路影片或者一段穿戴傳感器的軌跡，可能揭示了"物理上發生了什麼"——哪個物體移動了、哪裡發生了接觸、執行了哪個任務階段、進度怎樣——但它仍然沒有告訴這個特定的機器人應該怎麼行動。

贊助商廣告

這就是所謂的身體鴻溝。人類的手、平行夾爪、靈巧手、移動機械臂、四足機器人和人形機器人，擁有完全不同的運動學、動力學、傳感器、動作空間、接觸表面和失效模式。核心問題不是如何複製人類的動作，而是如何在一個不同的身體執行時，保留那個動作對世界產生的任務相關物理效果。論文把這稱為"任務保留重定向"。

重定向可以保留不同層次的不變量。最弱的層次是姿態保留：把人手或手臂的運動映射到機器人末端執行器的軌跡。強一些的是接觸保留：確保機器人在恰當的時刻觸碰到物體的正確表面。更強的是物體狀態轉換保留：確保抽屜打開了、杯子被提起來了、銷釘對齊了。最強的形式是意圖或技能的保留：機器人可能使用完全不同的運動方式，但在同樣的約束條件下完成了同樣的任務。通用機器人學需要重定向從姿態保留的模仿，升級到任務效果保留的翻譯。

正確的重定向目標不是人類的關節軌跡，而是任務相關的物理變換本身：對於打開抽屜來說，是抽屜的位移；對於放置物體來說，是物體的姿態；對於插入操作來說，是相對對齊程度；對於抓握來說，是接觸狀態。這就是為什麼穿戴式傳感和具身自動標註如此有價值：它們提供的正是任務保留重定向所需的中間變量——手-物接觸、力相關事件、物體狀態變化、任務階段邊界和潛在物理動作。這些變量比原始的人類關節角度更具可遷移性，比影片字幕更具資訊量。

**第三塊拼圖：超越視覺真實感的物理接地世界模型**

推斷物理事件序列並將其重定向，仍然留下了一個核心問題：機器人必須能夠對後果進行推理。一個候選動作只有在機器人能夠預判它對世界會產生什麼影響時，才是有用的。物體會移動還是滑落？接觸會建立還是失去？抽屜會打開還是卡住？杯子放手後會保持穩定嗎？布料會朝預期方向變形嗎？這些不只是視覺問題，它們需要對幾何、接觸、力、約束、材料屬性和任務進度進行推理。

贊助商廣告

一個對機器人真正有用的世界模型，承擔的角色與通用影片生成器截然不同。影片模型可以生成看起來真實的未來幀，但機器人需要的是可操作的預測：這個動作是否產生了預期的物體狀態轉換？抓握是否穩定？會不會發生碰撞？插入會不會因為偏移而失敗？物體鬆手後會不會倒？因此，機器人世界模型應該儘可能在結構化的物理變量上工作：物體姿態、空間關係、接觸、約束、速度、力、可變形狀態，以及摩擦、質量、剛度或順應性等物理屬性。

最重要的一點是，後果預測應該是任務條件的。世界模型不需要對未來的每一個細節都預測得同樣好。它需要預測的是與任務相關的那部分未來。打開抽屜時，抽屜的位移和把手接觸比背景紋理更重要；倒水時，液體狀態和容器姿態比桌面外觀更重要；摺疊布料時，可變形幾何和接觸點比像素級的影片重建更重要。機器人世界模型的目標應該與下游控制對齊，而不只是視覺重建。問題不是"未來看起來真實嗎"，而是"預測是否保留了決定成功或失敗的物理後果"。

在這個框架中，世界模型在整個系統中扮演著中心角色。它可以在動作執行前用來評估候選的重定向動作，在規划過程中搜索更好的替代方案，在失敗後解釋哪裡出了問題，以及在訓練過程中生成反事實經驗。例如，如果一段人類示範暗示了潛在動作"向外拉抽屜"，重定向模型可能提出幾種機器人運動方案，物理接地世界模型就可以評估哪種運動最可能建立正確的接觸、沿正確方向施力、避免碰撞，並產生預期的抽屜位移。

**第四塊拼圖：自我改進的部署循環**

機器人執行動作之後，核心問題不再只是"發生了什麼"，而是"發生的事情有用嗎"。世界模型可能預測到杯子會移動、抽屜會打開；重定向系統可能提出了一個物理上可行的動作；策略也在真實世界中執行了那個動作。但從結果中學習，需要對結果進行任務條件的解讀：動作讓任務有進展了嗎？它解決了預期的任務嗎？失敗是因為感知、接觸、力、時序、規劃還是身體不匹配？最終狀態相對於目標來說是好還是壞？

贊助商廣告

這就是為什麼機器人獎勵模型應該是任務條件的。同一個物理狀態，在不同的目標下意味著完全不同的事情：杯子放在桌上，對於"把杯子放下來"是成功，對於"拿起杯子"是失敗，對於"打開抽屜"則無關緊要。獎勵不只是附加在狀態上的一個數字，它是在一個目標下對物理進度的解讀。一個好的獎勵模型應該能夠估計相關接觸是否發生、物體是否按預期方式移動、系統是否進入了可恢復或不可恢復的失敗模式，以及最終配置是否滿足了任務要求。

這個獎勵接地氣的問題，正是讓自我改進的部署成為可能的關鍵。在一個已部署的機器人系統中，每一次執行結果都應該不只是一個通過/失敗記錄，而應該成為一個帶標籤的物理事件。成功的執行提供了魯棒任務完成的樣本；失敗的執行提供了關於缺少接觸、錯誤物體狀態、不穩定抓握、對齊不佳、不安全運動或獎勵誤判的資訊；人類糾正則提供了高價值的監督信號——它不只告訴機器人它錯了，還經常揭示任務本應如何進行。如果這些結果被反饋回物理數據引擎，系統就可以更新它的獎勵模型、重定向模型、世界模型和策略。

由此形成的循環是：部署策略→觀察結果→推斷任務條件下的進度/成功/失敗→解釋失敗或糾正→把接地氣監督添加到數據引擎→更新獎勵模型、世界模型、重定向和策略→重新部署。這是一個僅僅執行訓練好的策略的機器人，與一個隨時間積累能力的機器人學習系統之間的本質區別。

沒有獎勵接地氣，部署軌跡很難被利用：失敗只是一段失敗的影片，成功只是一個碰巧奏效的事件。有了任務條件的獎勵接地氣，部署軌跡就變成了結構化監督。系統可以問：哪個子目標失敗了、缺少哪個接觸、哪個物體狀態錯了、什麼樣的替代動作可以改善結果？

**六、整幅拼圖：從孤立的政策到積累的物理智能**

把四塊拼圖放在一起，就能看清論文描述的完整圖景。物理數據引擎把異質經驗轉化為潛在物理事件；任務保留重定向把那些事件映射到機器人動作；物理接地世界模型預測那些動作的後果；任務條件獎勵接地氣解讀結果。部署則持續提供新的事件，重新進入同一條流水線。長期目標是一個積累型的物理智能系統：每一次人類示範、每一段網路影片、每一次仿真推演、每一次機器人失敗、每一次人類糾正，都成為下一代機器人行為的結構化監督。

贊助商廣告

論文明確指出，VLA模型在這個圖景中仍然重要，但它只是整個物理智能棧中的一層——一個依賴上游接地氣機制的策略接口，這些上游機制處理數據、身體、動力學、獎勵和部署反饋。

這個圖景也意味著我們需要一套全新的評價標準。評估通用機器人的問題，不應該只是"更大的策略能解決更多任務嗎"，而應該是：系統能從人類行為中推斷接觸、物體狀態變化和任務階段嗎？它能在不只複製姿態的情況下，把示範的物理效果重定向到新的身體嗎？它的世界模型能預測對成功和失敗重要的後果嗎？而不只是生成看起來真實的未來幀？它的獎勵模型能區分當前目標下的進度、失敗、恢復和成功嗎？部署失敗能更新棧中正確的組件嗎——策略、獎勵模型、世界模型，還是重定向機制？這些問題，定義了超越VLA擴展的機器人接地氣議程。

歸根結底，這篇論文傳達的資訊是：機器人領域的下一個基礎模型，可能不會是一個單一的巨型模型，而是一個系統：一個把異質經驗轉化為結構化監督的物理數據引擎、一個把任務相關效果映射到機器人動作的身體接口、一個生成可操作反事實的物理接地世界模型，以及一個把成功、失敗和糾正轉化為未來改進的任務條件部署循環。在這樣的系統中，每一次人類示範、每一段網路影片、每一次仿真推演、每一條觸覺軌跡、每一次機器人失敗和每一次人類糾正，都成為物理智能的一部分不斷積累的監督引擎。

機器人，因此需要的遠不止VLA。它們需要能讓物理經驗變得可用的架構支柱。機器人領域的進步，不只取決於擴展策略，還取決於構建將世界上的行為數據連接到機器人動作、獎勵、模型和持續部署的接地氣機制。這個領域面臨的核心挑戰，是從依賴機器人原生數據集，走向世界規模的物理監督，從孤立的策略，走向能從物理世界本身學習的系統。

贊助商廣告

對這一研究方向感興趣的讀者，可以通過arXiv編號2606.06556獲取完整論文，深入了解每個部分的技術細節和數學形式化表述。

Q&A

Q1：VLA模型（視覺-語言-動作模型）到底是什麼，為什麼它不夠用？

A：VLA模型是一種能"看圖說話並做動作"的機器人大腦，它接收攝影機畫面和語言指令，輸出機器人的具體動作。它不夠用，是因為它只能處理已經被整理成標準格式的數據——有明確動作標籤的機器人操作軌跡。而世界上絕大多數的人類行為影片、工廠操作記錄等，都缺乏這些標籤，VLA根本無法直接從中學習。

Q2：物理接地世界模型與普通影片生成模型有什麼區別？

A：普通影片生成模型追求畫面真實感，能生成"看起來像真的"未來畫面。物理接地世界模型則要求預測對機器人控制有實際意義的物理變量——比如抓握是否穩定、接觸會不會建立、物體鬆手後會不會倒。一個畫面真實但忽視了摩擦力和接觸關係的預測，對機器人規劃來說毫無價值，這就是兩者的本質區別。

Q3：四個缺失組件中的"任務保留重定向"要解決什麼問題？

A：它要解決"身體鴻溝"問題。人類手臂的動作無法直接被機械手複製，因為兩者的關節結構、力量範圍和接觸方式完全不同。任務保留重定向的目標不是複製人類的關節軌跡，而是找到機器人自己的運動方式，使其對世界產生的物理效果——比如抽屜打開的距離、物體被提起的姿態——與人類示範的效果儘可能一致。