這項由艾倫人工智慧研究所(Allen Institute for AI)與華盛頓大學(University of Washington)聯合主導、北卡羅來納大學教堂山分校(UNC-Chapel Hill)參與的研究,於2026年6月17日以預印本形式發布,編號為arXiv:2606.18558。這項研究的名字叫做MolmoMotion,感興趣的讀者可以通過上述編號在arXiv平台上查閱完整論文。
**一、當機器需要"看懂"運動這件事**
人類從嬰兒時期就開始學習一項極其重要的本領:預判物體接下來會往哪裡移動。當你看到一個朋友舉起咖啡杯時,你的大腦幾乎在瞬間就能預測杯子會被送到嘴邊,而不是被扔出窗外。這種"預知"能力聽起來平淡無奇,卻是人類與世界交互的基礎——如果沒有它,你甚至無法伸手接住別人拋來的鑰匙。
對人工智慧來說,這件事卻一直是個難題。過去幾十年裡,AI領域的科學家們在"識別運動"這件事上取得了大量進展——比如追蹤影片中的人物位置、分析攝影機畫面中的車流變化。然而,識別已經發生的運動,與預測即將發生的運動,是完全不同的兩件事。前者是在回顧過去,後者是在展望未來。
現實世界中,很多最重要的應用場景需要的恰恰是"展望未來"的能力。一台在廚房幫你做菜的機器人,必須提前判斷鍋鏟移動到哪裡才能翻炒食物;一個負責生成影片的AI模型,如果想讓畫面里的物體運動得像真的一樣,就必須預先"想好"物體的運動軌跡;自動駕駛汽車在路口遇到過馬路的行人時,更是需要在毫秒內預判行人的走向。
於是,來自艾倫人工智慧研究所和華盛頓大學的研究團隊提出了一個核心問題:能否訓練一個AI模型,讓它在看到當前場景、知道即將發生什麼動作之後,精確地預測出場景中物體上每一個點將會走向何方?這就是MolmoMotion項目誕生的起點。
**二、為什麼要在三維空間中追蹤"點",而不是追蹤整個物體**
在深入了解MolmoMotion的具體做法之前,有必要先理解研究團隊做出的一個核心設計選擇:用三維空間中的"點"來表示物體的運動,而不是用其他更直觀的方式。
考慮一種最直觀的思路——直接讓AI預測"接下來的影片畫面長什麼樣"。這種方法確實存在,現在也有很多影片生成模型在做類似的事情。然而問題在於,生成整張畫面需要AI花費大量精力去計算光線、顏色、背景紋理等與運動本身毫無關係的細節,效率極低,而且生成出來的"畫面"也很難直接告訴機器人"把手臂移到哪個坐標"。
另一種思路是追蹤物體的整體位置和姿態——比如記錄一個杯子的中心點坐標和朝向角度。這種方法確實精簡了很多,但它有一個致命弱點:它只適用於已知形狀的特定物體。如果AI只學過如何追蹤杯子,它就不知道如何追蹤一隻貓、一塊布或者一根麵條。
還有一種常見做法是在二維圖像平面上追蹤點的位置——比如在影片畫面上標註某個點的像素坐標。但二維坐標有一個根本性的缺陷:它把物體的真實運動和攝像機的移動混在了一起,無法區分。如果攝像機往左移動了,畫面里所有物體的像素坐標都會往右偏移,但其實物體本身可能根本沒動。這樣的數據拿來訓練機器人,就會讓機器人對不同拍攝角度產生極大困惑。
MolmoMotion的團隊選擇了第四條路:在真實的三維世界坐標系中,追蹤附著在物體表面上的若干個點的運動軌跡。就好比在物體上貼幾十個微型GPS追蹤器,然後在三維地圖上觀察這些追蹤器的移動路徑。這種表示方式有三個顯著優點:首先,它與物體的種類毫無關係,無論是剛性的金屬塊、柔軟的布料還是會變形的動物,都可以用相同的方式描述;其次,三維世界坐標不受攝像機移動的影響,物體在哪裡就是在哪裡;第三,這些坐標可以直接告訴機器人"把抓手移到坐標(x, y, z)",無需額外轉換。
**三、MolmoMotion到底在做什麼:任務的完整定義**
明確了用三維點來表示運動之後,研究團隊對任務做了一個精確的定義,可以用一個具體場景來理解。
假設你正在看一段廚房的影片,畫面中有一隻手正準備拿起桌上的茶壺。你用滑鼠在茶壺表面點了八個位置,系統自動從深度傳感器獲取這八個點在三維空間中的精確坐標。與此同時,你輸入了一段文字指令:"把茶壺裡的水倒進紅色的碗裡"。AI模型看到這一切之後,需要預測在接下來的一段時間內(比如兩秒鐘),這八個點各自的運動軌跡——也就是說,每個點在每一個時間步上的三維坐標是多少。
這個任務的難點在於,僅憑視覺畫面本身,物體的運動方向往往是不確定的。同樣是舉起茶壺,可以倒水進碗裡,可以放到另一個架子上,也可以只是挪個位置。文字指令在這裡起到了關鍵的"方向指引"作用,讓AI知道接下來發生的是哪種運動,從而大幅縮小需要預測的可能性範圍。
**四、訓練AI需要大量數據:MolmoMotion-1M數據集的誕生**
要讓AI學會預測三維運動軌跡,必須給它看大量的"示例"——也就是大量已知運動軌跡的影片片段。然而現實情況是,帶有三維運動標註的影片數據極為稀缺。現有的三維捕捉數據集要麼規模太小,要麼拍攝場景太單一,根本不足以訓練一個能適應各種現實場景的通用模型。
研究團隊的解決思路是:網際網路上有海量的普通影片,雖然這些影片天生沒有三維標註,但可以通過自動化的分析方法,把三維運動資訊從影片中"挖掘"出來。於是他們設計了一套完整的自動標註流水線,處理了約116萬個影片片段,最終生成了一個名為MolmoMotion-1M的超大規模數據集,這也是迄今為止規模最大的"有動作描述、有物體定位、有三維運動軌跡"的影片數據集。
這套流水線的工作流程可以類比成一個勤勞的實習生在處理檔案。第一步,給每段影片配上對應的動作描述文字——有些影片本身有說明文字,有些則需要用另一個AI模型自動生成描述,比如"把工具移到碗裡"。第二步,根據動作描述,找出影片中哪個物體是"主角"——比如在"拿起紅色杯子"這個描述中,紅色杯子就是需要追蹤的對象。這裡使用了MolmoPoint這個工具,它能根據動作描述直接在圖像中定位物體的大致位置,再配合SAM3這個分割工具,精確勾勒出物體的形狀輪廓,然後在輪廓內均勻採樣約100個查詢點。第三步,用AllTracker這個工具追蹤這些點在影片各幀中的二維位置,同時用ViPE這個工具估算影片每一幀的深度資訊和攝像機姿態,再通過數學計算把二維追蹤結果"抬升"到三維世界坐標。第四步,由於自動計算難免有誤差,需要對軌跡進行質量篩選和平滑處理——通過檢查同一物體上各點之間的相對距離是否保持穩定來判斷軌跡是否可靠,剔除不可信的點,並對剩餘軌跡做去噪平滑。第五步,很多影片在動作發生前後有大量靜止畫面,沒有學習價值,因此會自動把影片裁剪到物體真正在運動的那段時間。
經過整個流水線處理,最終產出的數據集覆蓋了736種不同的動作詞彙和5692種不同的被操作物體,數據來源橫跨第一人稱的家務操作影片、第三人稱的機器人操作影片以及戶外的人與動物運動影片。
**五、檢驗AI的考卷:PointMotionBench評測基準**
有了訓練數據,還需要一把衡量AI到底學得怎麼樣的標尺。研究團隊同時構建了一個名為PointMotionBench的評測基準,專門用於檢驗三維運動預測模型的性能。
與訓練數據不同,評測基準要求更高的標註質量,必須確保"標準答案"本身足夠準確。因此評測基準的數據來源經過了更嚴格的篩選:其中一部分來自HOT3D數據集,這個數據集使用真實的三維掃描儀記錄人手與物體交互時的精確三維位置,直接從物體三維模型的表面取點作為追蹤目標,精度極高;另一部分來自WorldTrack數據集,這個數據集使用專業動作捕捉設備記錄室內場景中的運動;還有一部分來自DAVIS影片分割數據集,這部分覆蓋了戶外自然場景,通過運行與訓練數據相同的自動標註流水線生成三維軌跡,然後由人工逐一核驗。所有數據集的動作描述文字也經過了人工驗證,確保描述與實際畫面相符。最終的評測基準包含742段影片片段,涵蓋111種物體類別和61種運動類型。
評測時使用三個核心指標:ADE(平均位移誤差)衡量模型預測的軌跡與真實軌跡在每個時間步上的平均偏差,FDE(終點位移誤差)專門衡量運動結束時的位置誤差,PWT(閾值內點比例)統計有多大比例的預測位置與真實位置的偏差在不同容忍範圍(0.01米到0.20米不等)內。
**六、MolmoMotion模型本身:兩種互補的預測機器**
研究團隊設計了MolmoMotion模型來完成三維運動預測任務。這個模型的底座是一個叫做Molmo2的視覺語言模型——可以把它理解成一個既能"看"圖像又能"讀"文字的AI大腦,具有47億個參數。MolmoMotion在這個大腦基礎上,添加了專門用於處理運動預測的"附加組件"。
在接收輸入時,模型會把三類資訊整合在一起:圖像輸入部分負責處理歷史觀測幀(最多3幀),提取畫面中的視覺特徵;文字輸入部分負責處理動作描述,理解即將發生的是什麼事情;查詢點輸入部分會在圖像特徵圖上對應查詢點的位置採樣,提取每個待追蹤點的局部視覺特徵,生成專屬的"點標記"。三類資訊拼接之後送入Molmo2的語言模型組件統一處理,產生融合了視覺、語言和物體位置資訊的綜合表示。
在輸出預測時,研究團隊提供了兩種不同的解碼方案,兩者在設計哲學上存在有趣的差異。
第一種叫做自回歸預測變體。這種方法把三維坐標轉換成文字來表達——具體來說,先把坐標值量化到毫米精度,然後序列化成帶有時間戳和點編號的文字字符串,讓模型像生成文章一樣,一個字一個字地生成未來的軌跡文本。由於這種方式按時間順序逐步生成,後面時刻的預測會參考前面時刻已經生成的內容,因此能夠保持時間上的連貫性,就像寫故事時前後情節要呼應一樣,產生平滑自然的運動軌跡。這種方式的缺點是速度比較慢,因為生成很長的文字字符串需要時間。
第二種叫做流匹配預測變體。這種方法的思路完全不同——它不是逐字生成,而是在連續的三維坐標空間中直接建模"運動軌跡的分布"。可以把它理解成這樣一種過程:先隨機生成一團完全混亂的"噪聲軌跡",然後模型學會如何逐步把這團混亂的噪聲"雕刻"成符合輸入條件的合理運動軌跡。實現時使用了一種叫做DiT的解碼器結構,包含36個處理層,每一層都會從Molmo2的對應層取來視覺語言特徵作為參考,指導軌跡的逐步優化。推理時從高斯噪聲出發,運行10步疊代優化,最終得到預測軌跡。這種方式速度快很多,但在單一最優軌跡的預測精度上略遜於自回歸方式。
兩種方式都採用了一個聰明的坐標表示技巧:不直接記錄絕對坐標,而是記錄相對於第一個查詢點的相對位移。這樣做能大幅減小坐標數值的變化範圍,讓模型更容易學習。
**七、MolmoMotion vs. 其他方法:正面交鋒的結果**
在PointMotionBench上,研究團隊把MolmoMotion與多種現有方法進行了系統對比,參與對比的方法覆蓋了幾個不同的技術流派。
最簡單的兩個基準方法是"靜止"(Static)和"外推"(Extrapolate)——前者假設物體根本不動,後者假設物體以恆定速度持續運動。這兩種方法不需要任何學習,完全依賴簡單的規則。
像素空間方法代表了"先生成未來影片,再從影片裡提取軌跡"的思路,參與對比的有Wan2.2(50億參數的影片生成模型)和Cosmos Predict(來自NVIDIA的影片生成模型)。
三維物體模型方法代表了"先預測物體姿態,再推算點的運動"的思路,包括ObjectForesight、EgoScaler和Robot4DGen。
二維軌跡方法代表了"在圖像平面上追蹤點"的思路,代表是Track2Act。
最終結果顯示,MolmoMotion的自回歸變體在幾乎所有測試數據集和所有評測指標上都取得了最佳成績。以HOT3D數據集為例,MolmoMotion-AR(使用3幀歷史)的平均位移誤差為0.109米,而最接近的競爭對手ObjectForesight達到0.129米,其餘方法大多在0.150至0.200米以上。在終點誤差和閾值內點比例方面,MolmoMotion同樣全面領先。
一個頗為耐人尋味的發現是:兩個最簡單的非參數基準方法——什麼都不做的"靜止"和線性外推的"外推"——在某些測試集上的表現竟然優於或相當於像素空間影片生成方法。這說明那些花費大量計算資源生成"好看"影片畫面的模型,並不必然能從影片中提取出準確的物理運動資訊。視覺上合理,不等於幾何上精確。
流匹配變體MolmoMotion-FM在速度上具有顯著優勢——在相同的硬體上,N=8個點、預測32個時間步的情況下,流匹配版本每個片段只需1.1秒,而自回歸版本需要148.4秒,約為前者的135倍。因此在對響應速度有嚴格要求的應用場景(比如實時機器人控制)中,流匹配版本是更實際的選擇。
**八、三維運動預測的知識能夠"遷移"到機器人身上**
學術評測做得再好,還需要證明這種技術在現實應用中確實有價值。研究團隊選擇了機器人操控作為第一個下游應用來驗證遷移效果。
背後的直覺很有道理:無論是人手還是機械臂,要想成功地把一個物體從A點移動到B點,物體本身的運動軌跡在三維空間中應該大體相似,因為這是任務本身的物理約束決定的,與操控者是人還是機器無關。因此,從人類操作影片中學到的三維運動先驗知識,理論上應該對機器人有用。
具體實驗設計如下:研究團隊訓練了兩個MolmoBot機器人策略模型,兩者結構完全相同,唯一區別在於主幹網路的初始化權重——一個從Molmo2的預訓練權重初始化,另一個從MolmoMotion的權重初始化。兩個模型在相同的數據上訓練(來自MolmoSpaces仿真平台的2萬個拾取放置任務示例),在相同的測試場景中評估,測試分為四種情況:已見過的場景與已見過的物體、已見過的場景與未見過的物體、未見過的場景與已見過的物體、未見過的場景與未見過的物體。
結果相當有力:MolmoMotion初始化的模型在訓練10000步時就達到了51%的成功率,而Molmo2初始化的模型在同樣步數時只有19%;完整訓練結束後,MolmoMotion初始化的模型平均成功率為76.3%,而Molmo2初始化的模型只有56.0%。更重要的是,在涉及未見過的物體和未見過的場景的測試條件下,MolmoMotion初始化模型的成功率下降幅度更小,說明它的泛化能力更強。
此外,研究團隊還在真實世界的機器人影片數據集DROID上進行了遷移實驗。在DROID的單攝影機影片上運行相同的三維軌跡標註流水線,生成訓練數據,然後用MolmoMotion和Molmo2分別作為初始權重進行微調。結果同樣顯示,MolmoMotion初始化的版本起始誤差更低,收斂速度約為Molmo2初始化版本的六倍。
**九、預測出的運動軌跡還能指揮影片生成**
除了機器人,研究團隊還探索了另一個下游應用:用MolmoMotion預測的三維軌跡來指導影片生成模型,讓生成出來的影片中物體運動得更真實。
這個實驗的流程可以這樣理解:給定一張初始圖像和一段動作描述,先用MolmoMotion預測出物體上若干查詢點在接下來時間內的三維運動軌跡,然後把這些軌跡資訊輸入一個叫做DaS的軌跡引導影片生成模型,由DaS負責生成符合這個運動軌跡的完整影片。作為對比,同時測試了兩個不使用軌跡引導的影片生成模型:CogVideoX-5B(DaS的底座模型)和Wan2.2-I2V-A14B(參數量約為前者2.8倍的大模型)。
使用VBench影片質量評測框架來量化結果,涵蓋五個維度:時間一致性(相鄰幀之間內容是否連貫)、主體一致性(被操作物體的特徵是否在整個影片中保持穩定)、運動平滑性(運動過程是否流暢自然)、動態程度(畫面是否有足夠的運動量,而不是靜止的)、背景一致性(背景是否在運動過程中保持穩定)。結果顯示,DaS加上MolmoMotion的組合在五項指標中的四項上優於體量更大的Wan2.2模型,在全部五項上都優於CogVideoX-5B。從定性對比圖來看,MolmoMotion引導的影片中物體運動更加符合物理直覺,物體形態保持得更完整,也更能準確反映文字描述的動作意圖。
**十、模型設計的每個細節都經過了驗證**
研究團隊還進行了一系列消融實驗,系統驗證了模型中各個設計選擇的重要性,這類實驗的邏輯類似於廚師在測試一道菜譜時,逐一去掉某種食材來確認它的作用。
最重要的設計選擇是使用錨點相對坐標——也就是用相對位移而非絕對坐標來表示三維位置。去掉這個設計後,平均位移誤差在所有測試數據集上都上升了約50%,說明這個看似簡單的坐標轉換對模型學習至關重要。
第二重要的設計是語言指令輸入。把動作描述文字替換成一個無意義的固定詞之後,誤差同樣大幅上升,尤其在DAVIS戶外數據集上影響最為明顯。這說明文字指令不只是在幫助區分操作哪個物體,更在提供運動方向的先驗知識,補充了單張圖像無法傳達的意圖資訊。
查詢點的二維視覺特徵也有貢獻,去掉之後誤差上升約5%到8%,在物體在畫面中占比較小的場景下(如DAVIS數據集)影響尤為突出,說明局部視覺特徵幫助模型更精確地定位每個追蹤點。
將每個物體的查詢點數量從8個增加到16個,能帶來2%到3%的誤差改善,但代價是序列長度翻倍,超出了當前語言模型的上下文窗口限制,因此在當前技術條件下8個點的設置是更實際的平衡點。
**這一切對我們意味著什麼**
說到底,MolmoMotion做的事情可以這樣概括:通過大規模自動標註,收集了迄今最豐富的"人做動作時物體怎麼移動"的三維數據,然後用這些數據訓練出一個能夠根據文字指令預測物體未來三維軌跡的模型,並且證明這種預測能力可以幫助機器人學得更快、泛化得更好,還能讓影片生成模型產出更真實的運動畫面。
當然,這項研究也坦誠指出了當前的局限性。每次預測只能處理8個查詢點,這對於理解物體的精細結構和複雜的形變運動來說還不夠密集。而且機器人在仿真環境中的實驗雖然表現良好,真實世界中的閉環機器人測試尚未完成,還需要後續工作來驗證。
不過,這項研究提供了一個很有說服力的論據:讓AI學會用三維語言來理解和預測物體運動,比讓它生成視覺上好看的影片或者依賴特定物體模板,是一條更通用、更高效、更容易遷移的路徑。從網際網路上普通人做家務的影片中提取出來的三維運動知識,可以直接用來讓機器人變得更聰明——這個想法本身就很有趣,值得持續關注它在未來會走向哪裡。有興趣深入了解技術細節的讀者可以通過arXiv:2606.18558查閱完整論文。
Q&A
Q1:MolmoMotion是什麼?
A:MolmoMotion是由艾倫人工智慧研究所和華盛頓大學聯合開發的運動預測模型,它能根據輸入的圖像、物體上的查詢點坐標和文字動作描述,預測這些查詢點在未來時間段內的三維運動軌跡。簡單說,就是告訴AI"接下來要把茶壺倒水",AI會預測茶壺上每個點將走向哪裡。
Q2:MolmoMotion-1M數據集是怎麼來的?
A:研究團隊設計了一套自動標註流水線,處理了約116萬段普通網路影片。流水線會自動識別影片中的運動物體,追蹤物體表面的點在各幀畫面中的位置,再通過深度估計和攝像機姿態計算把二維追蹤結果轉換成三維坐標,最後篩選掉質量不可靠的數據,生成帶有動作描述和三維軌跡的完整訓練樣本。
Q3:MolmoMotion的運動預測能力是怎麼幫助機器人的?
A:研究團隊用MolmoMotion訓練過的權重來初始化機器人策略網路,而不是從普通視覺語言模型權重開始訓練。結果顯示,MolmoMotion初始化的機器人在相同訓練步數下成功率大約高出20個百分點,在處理從未見過的物體和場景時表現也更穩定,這說明從人類操作影片中學到的三維運動知識可以有效遷移到機器人的操控任務中。






