生數科技正式發布Motubrain——一款世界動作模型,以單一統一模型取代多個專用任務系統,充當物理世界中的機器人大腦。
生數科技將Motubrain定位為"一個大腦,無限可能"的機器人智能解決方案。
Motubrain在具身世界模型領域兩項最嚴格的評測基準WorldArena和RoboTwin 2.0上均名列前茅,標誌著行業從依賴專用或特定任務系統構建機器人的傳統模式中實現了決定性轉變。
生數科技以其旗艦影片模型Vidu聞名業界,此次在機器人生成式AI領域的突破堪稱行業首創。生成式影片為大規模模擬真實環境中的機器人奠定了基礎,而Motubrain進一步將這些模擬轉化為實際行動,使機器人能夠從多樣化的大規模預訓練數據中學習,同時降低對傳統物理數據採集的依賴。
生數科技創始人朱軍表示:"真正的世界模型必須能夠構建對現實世界的統一表徵,並預測其演變方式。影片是這種智能的關鍵基礎,因為它能夠自然地大規模捕捉時間、空間、運動、因果關係和物理動態。我們認為,通用世界模型不應由拼湊在一起的模組構成,而應是一個統一的架構,將感知、推理、預測、生成與行動整合於單一系統之中。這才是最終連接數字世界與物理世界的關鍵所在。"
頂尖基準評測表現
Motubrain在具身AI領域主流評測基準上均表現出色。在WorldArena上,Motubrain以63.77的具身世界模型評分躋身機器人感知、預判與規劃領域最佳模型行列。在RoboTwin 2.0上,其在50項預設任務中平均得分高達96.0,同時也是唯一一個在隨機環境中超過95.0分的模型。
四大核心原則重新定義具身AI
Motubrain的核心突破在於將"所見世界"與"所需行動"統一於單一模型之中,並建立在四大核心原則之上,共同重新定義了機器人訓練中具身AI模型的邊界:
一腦多能:統一模型可處理各類任務,且任務種類越多,模型越智能、越強大。無需逐項訓練每種技能,與傳統模型不同,Motubrain同時處理的複雜任務範圍越廣,多任務處理的成功率與可靠性反而越高。
一腦通用:Motubrain並非為某一特定機器人型號而生,而是被設計為可驅動多種類型機器人的通用大腦,打破了"一機一模型"的舊有模式。隨著更多機器人類型、真實場景和數據加入生態系統,Motubrain持續進化,進而帶動網路中每台機器人的整體性能提升。
一腦端到端:Motubrain直接學習完整任務序列,可處理涉及多達10個原子動作(即機器人中最小運動單元)的複雜多步驟任務,遠超傳統2至3個原子動作的水平。機器人不再只看到孤立的動作,而是從頭到尾理解一項完整且有意義的任務。
一腦預判:在驅動行動的同時預測世界變化。環境變化、任務進展與執行過程在同一模型內協同處理,而非由獨立子系統拼接完成。
統一多模態架構
為實現上述目標,Motubrain基於統一多模態模型構建,將影片與行動作為兩種連續模態進行聯合學習。單次訓練即可同時賦予其五項能力:視覺-語言-動作控制(VLA)、世界建模、影片生成、逆動力學建模(IDM)以及影片-動作聯合預測。
三流混合Transformer(MoT)架構將影片、動作與語言整合在一起,充分藉助現有預訓練模型的優勢,使Motubrain能夠同步理解環境、遵循語言指令、預測後續變化並生成動作。
與那些將感知、規劃和控制模組串聯在一起的系統不同,Motubrain對完整閉環進行整體處理。
更廣泛的數據學習範式
Motubrain的學習數據範圍遠超傳統機器人訓練AI模型,涵蓋未標註影片、無語言標註的任務錄像以及來自不同機器人形態的數據。其專有的潛在動作框架可直接從大規模影片中提取物理運動,包括人類影像、仿真數據和多機器人任務軌跡,無需對數據進行標註或打標以指示具體動作。
這一更廣泛的學習範式帶來了顯著的規模擴展效果。在任務規模評測中,隨著訓練任務數量增加,Motubrain的平均成功率持續提升,在50項任務時達到約92%,而Pi-0.5在同等範圍內則下滑至約68%。在數據規模評測中,Motubrain同樣保持明顯優勢,在27,500個訓練回合時平均成功率約達92%,而Motus約為85%,Pi-0.5約為68%。
基於六層數據金字塔構建的三階段訓練流程,使Motubrain能夠跨環境、跨機器人類型泛化技能,同時在精細化部署場景中保持足夠的精準度。
從執行任務到真正完成任務
Motubrain能夠理解周圍環境、預判下一步可能發生的情況,並實時做出響應。在真實世界測試中,經Motubrain訓練的機器人已能以超越大多數傳統機器人系統的適應能力執行完整的多步驟任務。
例如,它們能夠在不斷變化的條件下將鮮花插入花瓶,並用雙臂分別獨立完成不同目標。
尤為值得關注的是,經Motubrain訓練的機器人展現出卓越的執行過程理解與結果預判能力:當舀勺舀空時,機器人能夠識別出未收集到任何物品,並自動重新嘗試舀取動作,儘管從未針對重試數據進行過訓練。
這標誌著機器人從"僅僅執行任務"向"真正完成任務"的根本性轉變。
已投入實際部署
Motubrain並非一個等待商業化的研究模型,它已正式投入運營。多家領先機器人公司已將Motubrain應用於正在進行的機器人訓練項目,在工業、商業和家庭環境的真實硬體上部署其跨形態、多技能能力。
為進一步提升真實世界性能,生數科技已與星動紀元(Astribot)、SimpleAI和Anyverse Dynamics建立合作,共同推進通用具身AI大腦的研發,聚焦於基礎模型演進、多模態數據融合、穩健數據基礎設施以及軟硬體全棧優化。
戰略布局:Vidu與Motubrain雙輪驅動
Motubrain是生數科技繼Vidu之後的下一戰略支柱。Vidu是該公司旗艦生成式影片平台,其最新版本Vidu Q3在SuperClue發布的全球首個參考影片排行榜上榮登榜首。
兩款產品應用場景各有側重,但底層基礎一脈相承:正是使Vidu成為全球領先影片生成系統的世界模型技術,賦予了Motubrain在物理世界中預測與行動的能力。Vidu生成世界,Motubrain則在其中行動。
生數科技完成由阿里雲領投的2.93億美元B輪融資,投資方包括中國網際網路投資基金、好未來、百度風投和光源資本,正以領導者姿態邁入物理AI時代,以成功的實地部署和在深度理解與有效執行任務方面的最高基準評測成績,彰顯其獨特實力。
Q&A
Q1:Motubrain是什麼?它與傳統機器人AI系統有什麼區別?
A:Motubrain是生數科技發布的世界動作模型,核心區別在於它用單一統一模型替代了傳統機器人系統中多個專用模組的拼接方式。它將感知、推理、預測、生成與行動整合在一個架構中,無需為每項技能單獨訓練,任務種類越多反而越智能,同時支持多種機器人類型,打破了"一機一模型"的傳統限制。
Q2:Motubrain在主流評測基準上表現如何?
A:Motubrain在具身AI領域兩大權威基準上均名列前茅。在WorldArena上獲得63.77的具身世界模型評分;在RoboTwin 2.0上,50項預設任務平均得分達96.0,是唯一在隨機環境中超過95.0分的模型。在任務和數據規模評測中,Motubrain在50項任務時成功率約達92%,顯著優於Pi-0.5的約68%。
Q3:Motubrain目前是否已經商用?有哪些合作夥伴?
A:Motubrain已正式投入運營,多家領先機器人公司正在工業、商業和家庭環境中部署使用。生數科技已與星動紀元、SimpleAI和Anyverse Dynamics達成合作,共同推進通用具身AI大腦研發。公司還完成了由阿里雲領投的2.93億美元B輪融資,投資方包括中國網際網路投資基金、好未來、百度風投和光源資本。






