5月14日,英偉達研究團隊正式發布開源世界模型SANA-WM相關研究論文,這款主打物理空間感知的AI模型,補齊了開源可控影片生成領域的技術短板,有望成為具身智能、VR/AR內容創作、影視前期製作等多個賽道全新技術參考標準。
世界模型核心能力在於學習現實世界物理運動規律與空間深度資訊,依託真實空間邏輯生成貼合現實邏輯的影片內容。SANA-WM操作門檻十分友好,用戶僅需上傳一張靜態圖片,搭配自定義攝像機移動軌跡,就能一鍵生成長達60秒的720P高保真影片。該模型支持完整6DoF六自由度相機控制,除基礎平面移動外,還可自由設置俯仰、旋轉等多角度鏡頭運動,還原真人實景拍攝的鏡頭運鏡效果。

目前官方已公開雪山步道、水下遺蹟、沙漠科幻廢墟等多場景實測樣片,直觀展現模型實景生成實力。該模型參數量為26億,整體推理流程依託單張H100顯卡即可流暢運行,硬體適配門檻大幅降低。
性能層面,SANA-WM實現了突破性提升,吞吐量達到現有同類開源模型的36倍,影片畫面質感可對標多款主流閉源世界模型。同時它訓練成本可控,僅依靠21.3萬條標註公開影片素材,藉助64張H100顯卡訓練15天即可完成模型搭建。
英偉達還優化了終端適配能力,搭載NVFP4量化技術的蒸餾版本,可向下兼容消費級RTX 5090顯卡,僅需34秒就能完成60秒720P影片生成。






