英偉達開源全新世界模型SANA-WM：單卡即可生成60秒可控高清AI影片

5月14日，英偉達研究團隊正式發布開源世界模型SANA-WM相關研究論文，這款主打物理空間感知的AI模型，補齊了開源可控影片生成領域的技術短板，有望成為具身智能、VR/AR內容創作、影視前期製作等多個賽道全新技術參考標準。

贊助商廣告

世界模型核心能力在於學習現實世界物理運動規律與空間深度資訊，依託真實空間邏輯生成貼合現實邏輯的影片內容。SANA-WM操作門檻十分友好，用戶僅需上傳一張靜態圖片，搭配自定義攝像機移動軌跡，就能一鍵生成長達60秒的720P高保真影片。該模型支持完整6DoF六自由度相機控制，除基礎平面移動外，還可自由設置俯仰、旋轉等多角度鏡頭運動，還原真人實景拍攝的鏡頭運鏡效果。

目前官方已公開雪山步道、水下遺蹟、沙漠科幻廢墟等多場景實測樣片，直觀展現模型實景生成實力。該模型參數量為26億，整體推理流程依託單張H100顯卡即可流暢運行，硬體適配門檻大幅降低。

性能層面，SANA-WM實現了突破性提升，吞吐量達到現有同類開源模型的36倍，影片畫面質感可對標多款主流閉源世界模型。同時它訓練成本可控，僅依靠21.3萬條標註公開影片素材，藉助64張H100顯卡訓練15天即可完成模型搭建。

英偉達還優化了終端適配能力，搭載NVFP4量化技術的蒸餾版本，可向下兼容消費級RTX 5090顯卡，僅需34秒就能完成60秒720P影片生成。