騰訊混元3D世界模型1.0發布並開源：文字圖片生成可交互3D場景

近日，在 2025 世界人工智慧大會（WAIC）上，騰訊發布並開源了的「混元 3D 世界模型 1.0」。

贊助商廣告

騰訊指出，，一句話或一張圖就能生成一個更沉浸式漫遊、可交互、可仿真的虛擬世界。例如，輸入「一座中世紀城堡，城堡塔樓宏偉壯闊，城堡周圍是一座石頭雕像，石頭鋪成的路以及美麗的花朵，卡通風格」，模型就能快速生成包含建築、地形、植被的完整 3D 場景。

騰訊宣稱：「這是業界首個開源的可沉浸漫遊、可交互、可仿真的世界生成模型，它為遊戲開發、VR、數位內容創作等領域開闢了全新的道路，帶來了前所未有的可能性。」

除了 3D 世界模型，騰訊混元還披露了一系列開源計劃，涵蓋了端側混合推理語言模型、多模態理解模型、遊戲視覺模型等。其中，混元 3D 世界模型 1.0 作為此次發布的亮點之一，融合了全景視覺生成與分層 3D 重建技術，同時支持文字和圖片輸入，能夠生成高質量、風格多樣的可漫遊 3D 場景。

混元 3D 世界模型 1.0 的核心在於其創新的「語意層次化 3D 場景表徵及生成算法」，將複雜的 3D 世界解構為不同的語意層級，實現前景與背景、地面與天空的智能分離。它不僅能夠生成視覺效果逼真的整體場景，還能輸出標準化的 3D Mesh 資產，這些資產與 Unity、Unreal Engine、Blender 等主流工具完美兼容。用戶可以對場景內的元素進行獨立編輯或物理仿真，實現 AIGC 技術與傳統 CG 工作流的無縫銜接。

與全球領先的開源模型相比，團隊自信地指出，混元 3D 世界模型 1.0 在文生世界、圖生世界的美學質量和指令遵循能力等關鍵維度均全面超越當前 SOTA 的開源模型。

除了本次發布即開源的混元 3D 世界模型 1.0，混元還將在月底開源一系列小尺寸模型，包含 0.5B、1.8B、4B、7B 混合推理模型。這些模型更加輕量、易於部署，將進一步推動人工智慧技術在各個領域的廣泛應用。

贊助商廣告