
這周的大模型熱點除了 Anthropic 剛剛發布的 Opus 4.7,世界模型
成了另一塊角力的陣地。
短短幾天內,AI 圈幾乎是連珠炮式地發布了一系列重磅世界模型。
先是李飛飛的 World Labs 開源了 Spark 2.0,緊接著騰訊在昨天正式發布並開源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲騰訊混元 3D 世界模型 2.0 體驗地址:https://3d.hunyuan.tencent.com/sceneTo3D
阿里也馬不停蹄,新成立的 ATH 旗下創新事業部團隊,剛剛才宣布了 HappyHorse,立刻又發布世界模型 HappyOyster。

▲阿里 HappyOyster 官網截圖:https://www.happyoyster.cn/
最容易忽略的還有英偉達
Lyra 2.0,沒有發布會和新聞稿,旗下的空間智能
實驗室直接甩出一篇論文,「可探索的生成式 3D 世界。」

▲英偉達研究部落格:https://research.nvidia.com/labs/sil/projects/lyra2/
這種密集程度讓人產生一種錯覺,那些生圖生影片模型是不是都弱爆了。現在的 AI 已經從「生成一張圖、一段影片」的平面階段,大步來到「構建一個世界」的 3D 空間時代。
不僅技術端在狂飆,資本市場也給出了強烈的回應。
今天,群核科技正式登陸港交所。這家空間智能公司一直致力於推動 AI 進入物理世界。它的成功上市,標誌著「世界模型第一股」的正式誕生,也向外界釋放了一個明確信號:世界模型,真的開始火了。
而在熱鬧之餘,我們也發現雖然這些公司都叫世界模型,但是路線完全不同,只能生成影片的像是一個 Demo 產品;能生成 3D 資產的看似可以融入開發設計的工作流;還有在論文裡的未來工作暢想,希望用於機器人的訓練。

目前,騰訊混元 3D 世界模型 2.0 已經開放了申請。我們第一時間進去體驗了一波,試圖從中找到一個答案:這些被認為是 AI 下一階段的世界模型,到底能解決真實世界的哪些問題?
從看電影到開始遊戲
此前我們聊世界模型,大多像在聊一個「更長、更懂物理規律、一致性保持更強的影片」。但這次體驗混元 2.0,最直接的衝擊力在於,它生成的不再是 MP4,而是真正的 3D 資產文件。
在體驗中,我用簡單的提示詞輸入了「吉卜力風格的山間小鎮,黃昏」。在幾分鐘的計算後,出現在螢幕上的畫面像是一個大世界遊戲。

點擊下載,混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四種 3D 資產文件格式。
四種文件類型涵蓋了 Mesh(三角面片網格)、3DGS(3D 高斯潑濺)、點雲等多種格式的 3D 資產文件,這些文件可以直接導入 Unity、Unreal Engine,遊戲開發者拿到手之後可以繼續編輯、調整、搭建關卡。

▲所生成的世界同樣可以保存為全景圖片,原圖約 20MB。
在世界生成任務上,除了常見的文生世界,混元 3D 同樣支持圖生世界。我們找了一張《拯救計劃》電影截圖,Rocky 最後在波江座人給他搭建的世界裡漫步,讓混元來還原整個波江座。

▲由於電影截圖里就有顯示一個外殼包圍著 Rocky 居住的海邊,所以混元生成的世界也有一塊「黑影」
當使用 Unsplash 上下載的高清雪山圖片時,混元 3D 世界模型 2.0 生成的雪景,畫質和真實感都更強。


▲全景圖和導演模式
下的角色漫遊
無論是上傳圖片還是文字提示詞,應用內都有相關的指引,例如上傳的圖片解析度不能小於 512*512,避免畫面出現人物,不要有動物/人物特寫,避免使用純色、純紋理圖片;以及天空、星空等畫面占比較大圖片也不適合等。
而文本提示詞,最好是場景類別(沙漠、海面、房間等)+ 場景特徵(物體、天空等視覺描述)+ 風格(可選,卡通/寫實/油畫風格等)。
混元 3D 世界模型 2.0 的風格化控制表現也很好,從官網已有的世界案例能看到,無論是溫馨的繪本風還是寫實的遊戲風,它對語義的解析非常精準;牆壁的紋理、地牢的陰影和光感都極具沉浸感。

除了能生成可用的 3D 資產,混元 2.0 真正讓我感到「世界」屬性的,是它的角色模式。
現在我們可以直接操控一個角色在剛剛生成的場景里行走、加速、跳躍、轉彎、探索,整個過程就像是在玩一個大世界遊戲。同時,它自帶物理碰撞,角色不會穿牆而過,也不會掉出地圖邊緣。

這種即刻生成、即刻可玩的體驗,確實在模糊了 AI 生成與遊戲引擎之間的邊界,隨著能生成世界的範圍不斷擴大,角色的探索或許會更有意思。
實時生世界時,我們能直接控制角色的行動,混元 3D 模型會自動生成對應的世界,單次生成的時長是一分鐘。

對比之前的混元 3D 模型,這次的 2.0 版本在一句話/一張圖生世界任務上,不僅支持下載 3D 資產文件,推出了全新的角色模式,而且在畫面精細度和真實感方面,也從底層的模型架構進行了重新設計。

▲混元世界模型 2.0 多模態世界架構|https://3d-models.hunyuan.tencent.com/world/
新的模型架構,打通了「理解、生成、重建」的閉環。
- HY-Pano-2.0: 不需要專業的相機參數,普通圖片就能映射出 360° 全景。
- 空間 Agent 技術: 像給 AI 裝上了導航,它能智能規劃漫遊軌跡,確保護理和視覺上的銜接不會穿幫。
- HY-WorldMirror 2.0: 保證了即使是在大幅度的視角變換下,物體側面和背面的完整度依然在線。
在世界重建
任務上,混元世界模型 2.0 輸入多張圖或影片流,就能做到重建真實場景。

在過去,我們想要構建/重建一個可互動的 3D 世界,需要成體系的團隊和數月的打磨;而現在,通過混元 2.0 這樣的工具,只需要一個創意。
並且,這個創意,無論是以文字、圖片還是影片的形式呈現,它都可以生成一個拖進 Unity 的原型,哪怕質量還需要調整,哪怕很多細節還要人工修改,但整個設計的工作流,AI 也開始在發力了。
瘋狂的世界模型周,瘋狂的 AI
當我們再把視線從混元 3D 世界模型 2.0 的資產生成、角色模式、世界重建,拉回本周連發的其他幾個世界模型,我們會發現,這些在不同維度突圍的世界模型,正共同拼湊出世界模型更明確的樣子。
阿里 HappyOyster 目前還在主打漫遊和導演模式,讓我們用自然語言隨時介入世界演化,改寫劇情走向和角色動作。
英偉達 Lyra 2.0 用一張圖就能生成長達 90 米的連貫 3D 環境,它生成的場景甚至能直接丟進 Isaac Sim 給機器人做物理訓練。
李飛飛 Spark 2.0 打通「交付最後一公里」,前面那些模型都在解決怎麼造世界,而 Spark 2.0 已經開始解決怎麼給人看。它通過獨創的流式加載
和虛擬內存技術,把上億個 3DGS 粒子的超大世界,硬生生塞進了普通手機的網頁瀏覽器里。

▲World Lab 生成界面,提示詞:吉卜力風格的山間小鎮,黃昏
看著這些各顯神通的世界模型界面,一個現實的結論是:很明顯,世界模型還沒迎來它的 ChatGPT 時刻。
四家公司這一周的密集發布更像是在為這個時刻做準備,畫面質量、交互能力、資產格式、交付方式、仿真精度,每個都在朝著自己的方向優化。但把這些塊拼成一個「讓普通人願意每天打開」的產品,還沒有模型做到。
在過去兩年裡,隨著 AI Coding 重塑代碼開發、Nano Banana 等模型顛覆平面設計,前端工程師和平面設計師們已經經歷了「xxx is DEAD」。現在,這朵雪花大概是要飄到 3D 設計的護城河上。
隨著更多模型廠商的下場,3D 設計的工作流也會慢慢從 AI 輔助走向 AI 主導。到那時,生成並體驗一個 3D 互動世界,將會像今天我們在手機上刷短影片一樣流暢、低成本且理所當然。
畢竟,在所有的科幻敘事裡,沒有任何人會抗拒自己成為「造物主」,去自定義一個新世界。






