宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

2025年10月17日 首頁 » 熱門科技

當 OpenAI 的奧特曼還在到處買顯卡、買算力,來支撐他的 Sora 2 影片生成模型。

李飛飛的實驗室 The World Labs,用一張顯卡就能運行一個世界。他們今天發布了一項名為 RTFM (Real-Time Frame Model) 的新技術,一個全新的實時世界生成模型。

和九月中旬發布的圖生世界 Marble 不同李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU,RTFM 不僅是用一張照片,生成一個我們可以自由漫步、探索的 3D 世界。最重要的是,它被設計為可以在單塊 H100 GPU 上高效運行,並且實時生成。

目前,RTFM 已經作為研究預覽版正式發布,並提供了 Demo 可以親自去試試。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

RTFM Demo 鏈接:https://rtfm.worldlabs.ai/

意外地發現,這個 Demo 的名字叫做 FRAMEBOY,結合這個網頁布局,我很快想到了年代久遠的 Game Boy 遊戲機。

這樣一個擁有逼真的光影、反射和陰影的世界,並且這一切還在我們眼前實時發生,在某種程度上,何嘗不是另一種玩遊戲。

不止於生成,更在於實時互動

RTFM 的核心能力,就是能實時生成可供用戶交互的影片。它可以從一張靜態圖片開始,實時渲染出一個可以自由探索的 3D 場景。

與許多世界模型不同,RTFM 能夠學習並渲染出,極其複雜和真實的視覺效果。無論是光滑大理石地面的倒影、物體在陽光下的陰影,還是透過玻璃看到的景象,RTFM 都能準確地模擬。

RTFM 依靠的不是傳統的圖形學編程,而是讓模型通過對海量影片數據的端到端學習,不斷進化出來的。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

支撐這項能力的,是設計 RTFM 背後圍繞的三項核心原則。

效率 (Efficiency),要想把未來拉到眼前,世界模型的計算需求是最大的阻礙。

無論是像 Sora 這樣的 AI 生成影片,還是 Google 尚未正式公開上線的 Genie 3, 都意味著巨大的計算挑戰。

有相關的研究提到,要實時生成 4K 60fps 的交互影片流,AI 模型每秒需要處理的 tokens 數量約等於一本《哈利·波特》的文字量。

而如果要在超過一小時的交互中,保持這些生成內容的持續性,需要處理的上下文,將超過 100M 個 token。這對於當下的計算基礎設施而言,既不現實,也難以負擔。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

李飛飛團隊的目標是「在今天硬體上,運行的明天模型,並提供最高保真度的預覽。」

他們通過對架構、模型蒸餾和推理過程的極致優化,以及整個系統的重新設計。RTFM 成功地實現了,僅使用單個 H100 GPU,就可以交互式幀率進行推理,實時生成。

可擴展性 (Scalability),從影片模型,能直接到世界模型

傳統的 3D 引擎,用的是三角網格、高斯點雲、體素渲染等顯式結構,完全依賴於一些複雜的電腦圖形學知識。每個物體都要建模、上材質、打光、烘焙陰影。這和我們之前介紹的混元 3D 世界,所採用的方法類似,它們主打的是實現 3D 全管道的生成。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

傳統 3D 方式(左)和 RTFM 方式(右)

World Lab 選擇的路和混元不同, RTFM 不會構建任何顯式的 3D 模型。它使用了類似 Sora 的「自回歸擴散 Transformer」,直接從影片幀序列中學習世界規律。

舉個例子,模型不再需要知道「這是一堵牆」或「那是一盞燈」,它只通過成千上萬段影片的學習,學會了什麼是「空間感」,學會從輸入的 2D 圖像序列中,預測出下一個新的視角畫面。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

和生成 3D 資產的路線不同,RTFM 能夠更好地利用不斷增長的數據和算力,從而實現無限擴展。

持久性 (Persistence),讓世界模型像 nano banana 一樣保持一致。

大部分的影片生成模型有一個天生缺陷,就是它們沒有記憶。即便現在 Sora 一次性,能生成 25 秒的震撼畫面,但影片生成結束後,世界就結束了,並不能提供持續的交互。

而如果要記住所有場景,計算負擔勢必又會隨著探索的深入而無限累積。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

RTFM 試圖解決的,就是讓生成的世界具備持續存在的能力。它引入了一個叫「spatial memory(空間記憶)」的機制。它為生成的每一幀畫面,都賦予了在 3D 空間中的精確「姿態」(位置和方向)。

在生成新畫面時,模型會採用一種「上下文雜耍」 (context juggling) 的技術,只調用新畫面附近位置的幀作為參考,而不是全局內容。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

這使得 RTFM 能夠做到,讓我們反覆進入這個世界,離開再回來,而不會增加計算負擔。

目前,RTFM 的 Demo 體驗時間只有 3 分鐘,3 分鐘後,它還是會不記得這個世界。我在那個 Demo 裡面拖動左右兩個搖杆,玩了很久,想到了李飛飛之前說,空間智能才應該是 AGI李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU 的下一個方向。

李飛飛世界模型大更新! 實時生成 3D 世界,只要一塊 GPU

未來是否真的有機會,像頭號玩家一樣,讓現實世界和虛擬世界之間,產生明確的聯繫,光看現在的世界模型,要加載的內容還有太多。

畢竟,即便單個 H100 GPU,售價也大約在 25000 美元以上。但是當算力的價格下降,當算法再快一點;我們或許能看到,真正意義上的世界模型「大更新」,是現實,被完整生成的那一天。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新