
AI 熱點一個接一個,大家光顧著看熱鬧,真正的王炸反而容易被錯過。
就在今天凌晨,Google DeepMind 推出了打磨已久的新項目:Project Genie。這不單是一個好玩的 AI 工具,更是 Google 通往通用人工智慧(AGI)的重要一步:
一個真正的「世界模型」實驗原型。
Step inside Project Genie: our experimental research prototype that lets you create, edit, and explore virtual worlds. 🌎
目前,Project Genie 已經向美國地區 18 歲及以上的 Google AI Ultra 訂閱用戶開放使用。
首先我們要搞清楚一個概念,Project Genie 生成的本質上是一個實時渲染的交互環境。它的技術底座由三部分組成:負責圖像控制的 Nano Banana Pro、負責理解語言指令的 Gemini 模型,以及負責物理反饋的 Genie 3。
前兩者我們都比較熟悉,無需過多贅述,但 Genie 3 又該怎麼理解呢?
簡單來說,它的機制和人類做夢的原理很像。
我們在做夢時,大腦會構建一個包含視聽觸覺的虛擬世界。雖然夢裡的邏輯有時會跳躍,但沉浸感很強。Genie 其實就是讓電腦學會「做夢」,並且允許用戶進入這個夢境進行互動。
此外,與 ChatGPT 這類基於文本統計規律的模型不同,Genie 3 本質上是一個「物理世界模型」。它雖然沒學過物理公式,但通過觀看幾百萬次物體運動的影片,自己「學會」了重力、慣性這些物理規則。
體驗 Project Genie 的方式也非常簡單。

Google AI 產品宣傳委員 Josh Woodward 就演示了全過程:他先把自己的照片轉換成復古遊戲風格的角色,然後上傳到 Genie,輸入「沙漠場景」和角色描述。
點擊生成後,他就能以牛仔的身份在沙漠裡自由探索了。

為了讓控制更精準,用戶還可以在進入前預覽環境,並調整視角。點擊開始後,當你按下鍵盤方向鍵(WASD),系統會實時預測並生成前方的路徑和場景。

整個過程就跟玩遊戲一樣,有所不同的是,你不僅是觀眾,更是這個世界的導演。
不過,作為一個還在開發中的實驗模型,Project Genie 也有明顯短板,比如每次只能玩 60 秒。在接受的採訪播客中,Google 開發團隊解釋說,時間太長會導致畫面邏輯崩壞,產生幻覺,而且實時生成的計算成本極高。
因此,為了平衡體驗和成本,目前的單次探索被限制在 1 分鐘內。
當然,如果你玩膩了沙漠,可以隨時修改指令,瞬間把場景變成賽博城市,而角色的動作邏輯依然會保留。前陣子馬斯克在社交平台上放話稱,AI 有可能讓普通人幾分鐘內生成《GTA6》。
投資機構 VentureTwins 也認為,2026 年將是世界模型的爆發之年。Project Genie 這種「實時影片生成」的技術路徑,未來可能會和基於代碼的傳統遊戲引擎分庭抗禮。
有了 Project Genie,這些判斷似乎聽起來也不那麼遙遠了。
The future of gaming is here. This is Genie 3 from Google AI Studio, the most advanced world simulator ever created. Given a text prompt, it can generate dynamic worlds that you can navigate in real time.
在駕駛直升機時,左下角的地圖還會實時更新。
Some tips for getting good controllable characters or objects in Genie: - start with an image, video game like starting images work really well - use something like Nano Banana to highlight your character to optimise controllability - some annotations in starting images will work in the world you make Note also how the map changes as I fly the helicopter around
網友 @yrzhe_top 試玩後則反饋稱,他在外星球開車「兜風」時發現,沒有宣傳影片那麼流暢,有些延遲,自定義提示也沒生效,只能用官方預設內容。

▲ 圖片來自@yrzhe_top
Google 開發團隊也承認,目前 Genie 3 處於早期階段,物理規律模擬得還不夠準確,穿模或軌跡怪異的情況常有發生。不過 @yrzhe_top 也表示,雖然它只做到了承諾的七成,但這七成已經足夠讓人驚艷。
With Genie 3 you can throw anything at the wall and it somehow sticks.. Why even mod Minecraft anymore when you can just vibe create your own mods in real time and play!
當然,如果只是為了做一個高配版的《Minecraft》,Google 顯然不需要動用那麼多資源。Project Genie 的真正野心在於解決 AI 通往 AGI 路上的最大攔路虎,即數據枯竭與具身智能瓶頸。
是的,網際網路上的高質量文本數據快被吃光了,且機器人無法通過閱讀百科全書學會洗碗,它需要肌肉記憶和物理反饋。
然而,現實中獲取機器人失敗數據的成本極高,但 Genie 可以作為一個無限的合成數據生成器,模擬出十億個不同的廚房、倉庫或外星地表,讓機器人在裡面積累「肌肉記憶」,學會了再應用到現實中。
類似的還有螞蟻靈波今天開源的 LingBot-VA 模型,它能在生成畫面的同時推演動作序列,讓機器人像人一樣「邊想邊做」。製作早餐、拾取螺絲、拆快遞、疊衣物、疊褲子的能力都有所長進。
此外,Google 開發團隊在訪談中還暢想了更具人文關懷的應用場景,例如心理治療與教育。
家長可以利用 Genie 生成一個「滿是蜘蛛的房間」,在一個絕對安全且可控的虛擬環境下幫助孩子進行脫敏練習。或者在歷史課上,直接生成一個 18 世紀的巴黎街道讓學生親歷其境。
儘管現在的 Project Genie 還有畫質粗糙、時長短、延遲高以及無法多人聯機等問題,但它確實推開了那扇通往物理現實模擬的大門。
回頭看 2024 年那句「世界不存在了」,最後讓它成真的,估計不是 Sora,而是 Genie。






