宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布

2024年12月05日 首頁 » 熱門科技
就在剛剛,Google Deepmind 深夜放大招,發布了最新基礎世界模型 Genie 2。
想體驗遊戲世界?未來只需一張圖片就能實現。
作為一個基礎世界模型,Genie 2 能夠憑藉開局一張圖生成各種可操作、可玩的 3D 環境。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
當 Genie 2 能準確預判角色行為並實時生成連貫畫面,這也意味著它已經開始真正「理解」而不是簡單「模仿」世界的運作規律。
附上博客原地址:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
而在凌晨時分,OpenAI 也正式宣布了為期十二天的聖誕驚喜活動。
十二月的矽谷不只是聖誕老人的主場,也是 AI 巨頭們的年終對決。不是冤家不聚頭,Deepmind 頭條再次被成功搶占。
Sam Altman 在 X 平台宣布:
🎄🎅 從明天太平洋時間上午 10 點開始,我們將啟動為期 12 天的 OpenAI 活動。 

每個工作日,我們都會進行一場直播,展示一些新發布的內容或演示,有些是重磅活動,也有些是小驚喜。 

我們有很多精彩內容等著與大家分享,希望你喜歡!聖誕快樂!
網友也化身預言家,預測了 OpenAI 要發布的一些內容:
 
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
 
第 1 天:發布文本到影片 AI 工具 Sora。
 
第 2 天:為 ChatGPT 引入聖誕老人靈感的聲音,增添節日氣氛。
 
第 3 天:通過視覺功能增強 ChatGPT 的高級語音模式。
 
第 4 天:向免費用戶發布 o1-preview,擴展了對高級推理模型的訪問。
 
第 5 天:展示 1 月即將推出的 GPT 智能體。
 
第 6 天:發布 GPT-4o 圖像。
 
第 7 天:推出新的開發者工具。
 
第 8 天:展示新的 Dalle。
 
第 9 天:宣布具有更大上下文窗口的 GPT-NEXT 模型。
 
第 10 天:發布辯論遊戲,教機器辯論玩具問題。
 
第 11 天:推出 Microscope,這是神經網路模型可視化的集合。
 
第 12 天:將高級語音模式時間增加至每天 20 小時。
滿血版 o1、Sora 的呼聲在眾多網友的猜測中此起彼伏,可以說,2024 年的 AI 競賽正在醞釀最後的高潮。
具體細節,APPSO 也將第一時間送上。
‍關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察‍‍
把照片變成可玩的 3D 遊戲,遊戲開發者要失業了?
第一代 Genie 創造 2D 世界,而今天 Deepmind 推出的 Genie 2 則邁出了更大的一步,能夠生成豐富多彩的 3D 世界。
作為世界模型,Genie 2 最厲害的地方在於它能「理解」虛擬世界的運作規律。比如當你操控角色跳躍或游泳時,它能準確預測和展示接下來會發生什麼。
這得益於其在海量影片數據集上的訓練,以及類似其他生成式模型所展現的多項湧現能力,包括物體互動、複雜角色動畫、真實物理效果,以及對其他智能體行為的模擬與預測能力。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
DeepMind 發布的演示影片生動展示了用戶與 Genie 2 的互動過程。
首先,系統使用 Imagen 3 根據文字描述生成初始圖片。然後,Genie 2 就能基於這張圖片創造出一個完整的互動世界。最後,用戶可以用鍵盤鼠標在這個世界裡自由探索,而 Genie 2 會實時模擬生成你看到的每一幀畫面。
更重要的是, Genie 2 能夠在一分鐘內生成世界,大多數示例的時長為 10 至 20 秒。
具體而言,Genie 2 能智能響應鍵盤輸入,準確識別並移動目標角色。比如,它能自動理解方向鍵應該控制機器人的移動,而不是場景中的樹木或雲朵。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
有趣的是,即使從同一個初始畫面出發,由於玩家決策和行動的差異,最終可以產生截然不同的結果。這一特性對於訓練 AI 智能體理解不同決策帶來的後果極其有價值。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
另外,Genie 2 還擁有強大的「記憶力」和「創造力」,它能記住你看不到的地方是什麼樣的,在重新看到時還能精確重現。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
Genie 2 能保持長達一分鐘的場景連貫性,動態生成新的合理內容。

 

 

Genie 2 支持多種視角切換,比如第一人稱視角、等角視角或第三人稱駕駛影片。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
Genie 2 能呈現複雜的 3D 視覺場景。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
Genie 2 支持多樣化的對象交互,如氣球爆炸、開門動作和炸藥桶爆炸效果
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
Genie 2 支持為不同類型角色製作流暢的動畫效果,支持多種活動形式
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
它不僅能夠模擬其他智能體,還能模擬與這些智能體的複雜交互。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
不僅如此,Genie 2 還能模擬水效果、煙霧效果、重力、照明、反射等多種物理現象,並能使用真實世界圖片生成動態模擬效果。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
基於現實圖片模擬生成
畫張草圖就能玩?但也有翻車的時候
Genie 2 能快速地將想法變成可以玩的 3D 場景。
也就是說,通過 Genie 2,研究人員可以設計和實現多種不同的交互式體驗,這些體驗可以模擬各種複雜的物理現象和行為,從而來測試和驗證他們的理論或模型。
於是研究團隊試著讓 Genie 2 對不同的飛行物體(紙飛機、龍、鷹、降落傘)進行建模,以測試 Genie 2 在動畫製作方面的能力,同時也就包括模擬這些物體的飛行動態和物理行為。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
對藝術家和設計師等創作者來說,這是一個極其強大的神器。想像一下,設計師畫個簡單的草稿,Genie 2 就能變成可以實際體驗的 3D 環境,省去了大量複雜的製作過程。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
並且,通過使用 Genie 2 快速創建豐富多樣的環境供 AI 智能體進行任務訓練,Deepmind 研究人員還可以生成一些智能體在訓練時未曾接觸過的評估任務。
說人話就是,Genie 2 充當了 AI 的「訓練場」,能快速創造出各種各樣的「考試場景」,來訓練和測試他們與遊戲開發者合作開發的 SIMA AI 智能體。
具體來說,SIMA 智能體主要是通過自然語言指令完成多種 3D 遊戲世界中的任務。
舉個具體的例子,研究團隊先用一段簡單的提示詞生成了一張圖片,然後使用 Genie 2 創建了一個包含兩扇門(藍色和紅色)的 3D 環境,並給 SIMA 智能體提供了打開每扇門的指令。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
Prompt:一張第三人稱視角的開放世界探索遊戲截圖。玩家是一個探險者,正在探索一片森林。左側有一座紅色門的房子,右側有一座藍色門的房子。相機位於玩家正後方。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
就像我們用鍵盤鼠標控制遊戲角色一樣,SIMA 能理解這些指令並完成任務。而 Genie 2 則負責把整個場景生動地構建出來。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
反過來,研究團隊還可以利用 SIMA 來幫助測試 Genie 2 的能力。比如,團隊通過指示 SIMA 環顧四周並探索房子後方,藉此測試 Genie 2 創建的世界是否前後一致,比如房子後面是不是真的有完整的建築。
不過呢,Deepmind 也承認,目前這項研究仍處於初期階段,且在智能體和環境生成能力上有著很大的改進空間。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
比如說,官方也放出一些翻車的「花絮」,譬如明明是個安靜的花園,突然冒出個鬼魂。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
滑雪的時候,角色莫名其妙地把滑雪板一扔,開始跑酷。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
手裡拿著的「能量球」毫無徵兆地「砰」地就炸了
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
儘管如此,但在 Deepmind 研究團隊看來,Genie 2 將是解決訓練具身智能體的結構性問題的關鍵,並且它能夠實現向通用人工智慧(AGI)發展的廣度和泛化性,將是邁向 AGI 的重要一步。
說到具體的技術原理,Genie 2 本質上是一種自回歸的潛在擴散模型,經過大規模影片數據集的訓練。
影片經過自編碼器處理後,提取的潛在幀被傳遞到一個大型 Transformer 模型,後者使用類似大語言模型的因果掩碼進行訓練。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
在推理時,Genie 2 可以以自回歸方式進行採樣,逐幀處理,基於過去的潛在幀和當前的動作生成新的幀。
研究團隊使用無分類器引導方法來提高動作的可控性。
看著有些複雜,簡單來說,它看過海量的影片資料,學會了預測畫面怎麼變化。當你在這個虛擬世界裡行動時,它就能一幀一幀地生成新畫面,從而讓整個過程看起來特別流暢自然。
OpenAI深夜宣布!連續12天發布AI大招!「截胡」DeepMind頭條,Sora、滿血o1或將發布
官方目前展示的這些案例都是通過未蒸餾的基礎模型生成的,目的是展示潛力。雖然研究團隊也有一個能實時運行的精簡版本,但輸出的畫面效果會差一些。
但不管怎麼說,從平面到立體,Genie 2 完成了 AI 創造力的維度躍遷。
也許再過不久,「拍照」這個行為的含義將被重新定義。每張照片都可能成為一個入口,通向一個完整的虛擬世界。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新