在今年的I/O開發者大會上,谷歌發布第三代影片生成模型Veo 3。
據悉,Veo 3對標OpenAI的Sora,具備生成影片的同時同步嵌入音效的能力。
谷歌表示,Veo 3不僅可以基於文本和圖像提示生成高質量的影片,還能為人物對白、鳥鳴或街頭交通等場景配上相應的音效,實現更逼真的視聽體驗。
Video, meet audio. 🎥🤝🔊
— Google DeepMind (@GoogleDeepMind) May 20, 2025
With Veo 3, our new state-of-the-art generative video model, you can add soundtracks to clips you make.
Create talking characters, include sound effects, and more while developing videos in a range of cinematic styles. 🧵 pic.twitter.com/5Hfpetfg8b
谷歌DeepMind產品副總裁Eli Collins表示:「從文字和圖像提示,到真實世界物理效果與精準的唇形同步,Veo 3的表現都非常出色。」
目前,該模型主要面向美國地區的Gemini Ultra訂閱用戶,每月收費249.99美元。
此外,Veo 3也將納入谷歌面向企業客戶的Vertex AI平台。
除了Veo 3外,谷歌還發布了多個與生成式AI相關的新產品,包括升級版圖像生成模型Imagen 4、電影製作輔助工具Flow。
此外,谷歌還宣布對原來的Veo 2進行更新,並新增支持通過文字提示對影片中物體進行增刪的功能。
目前,生成式AI在圖像和影片創作領域的應用日益普及。

不過值得注意的是,谷歌在AI圖像生成領域的歷史並非一帆風順。
2024年,谷歌因Imagen 3模型生成帶有歷史錯誤的圖像內容而遭遇廣泛批評,隨後被迫重新發布該工具。
谷歌聯合創始人Sergey Brin後來坦承,問題源於「測試不充分」。