谷歌DeepMind推出4K影片模型，正面迎擊Sora

近日，谷歌Alphabet部門Google DeepMind突然公布Veo 2影片模型，距離Veo一代發布僅七個月後，現版本已經可以生成最高4K解析度，長達兩分鐘以上的影片。

贊助商廣告

要知道，OpenAI在一周前剛剛正式推出了Sora影片模型，同樣經過近一年的打磨，Sora卻依舊受限於1080p的最大解析度。

谷歌在關於Veo 2的介紹中提到：「低解析度影片非常適合移動設備，但創作者希望看到他們的作品在大螢幕上大放異彩。」顯然，這段發言直指Sora。

谷歌發言人表示，Veo 2 的4K剪輯默認限制為8秒，但可以延長至2分鐘或更長時間。與之相比，Sora的1080p影片上限僅為20秒。

拋開以上這些參數，AI影片模型有個問題繞不過，就是那些「低級」BUG。Sora一經推出，很多自媒體都做了測試，壞消息是，各種奇怪的物理和人體表現依舊存在。比如，生成人物可能有許多條腿，或遇到稍微複雜的運動時，扭曲的身體讓人看得背後發毛，似乎這是AI現階段難以逾越的大山。

但谷歌部門聲稱，在糾正「幻覺」細節（如額外的手指）和展示「現實世界的物理學以及人類運動和表情」方面取得了重大進展。

贊助商廣告

一些具備相關學術背景的專業人士對AI所犯的物理錯誤發表了看法，他們認為，只能通過所謂的世界模型來解決，這些模型具有理解和生成3D環境的「空間智能」。湊巧的是，谷歌本月早些時候推出了自己的Genie 2世界模型，難道這就是《駭客任務》的訓練場？

同時，Veo 2也能更好理解「電影語言」，比如「18mm鏡頭」、「淺景深」等專業用語。但是，也有很多人對日趨「合理」的影片模型產生擔憂，圖像和影片生成器的輸出越合理，它們被用於邪惡目的的風險就越大，防偽技術的疊代勢在必行。

對於Veo 2來說，DeepMind將不可見的SynthID水印置於Veo 2生成的影片中。這種「水印」的優點是，隱匿的SynthID可能會讓影片傳播者大意，技術人員更容易發現造假影片的證據。缺點也很明顯，普通人很難區分一段影片是否由AI生成。

相比之下，OpenAI的Sora會在其生成影片的右下角嵌入一個可見的水印動畫，對於普通人更容易分辨。

不過大家對於AI影片模型的擔憂一定不會停止，現階段，各家影片大模型還是以秒或分鐘來生成，而且相對比較容易分辨。但按照當今的發展速度，未來AI生成的影片一定會以假亂真，到時候我們將如何面對網際網路世界？你所喜愛的影片博主，也許根本不存在。