Runway 在 6 月發布了 Gen-3 影片生成模型,效果震撼整個影片生成領域。
隨後 7 月 Runway 又被曝出正在進行新一輪融資,估值 40 億美元,預計融資 4.5 億美元。
這家毫無疑問的影片生成賽道頭部創業公司,剛剛被曝出一份內部文件。
一個簡單的 Excel 表格,巨詳細地羅列著 Runway 動員全公司上下在網際網路上收集的高質量影片資源,累積條目數萬條。
其中 YouTube 上的影片占據了一大部分,光是「推薦YouTube 頻道」就有 3968 個。還有 14 個在線影視資源網站(就是常見的 Watch Movie/Anime Online for FREEEEE!!! 那種盜版網站)。
油管母公司 Google,是 Runway 上一輪融資的投資方,但顯然收集 YouTube 影片數據的工作由 Runway 獨立完成。除了油管以外,它還收集了迪士尼、Netflix、索尼等超級版權公司的影片內容。
爆料媒體用 Gen-3 測試了相關 prompt,非常匹配表格里的數據,細節到直接去生成YouTuber播各自風格的影片。且相關 prompt 僅在 Gen-3 上能生成匹配的效果,Gen-2 不行。
以下內容來自爆料媒體 404media(以下簡稱 4m),經 Founder Park 編輯整理。
油管高質量影片全扒下來了,為了怕被封還買代理下載
據 Runway 前員工向 4m 的爆料,Runway 公司里幾乎是全員都會在這個表格里錄入數據,用來訓練他們自家的模型。表格里搜集的YouTube 影片,他們是用開源軟體 YouTube-DL 下載的,為了防止被 Youtube 封禁,Runway 還找供應商買了專門的代理,用這些代理 IP 地址來下載影片。
可以說準備工作做的很足了。
泄露的文件包含 14 個電子表格。其中一個表格里有一百多個影片關鍵詞,比如「海灘」、「醫生」、「雨」等等,每個關鍵詞旁邊寫著負責搜索相關內容的 Runway 員工的名字。
泄露文件截圖(右側為翻譯後內容)
爆料人說,這些人要麼是被派去找影片的員工,要麼是員工自己標記的他們正在處理的關鍵詞。在「彩虹」這個詞和員工名字旁邊,有人寫了一條備註:「沒有專門的頻道或播放列表,但找到了適合微調(finetuning)的好影片。」

文件中的注釋顯示,Runway 正在尋找特定主題、攝影風格和多樣化人群的影片。「高相機運動」表格包含了 177 個 YouTube 頻道的鏈接,包括《決勝時刻》的官方頻道、電影製作人 Josh Neuman 的頻道、虛幻引擎和 Vans 的頻道。
一個名為「電影傑作」的電子表格列出了 206 個鏈接,是一些高質量的YouTube 頻道和影片,包括動畫短片和學生電影。在這個表格中,DEFY Studio YouTube 頻道的鏈接旁邊有一條注釋寫著「迄今為止汽車電影的牛逼作品都在這兒了」。
「單個優秀影片(用於微調)」是另外 253 個影片的集合,旁邊還有一列主題,比如「修眉」、「冰雕」、「微笑」和「尖叫」。
盜版資源網站也沒能倖免
可能也正因此,很多電影在線網站,尤其是知名的盜版電影網站也是 Runway 重點收集數據的來源。
一個名叫「非 YouTube 來源」的表格包含 14 個網站鏈接,其中包括經常被投訴的盜版動畫網站 kisscartoon.sh,在專門記錄網際網路上內容刪除請求的 Lumen 資料庫里,有上千個針對這個網站的版權投訴。
「非 YouTube 來源」表中還包含一個宮崎駿電影檔案鏈接、幾個動漫盜版網站、一個 XBox 遊戲剪輯的粉絲網站,以及一個現在已下線的名為 AZiMovies 的盜版電影網站,Runway 的某位員工在上面注釋:「這裡面有很多好內容。」
文件里還有一個包含 17112 個詞的列表,包括「手工洗車」、「拳擊」、「打破彩罐」、「扭脖子」、「亂穿馬路」等幾十個詞。每個詞都對應著一些相關的 YouTube 熱門,比如「如何正確洗車」、「如果你被抓到亂穿馬路會發生什麼」和「自己扭脖子的危險」。
還有一個「推薦頻道」的列表里,裡面包含 3967 個 YouTube 頻道的鏈接,其中很多是大品牌和大媒體的頻道,比如皮克斯、Glamour、CBS 紐約、蒙特雷灣水族館、AMC 影院,還有多個官方迪士尼頻道,比如迪士尼 XD 和迪士尼 Plus。

Prompt 裡帶上博主名字,幾乎可以生成原影片
目前還不確定是不是表格里統計的每個影片都餵給了大模型,但 4m 用表格里的關鍵詞在 Gen-3 里測試了下,發現其中很多生成的影片都跟表格里的影片特別像。
真人影片方面,雖然生成的影片沒法完美複製,但用表格里出現的知名YouTuber進行測試時,生成的影片跟真人很接近。
比如,關鍵詞裡如果帶上「Mark Wiens」,這是油管一個超千萬人關注的美食博主,生成的影片裡的確會有一個小伙子在自拍吃東西的畫面,這跟他本人發的很多影片都很像。
PROMPT (GEN-3 ALPHA): 「MARK WIENS」
但是如果用 Gen-2 試驗相同的 Prompt,生成的影片就跟這位博主沒什麼關係了,生成了一個穿西裝的大眾臉。

PROMPT (GEN-2): "MARK WIENS"
巧的是,4m 聯繫 Runway 詢問這件事之後,Gen-3 就不能再生成包含 Mark Wiens 和其他幾位 YouTuber 名字的影片了。
換一個 Prompt,YouTuber Jon Olsson 在他的 Vlog 1054 里的形象。Gen-3 生成了一個穿滑雪夾克帶滑雪帽的白人男性,和作者在影片中的穿著非常像。

原版 Vlog 截圖,這位博主戴著藍色頭盔在雪裡翻了個跟頭。
PROMPT(GEN-3 ALPHA):「YouTuber Jon Olsson 在他的 VLOG 1054 里的形象」
Prompt:一段 DEFY Productions 風格的賽車影片
Gen-3 生成的影片中,賽車尾巴上有「DEFY」字樣,跟 @DEFYstudio Logo 的字體很像。
如果輸入一個這樣的 prompt:以YouTuber Benjamin Hardman 的旅行影片風格呈現。Gen-3 生成了一個看起來像是無人機拍攝的影片,鏡頭跟隨遠處的一位看起來很像 Hardman 的男人,在懸崖邊徒步,和油管原影片相差無幾。
博主本人喜歡捧著攝影機去極地拍冰川,影片的風格是這樣的:


生成的影片長這樣:
PROMPT (GEN-3 ALPHA): 「以YouTuber Benjamin Hardman 的旅行影片風格呈現」
PROMPT (GEN-3 ALPHA): "BENJAMIN HARDMAN"
OpenAI、Anthropic、Nvidia 都在偷偷用YouTube 影片訓模型

同樣是 4 月,《紐約時報》報道 OpenAI 和 Google 通過轉錄 YouTube 影片來訓練他們的模型,連 Google 自己都沒能忍住……不過也有可能他們的用戶協議里允許了。
7月份,Proof News 爆了一份大料,包括 Anthropic、Nvidia、蘋果和 Salesforce 在內的公司,都在偷偷使用了超過 48000 個頻道的 YouTube 影片和字幕文件。
這個數據集也很豐富,從學習影片到脫口秀,可以說是應有盡有。
雖然媒體都這麼報道了,但 OpenAI 官方還沒承認,CTO Mira Murati 最近在接受《華爾街日報》採訪時是這麼說的,她不知道 Sora 的訓練數據是否包括來自 YouTube、Instagram 和 Facebook 的影片。OpenAI 用的是公開可用的數據和授權數據。
油管對此很生氣。
YouTube CEO Neal Mohan 對彭博表示,這種做法是不允許的:「從創作者的角度來看,創作者把他們的勞動成果上傳到我們的平台時,他們是有預期的,服務條款最起碼不能違反。我們不允許轉錄或下載影片片段,這些是我們平台上內容的規則。」
「我希望這些爆料,能讓大家知道有多少科技公司背地裡在幹這個事,以及他們所謂的為了生成那些看起來很厲害的影片都做了什麼『努力』。」
感謝 4m 和這名勇敢的爆料者。