Sora的發布,讓文生影片成了過去幾個月里最熱門的一個話題,與此同時,行業里也湧現出了不少與影片內容分析相關的多模態大模型應用。
MiniGPT4-Video就是最近面世的與影片相關的多模態大模型應用之一。
該應用由KAUST和哈佛大學研究團隊在今年4月發表的論文中提出,是一個專為影片理解設計的多模態大模型框架。

這一研究團隊在論文中指出,在MiniGPT4-Video出現之前,行業中已經有諸多多模態大模型的研究項目,諸如MiniGPT、Video-ChatGPT等,但這些研究項目各有缺陷,例如Video-ChatGPT在對影片中內容進行轉換過程中,往往會造成資訊丟失,而且無法充分利用影片中的動態時間資訊。
他們提出的MiniGPT4-Video是通過將每四個相鄰視覺標記連接,減少了標記數量,同時也降低了資訊損失對應用帶來的影響。
與此同時,他們通過為影片的每一幀添加字幕,從而將每一幀表示為由影片編碼器提取的視覺標記與由LLM標記器提取的文本標記的組合,這讓大模型能夠更全面地理解影片內容,從而同時響應視覺和文本查詢資訊。
眾所周知,對於多模態大模型而言,數據最為關鍵。
據悉,為了訓練MiniGPT4-Video,該研究團隊用到了三個數據集:
第一個數據集是包含了15938個濃縮電影影片字幕的影片作為數據集(CMD),在這個數據集中,每個影片長度為1-2分鐘;
第二個數據集是牛津大學發布的一個擁有200萬影片量的開源數據集Webvid,為了和CMD數據保持一致,該研究團隊將這一數據集中的數據也都裁剪到了1-2分鐘;
第三個數據集是一個擁有13224個影片、100000個問答對話和註解的數據集,這個數據集中的數據質量很高,不僅針對影片內容提供了平均57個單詞組成的問題答案,這些問題還涵蓋多種問題類型,例如影片摘要、基於描述的QA,以及時間、空間、邏輯關係方面的推理。
由此研發出的這樣一個MiniGPT4-Video模型,究竟能有什麼用?
該研究團隊在研究過程中,一共測試了MiniGPT4-Video三項能力:影片ChatGPT能力、開放式問題回答能力、選擇題回答能力。
作為通過影片數據訓練的多模態,MiniGPT4-Video最核心的能力其實是開放式問題的回答能力。
就這一能力,至頂網分別找了三個影片進行了實際測試——一個是由Pika生成的3秒煎肉影片、一個是42秒的機器人演示影片、一個是50秒的《六人行》節選片段。

先說測試結果,將三個影片分別上傳,並對MiniGPT4-Video進行提問——「這個影片談了什麼?」後,最終只有第二個影片給出了完整的答案,給出的答案與影片內容基本一致。
由此可見,現在的MiniGPT4-Video在做影片內容解析時,不僅對影片長度有要求,對影片質量同樣有較高的要求,第二個影片之所以能有不錯的輸出結果,主要是因為影片內容邏輯性更強,而且有一些字幕介紹。

不過,針對第二個影片,我們就同一問題進行了多次提問,給出的答案並不一致,這是生成式AI的特性,第二次給出的答案還將影片中的機器人識別成了人,整體描述也出現了錯誤。

現在看來,MiniGPT4-Video在實際使用時,仍會存在各種各樣的問題,還有待研究團隊繼續調優。