當你拍攝了一段長達半小時的旅行影片,想從中找出"戴紅帽子的小女孩追逐海鷗"的片段。如果是你自己來找,可能要反覆拖動進度條幾分鐘;但如果有一位「影片偵探」,你只需要描述一下想找的畫面,他不僅能告訴你這個片段在第幾分幾秒,還能在畫面中精確框出那個小女孩的位置,這就是字節跳動最新發布的Vidi2模型所做的事情。
2025年11月24日,字節跳動智能創作部門的智能編輯團隊,在arXiv上公開技術報告。這支團隊一直致力於解決一個困擾普通用戶的難題:如何讓AI像專業剪輯師一樣理解影片內容,並自動完成複雜的編輯工作。
為什麼我們需要一個"影片偵探"?
影片已經成為我們在網際網路上交流和表達創意的主要方式。無論是短影片平台上的有趣片段,還是長影片網站上的影視劇集,影片內容正在以爆炸式的速度增長。然而,製作一段高質量的影片對大多數人來說依然是一件令人頭疼的事情,尤其是當你需要在手機上完成剪輯和編輯操作時。
假設你是一位婚禮攝影師,剛剛拍攝了三個小時的婚禮全程影片。新人希望你能剪出一個十分鐘的精華片段,重點展示"新郎看到新娘出場時的表情"、"交換戒指的瞬間"以及"所有賓客舉杯祝福的場景"。有時候可能需要一幀一幀地瀏覽三個小時的素材,用肉眼尋找這些特定的畫面,然後手動標記時間點,再進行剪輯。整個過程可能需要花費你整整一天的時間。
字節跳動在2024年發布了第一代Vidi模型,它已經展現出了強大的時序理解能力。也就是說,當你告訴它"找出新郎第一次看到新娘的畫面"時,它能夠告訴你這個片段大概在影片的哪個時間段。但這還不夠精確。如果畫面中同時出現了新郎、伴郎和新娘的父親,模型雖然找到了正確的時間段,卻無法告訴你"新郎"具體在畫面的哪個位置。
Vidi2的突破性進展正是解決了這個問題。它不僅能夠找到正確的時間段,還能在每一幀畫面中用一個精確的"框"標出你要找的那個人或物體。用我們的"偵探"比喻來說,第一代Vidi像是一位能告訴你"嫌疑人大約在下午三點出現在商場裡"的偵探,而Vidi2則升級成了能夠指著監控畫面說"看,他就在這裡,穿藍色外套的那個人"的超級偵探。
Vidi2的三大"偵探技能"
要成為一名優秀的影片偵探,需要掌握哪些本領呢?Vidi2主要具備三種核心能力,它們就像偵探工具箱裡的三件寶貝,分別用於不同的"破案"場景。
第一項技能叫做"時空定位",在論文中被稱為STG(Spatio-Temporal Grounding)。這是Vidi2最引以為傲的獨門絕技,也是它與其他模型拉開差距的關鍵所在。想像你在看一部武俠電影,想找出"主角第一次使出絕世劍法"的片段。時空定位不僅能告訴你這個精彩瞬間發生在第45分鐘到第47分鐘之間,還能在每一秒的畫面中準確圈出主角的位置,即使畫面中同時有十幾個人在打鬥。這就像偵探不僅知道案發時間,還能在人群照片中準確指出嫌疑人一樣。

研究團隊在論文中展示了一個具體的例子:在一段將近七分鐘的影片中,用戶輸入的查詢是"那個從跪姿站起來的男人"。這個場景發生在一個光線昏暗的環境中,畫面里有好幾個人。Vidi2不僅準確定位到這個動作發生在第1分01秒到第1分03秒之間,還在每一秒的畫面中用精確的坐標框出了目標人物。模型預測的邊界框坐標與人工標註的真實坐標相差無幾。比如在第1分01秒的畫面中,預測坐標是(0.452, 0.355, 0.530, 0.652),而真實坐標是(0.462, 0.391, 0.537, 0.657),誤差非常小。
第二項技能是"時序檢索",論文中稱為TR(Temporal Retrieval)。如果說時空定位是精確到"畫面中的哪個位置",那麼時序檢索就是專注於"影片中的哪個時間段"。這項技能在第一代Vidi中就已經表現出色,到了Vidi2則更加精進。時序檢索特別適合處理那些只需要知道時間段、不需要精確到具體位置的查詢。比如你想找出一段播客影片中"主持人討論人工智慧話題"的所有時間段,時序檢索就能快速給你答案。
第三項技能是"影片問答",也就是Video QA。這是Vidi2相比前一代的重要升級。有了這項能力,Vidi2不再只是一個"搜索工具",而是變成了一個能夠理解影片內容並回答問題的"智能助手"。你可以問它"影片裡的主角最後去了哪裡"、"那個紅色的盒子裡裝的是什麼"這樣的問題,它會像一個看過整個影片的朋友一樣給你答案。
值得一提的是,這三項技能並非孤立存在,而是相互配合、協同工作的。就像一位真正的偵探,既需要知道案發時間、案發地點,還需要能夠分析案件來龍去脈一樣。Vidi2把這三種能力整合在一個統一的模型架構中,用戶只需要用自然語言描述自己的需求,模型就會自動調用合適的技能來完成任務。
"偵探"是如何煉成的:Vidi2的技術架構
了解了Vidi2能做什麼之後,你可能會好奇:這個"超級偵探"到底是怎麼訓練出來的?讓我用一個更通俗的比喻來解釋。
想像你要培養一個能夠同時理解文字、圖像和聲音的全能助手。傳統的做法是分別訓練三個專家:一個只懂文字的、一個只懂圖像的、一個只懂聲音的,然後讓他們開會討論。但Vidi2的做法不同,它從一開始就把文字、圖像和聲音放在一起學習,讓模型天然地理解這三種資訊之間的關聯。
Vidi2的"大腦"建立在一個名為Gemma-3的大型語言模型之上。你可以把Gemma-3想像成一個已經閱讀過海量書籍、具備強大理解能力的"學霸"。研究團隊在這個學霸的基礎上,額外教會了它"看"(理解圖像和影片)和"聽"(理解音頻)的能力。整個模型的參數量是120億,雖然這個數字聽起來很大,但在當今的大模型時代,這實際上是一個相對精簡的配置,意味著它可以在不那麼昂貴的硬體上運行。
在處理影片時,Vidi2面臨一個有趣的挑戰:影片有長有短,短的可能只有幾秒鐘,長的可能超過一個小時。如何讓同一個模型既能處理短影片又能處理長影片呢?研究團隊設計了一種"自適應壓縮"策略。你可以把這想像成一個智能的"摘要系統":對於短影片,它會仔細看每一幀;對於長影片,它會聰明地挑選關鍵幀,就像你快速翻閱一本厚書時會在重要章節多停留一會兒一樣。
訓練Vidi2的"食譜"也很講究。首先,研究團隊準備了大量的"合成數據",這些通過算法生成的訓練樣本,保證了數據的覆蓋面和穩定性。但光有合成數據還不夠,就像學廚藝不能只看菜譜,還需要真正下廚實踐一樣。團隊還加入了大量真實影片數據,這對於提升模型在各種影片任務上的表現至關重要。特別是對於時空定位這個新技能,研究團隊不僅利用了已有的圖像級空間定位數據集來"舉一反三",還專門標註了大量真實影片的時空定位數據,確保模型能夠在實際場景中準確工作。
如何評判一個"偵探"的水平:全新的評估基準
在學術研究中,要證明一個新模型確實比之前的模型更強,就需要有一套公平、全面的"考試題目"。Vidi2的研究團隊不僅開發了新模型,還精心設計了兩套新的評估基準,這就像是為影片理解領域貢獻了一套標準化的"聯考試卷"。
第一套基準叫做VUE-STG,專門用於評估時空定位能力。這套基準有四個與眾不同的特點,讓它比以往的同類數據集更加貼近真實應用場景。

首先是影片長度的多樣性,以前的學術數據集裡,影片通常都很短,可能只有幾秒到幾十秒。但現實生活中,我們經常需要在十幾分鐘甚至半小時的長影片中尋找特定內容。VUE-STG包含的影片從十秒到三十分鐘不等,總計982個影片、1600個查詢,總時長超過204小時。這意味著模型不僅要能處理短影片,還要能在"大海撈針"般的長影片中準確定位。
其次是查詢格式的優化,在標註這套數據集時,研究團隊特別注意消除歧義。舉個例子,如果原始描述是"一個球員被抬上救護車",這個描述其實有歧義,你想找的是"球員"還是"救護車"?團隊會把這樣的描述改寫成更明確的形式,比如"正在被球員登上的那輛救護車"或"正在被抬上救護車的那位球員",這樣模型和評估者都能清楚知道目標是什麼。
第三個特點是標註質量,與許多依賴自動標註或眾包標註的數據集不同,VUE-STG中的所有時間範圍和邊界框都是由人工精確標註的。雖然這種方式成本更高、速度更慢,但能確保評估結果的可靠性。
第四個特點是評估指標的設計,研究團隊提出了一套完整的評估體系,包括時序指標(衡量時間段找得準不準)和時空指標(同時衡量時間和空間位置)。其中最重要的指標叫做vIoU(影片交並比),它綜合考慮了時間和空間兩個維度的準確性,作為模型排名的主要依據。
第二套基準叫做VUE-TR-V2,是對之前VUE-TR的升級版本,專門用於評估時序檢索能力。升級後的數據集總影片時長從107小時增加到了311小時,增長了將近三倍。更重要的是,它包含了更多的長影片和超長影片(超過一小時的影片),讓評估更加貼近真實場景。同時,查詢的格式也更加接近普通用戶的自然表達方式,而不是學術化的精確描述。
"偵探大比武":Vidi2與頂尖對手的較量
有了公平的考試題目,接下來就是真刀真槍的比拼了。研究團隊讓Vidi2與當前最強大的幾個商業模型進行了正面較量,包括谷歌的Gemini 3 Pro(預覽版)、OpenAI的GPT-5,以及阿里巴巴的Qwen3-VL-32B。

在時空定位任務上,Vidi2展現出了壓倒性的優勢。整體來看,Vidi2的時序交並比(tIoU)達到了53.19%,而Gemini 3 Pro只有27.50%,GPT-5更是只有16.40%。用通俗的話說,如果把找準時間段比作射箭,Vidi2有超過一半的箭能射中靶心附近,而競爭對手只有四分之一甚至更少。
在空間定位方面,差距更加懸殊。Vidi2的空間交並比(vIoU)是32.57%,而Gemini 3 Pro只有4.61%,GPT-5是5.47%。這意味著在"框出畫面中具體位置"這件事上,Vidi2的準確度是競爭對手的六到七倍。這個差距之所以這麼大,主要是因為時空定位本身就是一項全新的、難度極高的任務,而Vidi2是第一個專門為此優化的模型。
研究團隊還做了更細緻的分析,看看不同條件下模型的表現差異。一個有趣的發現是:隨著影片長度增加,所有模型的表現都會下降,但Vidi2下降得最慢。在十到三十分鐘的"中等長度"影片上,Vidi2的tIoU仍然保持在47.27%,而Gemini 3 Pro跌到21.13%,GPT-5更是只有4.10%。這說明Vidi2在處理長影片時的"耐力"遠超競爭對手。
另一個值得關注的維度是目標物體的大小。當要找的物體在畫面中占據的面積很小(不到10%)時,所有模型的表現都會變差,因為小目標本身就更難定位。但即使在這種困難條件下,Vidi2的vIoU仍有23.31%,是Gemini 3 Pro(2.33%)的十倍,是GPT-5(3.66%)的六倍多。

在時序檢索任務上,Vidi2同樣表現優異。在VUE-TR-V2基準上,Vidi2的整體IoU達到48.75%,超過Gemini 3 Pro的37.58%十多個百分點,更是大幅領先GPT-5的17.15%。特別是在超長影片(超過60分鐘)這個最具挑戰性的類別上,Vidi2的IoU是38.65%,而Gemini 3 Pro只有21.19%,GPT-5是12.49%。
為了確保比較的公平性,研究團隊為每個競爭模型都精心設計了適合其特性的輸入格式和提示語。比如GPT-5不支持直接輸入影片,只能接受一系列圖片幀,所以團隊按照一定規則從影片中提取幀序列來輸入。這些細節上的考量確保了評估結果的可信度。

那麼在影片問答這個更通用的任務上表現如何呢?研究團隊在三個公開的學術基準上進行了測試:LVBench、LongVideoBench和VideoMME。這三個基準都採用選擇題的形式,便於客觀評估。結果顯示,Vidi2在LVBench上得分45.8%,在LongVideoBench上得分57.1%,在VideoMME上得分63.5%。這些成績與同等規模的開源模型Qwen2.5-VL-7B相當(45.3%、54.7%、65.1%),雖然與頂尖的Gemini-2.5-Pro(78.7%、84.3%)還有差距,但考慮到Vidi2主要針對時序檢索和時空定位進行優化,能在通用問答任務上達到這個水平已經很不錯了。
"偵探"能幫我們做什麼:實際應用場景
說了這麼多技術細節,你可能最關心的還是:這個"影片偵探"到底能在現實生活中幫我們做什麼?研究團隊在論文中展示了三個非常實用的應用場景。

第一個應用是"自動生成精彩片段"。想像你拍了一段將近十分鐘的寵物影片,想分享給朋友,但又不想讓他們看完整段。有了Vidi2,你只需要告訴它"幫我找出影片中最精彩的片段,並給每個片段起個標題"。模型會自動掃描整個影片,挑選出幾個亮點時刻,並生成諸如"這隻兔子的晨間例程有點……與眾不同"、"當你想安靜,但朋友偏不讓你消停"這樣生動有趣的標題。論文中展示的例子是一段關於兔子的影片,Vidi2自動提取了三個精彩片段,每個片段都配有一個幽默且貼切的標題。

第二個應用是"劇情理解"。如果你是影視愛好者或影片編輯從業者,這個功能會特別有用。現代影視作品往往有複雜的人物關係和情節線索,即使是專業編輯人員,想要按照特定角色或特定情節來剪輯影片,也需要花費大量時間反覆觀看。Vidi2可以幫你"認人",識別出畫面中的不同角色並追蹤他們的位置。更厲害的是,它還能理解複雜的情節邏輯。論文中的例子是一部電影片段,用戶問"那個牙醫的財務操作是什麼,她為什麼要僱傭Bernice?"Vidi2不僅識別出畫面中的兩個角色(牙醫Dr. Cynthia Sheldrake和Bernice Rhodenbarr),還推理出劇情要點:牙醫是個逃稅者,她需要僱傭Bernice來追回被偷的珠寶,但又不能報警,因為那樣會暴露她自己的非法行為。

第三個應用是"基於故事線的影片創作"。這是一個更高級的應用,目標是讓AI像專業剪輯師一樣,根據敘事邏輯來組織多個影片素材。論文展示了一個例子:輸入六段不同的美食影片片段,讓模型"用這些素材創作一個有情感弧線的故事"。Vidi2會生成一份完整的剪輯腳本,包括場景設定("這個影片以'閨蜜觀察日記'的形式呈現,幽默地記錄朋友的日常")、敘事結構("故事遵循'瞬間集錦'的框架,先建立反差,再展現溫情")、情感核心("影片的核心是閨蜜之間溫暖又互相調侃的情感")以及具體的剪輯指令(哪個片段放在哪裡、用什麼速度、配什麼旁白、用什麼字幕樣式)。最終渲染出來的成品影片包含了旁白、音樂、動畫和轉場效果,展現了模型自動化整個創意剪輯流程的潛力。
這三個應用場景,從簡單到複雜,從個人用戶到專業場景,展示了Vidi2的廣泛適用性。對於普通用戶來說,它可以讓影片編輯變得像發微信一樣簡單,只需要說出你想要什麼,AI就能幫你完成;對於專業人士來說,它可以大幅提升工作效率,讓他們把更多精力放在創意構思而非繁瑣的素材整理上。
至頂AI實驗室洞見
Vidi2代表了影片AI領域的一個重要里程碑。它第一次真正實現了端到端的時空定位能力,讓AI不僅能理解"什麼時候發生了什麼",還能精確指出"在畫面的哪個位置"。這看似簡單的進步,實際上打開了一扇通往智能影片編輯的大門。
回想一下,十年前我們可能從未想過,有一天可以對著手機說一句話就能搜索到想要的資訊。而今天,語音助手已經成為我們日常生活的一部分。Vidi2的出現讓我們有理由相信,不久的將來,我們可能只需要對著電腦說"幫我把這段影片裡所有笑得最開心的鏡頭剪出來做成一個合集",AI就能自動完成所有工作。
雖然Vidi2在時空定位和時序檢索上取得了領先優勢,但在通用影片問答方面,它與頂尖的商業模型還有明顯差距。說明要打造一個真正"全能"的影片AI助手,還有很長的路要走。同時論文裡展示的應用場景雖然令人興奮,但從學術演示到大規模商業落地之間,通常還需要經歷大量的工程優化和產品打磨。
不過有一點是確定的:影片正在成為網際網路上最主要的內容形式,而能夠真正"理解"影片的AI,將會深刻改變我們創作、編輯和消費影片內容的方式。Vidi2讓我們看到了這個未來的一角。對於普通用戶來說,這意味著影片創作的門檻將進一步降低;對於專業人士來說,這意味著效率工具將變得更加強大;而對於整個行業來說,這預示著一場關於影片內容生產方式的深刻變革正在醞釀之中。
那麼問題來了:當AI能夠像你一樣理解影片內容,甚至比你更快更準確地完成編輯工作時,人類創作者的價值將體現在哪裡?或許,正是這個問題,才是Vidi2這類技術留給我們最值得思考的課題。
Q&A
Q1:Vidi2是什麼?
A:Vidi2是字節跳動智能編輯團隊開發的大型多模態影片理解模型,它能夠根據文字描述在影片中精確定位特定時間段,並在畫面中框出目標物體的位置。簡單來說,它就像一個"影片偵探",你描述想找的內容,它就能幫你在茫茫影片中精準定位。
Q2:Vidi2和GPT-5、Gemini相比誰更強?
A:在時空定位和時序檢索這兩項專業任務上,Vidi2大幅超越GPT-5和Gemini 3 Pro,準確率是它們的數倍。但在通用影片問答方面,Vidi2與頂尖模型還有差距,因為它主要針對影片定位任務進行了專門優化。
Q3:普通人能用Vidi2做什麼?
A:普通人可以用它自動提取長影片中的精彩片段、為片段生成標題,或者通過自然語言描述來快速定位影片中的特定畫面。目前Vidi2還處於技術發布階段,尚未以消費級產品形式向公眾開放,但它預示了未來影片編輯工具的發展方向。






