武漢大學、北京大學、南洋理工大學等高校聯合研究：AI終於學會了「把整場戲都找出來」

這項由武漢大學、北京大學、南洋理工大學和新加坡國立大學聯合開展的研究，以預印本形式於2026年6月4日發布，論文編號為arXiv:2606.06294，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

你有沒有遇到過這樣的情況：想在一段長影片裡找到某個人"所有摔倒的片段"，或者想把一部紀錄片裡"所有出現鳥類飛翔的瞬間"剪輯在一起？如果你曾經試過讓現有的AI工具幫你做這件事，多半會失望而歸——它只能找出"第一個"或者"某一個"，而不是"所有的"。這個看似簡單的需求，其實一直是影片AI領域裡一塊難啃的骨頭。

這項研究正是為了解決這個問題而生。研究團隊把這個任務命名為"一對多時間定位"（One-to-Many Temporal Grounding，簡稱OMTG）——就是說，給AI一段影片和一個文字描述，讓它把影片裡所有符合這個描述的時間段都找出來，而不僅僅是找一個。

為了把這件事做好，研究團隊一共做了三件大事：建立了第一個專門測試這個能力的評測基準，製作了一個包含五萬六千個樣本的訓練數據集，並且設計了一套全新的訓練方法，最終讓他們的模型在這個任務上遠遠超越了谷歌的Gemini 2.5 Pro和字節跳動的Seed-1.8等業界頂尖系統。

---

一、為什麼"找一個"和"找所有"是完全不同的難題

以一道菜的烹飪教學影片為例來理解這個問題。假設這個影片裡，廚師前後三次把食材放進鍋里翻炒，你想找出所有翻炒的時刻。現有的大多數AI影片工具，就像一個只會背課文第一段的學生——它能告訴你"翻炒從第15秒開始、到第28秒結束"，但完全忽略了第二次在第45秒、第三次在第72秒的翻炒動作。

這不是偶然的疏忽，而是根本的設計缺陷。過去絕大多數的影片AI都是按照"一個問題對應一個答案"的邏輯設計的，好比考試只會出單選題，從沒想過要出多選題。研究團隊在測試中發現，Qwen2.5-VL等主流開源模型在這個任務上的得分幾乎為零——它們面對多段答案的問題，完全不知道該怎麼辦。

贊助商廣告

更棘手的是，就連評測這件事本身也不簡單。過去評價影片AI找時間段是否準確，常用一個叫"時間交並比"（tIoU，你可以理解為"重疊率"）的指標：預測的時間段和正確答案重疊越多，分數越高。但這個指標在"找所有段"的任務下會產生嚴重的誤判。

研究團隊用兩個生動的反例來說明這一點。第一個反例：正確答案是影片裡有四段"男人對著攝影機說話"，分別在第3-32秒、第33-55秒、第56-64秒和第65-86秒。但某個AI把這四段合併成了一段，直接輸出"第1-86秒"。按重疊率算，這個答案的得分高達0.94分（滿分1分），看起來相當準確——但實際上AI完全沒有理解這裡有四次獨立的說話行為，它的回答從根本上就是錯的。第二個反例是相反的情況：正確答案只有兩段，AI卻輸出了四段，"憑空"多找了兩段不存在的內容——這叫做"幻覺"（hallucination）。這種多找的答案重疊率也可以高達0.9，但同樣是完全錯誤的回答。

由此可見，需要一套全新的評測標準。

---

二、全新的評測尺子：不只看重疊，還要數清楚有幾段

研究團隊設計了三把新尺子來衡量AI在這個任務上的表現，每把尺子從不同角度評分，合在一起才能給出公正的評價。

第一把尺子叫"時間F1分數"（tF1），它借鑑了資訊檢索領域裡經典的"精確率-召回率"平衡概念。精確率衡量的是"AI找出來的東西有多少是對的"，召回率衡量的是"正確答案里有多少被AI找到了"，而F1就是這兩者的綜合平均。打個比方：一個獵人去森林裡找松鼠，如果他抓了10隻，其中8隻是松鼠，精確率就是80%；如果森林裡總共有20隻松鼠，他找到了其中8隻，召回率就是40%；F1就是把這兩個數字綜合起來得到的53%左右。這個指標能同時懲罰"多找了假段"和"漏掉了真段"兩種錯誤。

第二把尺子叫"計數準確率"（C-Acc），顧名思義，就是直接檢查AI預測的段數是否和正確答案的段數完全一致。正確答案是4段，AI也說4段，就得1分；說3段或5段，就得0分。這個指標專門考察AI有沒有"數數的能力"，也就是能不能感知到一個事件究竟在影片裡出現了幾次。

贊助商廣告

第三把尺子是最嚴格的，叫"有效時間F1分數"（EtF1），它是把前兩把尺子疊加在一起：只有當AI預測的段數和正確答案完全一樣時，才開始計算F1分數；只要數量錯了，這道題直接得0分。這就好比一道數學大題，解題過程正確但最終答案寫錯了數字——就算過程再精彩也不能給滿分。這是整個評測體系里最核心的指標，因為它同時要求AI既要數對，又要找准。

有了這三把尺子，研究團隊還建立了一個包含340道手工標註題目的評測基準庫，題目來源涵蓋體育、烹飪、新聞等多個領域，影片時長從21秒到17分鐘不等，難度分布也很有挑戰性——其中15%的題目正確答案超過6段，專門用來考驗AI的計數極限。

---

三、從哪裡找來五萬六千道練習題

有了評測標準，下一步就是給AI找足夠多、足夠好的練習材料。研究團隊設計了一條五個步驟的自動化數據生產流水線，整個過程像一條精密的工廠生產線，每個環節都有嚴格的質檢程序。

流水線的第一步是"找出哪些事情反覆出現"。團隊用一個叫做Qwen3-VL-235B的強力AI模型逐個掃描原始影片，讓它自動發現影片裡反覆出現的有趣事件，並為每個事件生成一個文字描述。比如，它可能在一段駕駛影片裡發現"戴墨鏡的男人在開車"這件事反覆出現了三次。

第二步是"給每件事標出時間"。用上一步生成的文字描述作為查詢，讓谷歌的Gemini 2.5 Pro來做初步的時間定位，讓它把每個事件在影片裡所有出現的時刻都標註出來，得到初步的時間標籤。

第三步是最關鍵的質檢環節，叫做"嚴格視覺核查"。團隊把第二步標註的每一段影片片段都單獨剪出來，再交給Qwen3-VL-235B去核查——它需要獨立判斷這段影片是否真的符合對應的文字描述。這裡有一個非常嚴格的"一票否決"規則：只要一個樣本里的任何一段影片片段沒有通過核查，整個樣本就會被直接丟棄，哪怕其他段都完全正確也不行。研究團隊通過數學推導證明，這個機制對於包含多段影片的樣本質量提升效果是指數級的——對於包含四段的樣本，質量提升幅度約是包含兩段樣本的七倍。

贊助商廣告

第四步是"補漏洞和打磨描述"。經過第三步篩選存活下來的樣本，還需要進行進一步的精煉。團隊再次用Gemini 2.5 Pro來做兩件事：一是檢查有沒有遺漏某些實際發生但沒被標註到的片段（補漏），二是把文字描述改得更精準、更無歧義（打磨描述）。

第五步是"生成密集的畫面旁白"。最後，用Qwen3-VL-235B為每段影片生成極為詳細的逐秒描述，就像體育解說員在逐幀解說一場比賽。這些詳細的畫面旁白將在後續的訓練過程中起到輔助推理的作用——它們能幫助AI在腦子裡先"寫下"看到了什麼，再從這些描述中推斷出目標事件的時間範圍。

這條流水線最終產出了56,000個高質量的訓練樣本，其中46,000個用於第一階段的"有監督微調"訓練，剩下10,000個用於第二階段的"強化學習"訓練。

---

四、兩階段訓練：先打基礎，再用獎懲雕琢

得到了訓練數據之後，研究團隊採用了一種"先教後練"的兩階段訓練策略。

第一階段叫"有監督微調"（SFT），可以理解為給AI上標準課程。研究團隊把所有的訓練樣本餵給AI，讓它學習正確答案是什麼樣的。在這個階段，AI學會了一種特殊的思考方式：在給出最終時間答案之前，先生成一段詳細的畫面旁白，描述影片裡每個時間段發生了什麼，再從這段文字描述中推斷出目標事件的時間段。這就像偵探在下結論之前，先把現場所有的線索逐一記錄下來，然後再從記錄中推斷嫌疑人。

經過第一階段訓練，基礎模型的EtF1分數從0.21分飆升到34.81分，說明SFT已經讓AI具備了基本的"一對多"定位能力。但研究團隊發現，單靠有監督訓練，AI在精確度和召回率的平衡上仍然不夠穩定——有時候找不全，有時候又找多了。

第二階段叫"強化學習"（RL），可以理解為給AI布置實戰練習並根據成績評分。在這個階段，AI不再只是跟著答案死記硬背，而是通過不斷嘗試、接受評分、調整策略來提升自己。研究團隊設計了一套組合獎勵函數，相當於給AI設立了多個考核維度。

贊助商廣告

這套組合獎勵由四個部分構成。第一部分是"時間重疊獎勵"，直接獎勵AI找到的時間段和正確答案的重疊程度，鼓勵AI把時間邊界定得更准。第二部分是"計數準確獎勵"，只有當AI預測的段數和正確答案完全一致時才給滿分，哪怕只差一段也不得分，這個機制專門逼迫AI學會準確感知事件出現的次數。這兩部分合在一起組成"時間獎勵"，在實驗中發現，單有第一部分幾乎不能提升計數能力，但加入第二部分後，計數準確率大幅提升。

第三部分是最有創意的"字幕獎勵"。研究團隊引入了另一個AI（Qwen3-30B-A3B）作為評判官，專門評價AI在推理過程中生成的畫面旁白質量。這位評判官會從三個角度評分：一是"覆蓋度"，檢查旁白里有沒有提到正確答案中所有的事件；二是"精確度"，檢查旁白的時間邊界有沒有對準正確答案；三是"區分度"，檢查每段旁白是否包含足夠獨特的資訊來幫助區分不同的事件發生。除此之外，評判官還會做一件特別有趣的事：只看AI寫的旁白文字（不看影片），然後嘗試從這段文字中推斷出目標事件的時間段，如果能推斷出來，就說明這段旁白確實包含了足夠豐富的時間資訊。這個機制確保了AI的"推理過程"不是在走過場，而是真正在幫助解決問題。

第四部分是"長度懲罰"，專門懲罰AI寫出過於冗長的答案——如果旁白太長，就會從總分里扣分，這樣可以防止AI用廢話填充來干擾核心的時間定位。

經過強化學習階段，EtF1分數從34.81進一步提升到43.65，計數準確率也從44.06%跳升至55.63%。

---

五、成績單：碾壓頂級商業AI的小模型

最終的成績讓人印象深刻。研究團隊訓練出的模型被命名為OMTG-4B（參數量約40億），在評測基準上的EtF1得分為43.65%。

相比之下，谷歌的Gemini 2.5 Pro得分27.80%，谷歌更新的Gemini 3 Pro得分21.30%，字節跳動的Seed-1.8得分28.04%。OMTG-4B在這個任務上的得分比這些動輒千億參數的頂級商業AI高出了15個百分點以上。

贊助商廣告

那些連基礎OMTG能力都沒有的開源模型情況更糟：Qwen2.5-VL系列不論3B還是72B參數的版本，計數準確率都是0%，EtF1得分也都是0分。即便是更新版本的Qwen3-VL系列，最大的235B參數版本計數準確率也只有0.31%，EtF1接近零。

研究團隊還專門驗證了一件事：針對"找多段"任務的專項訓練，會不會讓AI在傳統的"找一段"任務上退步？結果令人驚喜——不僅沒有退步，在Charades、ActivityNet、QVHighlights三個經典單段定位基準上，OMTG-4B的表現都超過了基礎模型，其中強化學習階段的提升尤為明顯。這說明學會"把所有出現都找出來"，反而讓AI對每個單獨事件的理解也更深刻。

為了進一步驗證泛化能力，團隊還從B站和YouTube收集了60段完全沒有被訓練過的真實影片，平均時長超過七分鐘。OMTG-4B在這些影片上的EtF1得分為22.10%，而Gemini 2.5 Pro和Gemini 3 Pro分別只有4.81%和3.29%。面對從未見過的真實世界影片，差距依然顯著。

---

六、這套方法的邊界在哪裡

當然，這項研究並非無懈可擊。研究團隊自己也坦承，訓練成本較高，在處理極長影片時面臨擴展性挑戰。他們在附錄中還展示了一個典型的失敗案例：在一段廚房影片裡，正確答案是找出"人移動冰箱門"這個動作在9-12秒和22-24秒各發生一次，共兩段。但OMTG-4B的推理過程雖然正確識別出了兩次不同的冰箱門動作，最終卻只輸出了一段答案（22-24秒），好像在"想清楚了"之後又在最後一步犯了錯。這類"思考對了、嘴上說錯了"的問題，反映出AI在將推理結果轉化為最終輸出時仍然存在不穩定性。Gemini系列則表現出另一種失敗模式：把開冰箱、拿東西、關冰箱這整個過程當成一件連續的事，輸出了一個從第6秒到第24秒的長段，完全沒有意識到"打開門"和"關上門"是兩個獨立的"移動冰箱門"動作。

研究團隊也指出，未來需要解決的問題之一是如何在超長影片中有效處理這個任務——當影片時長達到一兩個小時時，如何讓AI既不遺漏任何一次事件出現，又不憑空產生幻覺，依然是一個開放的挑戰。

贊助商廣告

---

歸根結底，這項研究做的事情，是把一個看似簡單卻被長期忽視的問題——在影片裡找出某件事的所有出現時刻——認真地當成一個獨立的研究課題來對待，並提供了一整套完整的解決方案：從評測標準到訓練數據，再到訓練方法，形成了閉環。對於普通用戶來說，這意味著未來的影片搜索工具或許真的能夠回答"幫我找出這部球賽里所有的進球時刻"或"把這段教學影片裡所有老師示範操作的片段剪出來"這樣的需求，而不是只給你一個片段、讓你自己再去慢慢翻。這方向是對的，距離真正好用的產品還需要時間，但邁出這一步本身，已經不容易。

有興趣深入研究技術細節的讀者，可以通過論文編號arXiv:2606.06294查閱完整原文。

---

Q&A

Q1：一對多時間定位（OMTG）和普通的影片時間定位有什麼區別？

A：普通的影片時間定位是"一個問題找一個答案"，比如找出影片裡"某人第一次出現的時段"。一對多時間定位則要求找出"所有符合條件的時段"，比如找出影片裡某人出現的每一次時段，不能遺漏任何一次。這個區別看似簡單，但對AI來說是完全不同的能力挑戰，因為AI不僅要找准每段的時間邊界，還要準確感知到目標事件一共出現了幾次。

Q2：為什麼用重疊率（tIoU）評價一對多時間定位會產生誤判？

A：重疊率只關心預測時間段和正確時間段的重疊面積，不關心段的數量是否正確。如果正確答案是4段，AI把它們合併成1段，重疊率可能高達0.9以上，看起來很準確，但實際上AI完全沒有理解事件的分段結構。反過來，AI多預測了幾段不存在的內容，重疊率也可能虛高。因此EtF1這個新指標專門要求AI預測的段數必須和正確答案完全一致，否則直接零分，才能真正衡量AI是否真正理解了影片內容。

Q3：OMTG模型的字幕獎勵機制是怎麼工作的？

A：字幕獎勵的核心思路是用另一個AI來評判"推理過程的質量"。被訓練的AI在給出時間答案之前，需要先生成一段詳細描述影片內容的文字。評判AI會檢查這段文字是否覆蓋了所有正確答案、時間邊界是否精準、不同事件是否被清晰區分，以及最關鍵的一點：僅憑這段文字（不看影片），能否推斷出正確的時間範圍。這樣可以確保AI的推理過程是真正有效的，而不是在走形式。

贊助商廣告