宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

武漢大學、北京大學、南洋理工大學等高校聯合研究:AI終於學會了「把整場戲都找出來」

2026年06月11日 首頁 » 熱門科技

這項由武漢大學、北京大學、南洋理工大學和新加坡國立大學聯合開展的研究,以預印本形式於2026年6月4日發布,論文編號為arXiv:2606.06294,有興趣深入了解的讀者可通過該編號查詢完整論文。

你有沒有遇到過這樣的情況:想在一段長影片裡找到某個人"所有摔倒的片段",或者想把一部紀錄片裡"所有出現鳥類飛翔的瞬間"剪輯在一起?如果你曾經試過讓現有的AI工具幫你做這件事,多半會失望而歸——它只能找出"第一個"或者"某一個",而不是"所有的"。這個看似簡單的需求,其實一直是影片AI領域裡一塊難啃的骨頭。

這項研究正是為了解決這個問題而生。研究團隊把這個任務命名為"一對多時間定位"(One-to-Many Temporal Grounding,簡稱OMTG)——就是說,給AI一段影片和一個文字描述,讓它把影片裡所有符合這個描述的時間段都找出來,而不僅僅是找一個。

為了把這件事做好,研究團隊一共做了三件大事:建立了第一個專門測試這個能力的評測基準,製作了一個包含五萬六千個樣本的訓練數據集,並且設計了一套全新的訓練方法,最終讓他們的模型在這個任務上遠遠超越了谷歌的Gemini 2.5 Pro和字節跳動的Seed-1.8等業界頂尖系統。

---

一、為什麼"找一個"和"找所有"是完全不同的難題

以一道菜的烹飪教學影片為例來理解這個問題。假設這個影片裡,廚師前後三次把食材放進鍋里翻炒,你想找出所有翻炒的時刻。現有的大多數AI影片工具,就像一個只會背課文第一段的學生——它能告訴你"翻炒從第15秒開始、到第28秒結束",但完全忽略了第二次在第45秒、第三次在第72秒的翻炒動作。

這不是偶然的疏忽,而是根本的設計缺陷。過去絕大多數的影片AI都是按照"一個問題對應一個答案"的邏輯設計的,好比考試只會出單選題,從沒想過要出多選題。研究團隊在測試中發現,Qwen2.5-VL等主流開源模型在這個任務上的得分幾乎為零——它們面對多段答案的問題,完全不知道該怎麼辦。

更棘手的是,就連評測這件事本身也不簡單。過去評價影片AI找時間段是否準確,常用一個叫"時間交並比"(tIoU,你可以理解為"重疊率")的指標:預測的時間段和正確答案重疊越多,分數越高。但這個指標在"找所有段"的任務下會產生嚴重的誤判。

研究團隊用兩個生動的反例來說明這一點。第一個反例:正確答案是影片裡有四段"男人對著攝影機說話",分別在第3-32秒、第33-55秒、第56-64秒和第65-86秒。但某個AI把這四段合併成了一段,直接輸出"第1-86秒"。按重疊率算,這個答案的得分高達0.94分(滿分1分),看起來相當準確——但實際上AI完全沒有理解這裡有四次獨立的說話行為,它的回答從根本上就是錯的。第二個反例是相反的情況:正確答案只有兩段,AI卻輸出了四段,"憑空"多找了兩段不存在的內容——這叫做"幻覺"(hallucination)。這種多找的答案重疊率也可以高達0.9,但同樣是完全錯誤的回答。

由此可見,需要一套全新的評測標準。

---

二、全新的評測尺子:不只看重疊,還要數清楚有幾段

研究團隊設計了三把新尺子來衡量AI在這個任務上的表現,每把尺子從不同角度評分,合在一起才能給出公正的評價。

第一把尺子叫"時間F1分數"(tF1),它借鑑了資訊檢索領域裡經典的"精確率-召回率"平衡概念。精確率衡量的是"AI找出來的東西有多少是對的",召回率衡量的是"正確答案里有多少被AI找到了",而F1就是這兩者的綜合平均。打個比方:一個獵人去森林裡找松鼠,如果他抓了10隻,其中8隻是松鼠,精確率就是80%;如果森林裡總共有20隻松鼠,他找到了其中8隻,召回率就是40%;F1就是把這兩個數字綜合起來得到的53%左右。這個指標能同時懲罰"多找了假段"和"漏掉了真段"兩種錯誤。

第二把尺子叫"計數準確率"(C-Acc),顧名思義,就是直接檢查AI預測的段數是否和正確答案的段數完全一致。正確答案是4段,AI也說4段,就得1分;說3段或5段,就得0分。這個指標專門考察AI有沒有"數數的能力",也就是能不能感知到一個事件究竟在影片裡出現了幾次。

第三把尺子是最嚴格的,叫"有效時間F1分數"(EtF1),它是把前兩把尺子疊加在一起:只有當AI預測的段數和正確答案完全一樣時,才開始計算F1分數;只要數量錯了,這道題直接得0分。這就好比一道數學大題,解題過程正確但最終答案寫錯了數字——就算過程再精彩也不能給滿分。這是整個評測體系里最核心的指標,因為它同時要求AI既要數對,又要找准。

有了這三把尺子,研究團隊還建立了一個包含340道手工標註題目的評測基準庫,題目來源涵蓋體育、烹飪、新聞等多個領域,影片時長從21秒到17分鐘不等,難度分布也很有挑戰性——其中15%的題目正確答案超過6段,專門用來考驗AI的計數極限。

---

三、從哪裡找來五萬六千道練習題

有了評測標準,下一步就是給AI找足夠多、足夠好的練習材料。研究團隊設計了一條五個步驟的自動化數據生產流水線,整個過程像一條精密的工廠生產線,每個環節都有嚴格的質檢程序。

流水線的第一步是"找出哪些事情反覆出現"。團隊用一個叫做Qwen3-VL-235B的強力AI模型逐個掃描原始影片,讓它自動發現影片裡反覆出現的有趣事件,並為每個事件生成一個文字描述。比如,它可能在一段駕駛影片裡發現"戴墨鏡的男人在開車"這件事反覆出現了三次。

第二步是"給每件事標出時間"。用上一步生成的文字描述作為查詢,讓谷歌的Gemini 2.5 Pro來做初步的時間定位,讓它把每個事件在影片裡所有出現的時刻都標註出來,得到初步的時間標籤。

第三步是最關鍵的質檢環節,叫做"嚴格視覺核查"。團隊把第二步標註的每一段影片片段都單獨剪出來,再交給Qwen3-VL-235B去核查——它需要獨立判斷這段影片是否真的符合對應的文字描述。這裡有一個非常嚴格的"一票否決"規則:只要一個樣本里的任何一段影片片段沒有通過核查,整個樣本就會被直接丟棄,哪怕其他段都完全正確也不行。研究團隊通過數學推導證明,這個機制對於包含多段影片的樣本質量提升效果是指數級的——對於包含四段的樣本,質量提升幅度約是包含兩段樣本的七倍。

第四步是"補漏洞和打磨描述"。經過第三步篩選存活下來的樣本,還需要進行進一步的精煉。團隊再次用Gemini 2.5 Pro來做兩件事:一是檢查有沒有遺漏某些實際發生但沒被標註到的片段(補漏),二是把文字描述改得更精準、更無歧義(打磨描述)。

第五步是"生成密集的畫面旁白"。最後,用Qwen3-VL-235B為每段影片生成極為詳細的逐秒描述,就像體育解說員在逐幀解說一場比賽。這些詳細的畫面旁白將在後續的訓練過程中起到輔助推理的作用——它們能幫助AI在腦子裡先"寫下"看到了什麼,再從這些描述中推斷出目標事件的時間範圍。

這條流水線最終產出了56,000個高質量的訓練樣本,其中46,000個用於第一階段的"有監督微調"訓練,剩下10,000個用於第二階段的"強化學習"訓練。

---

四、兩階段訓練:先打基礎,再用獎懲雕琢

得到了訓練數據之後,研究團隊採用了一種"先教後練"的兩階段訓練策略。

第一階段叫"有監督微調"(SFT),可以理解為給AI上標準課程。研究團隊把所有的訓練樣本餵給AI,讓它學習正確答案是什麼樣的。在這個階段,AI學會了一種特殊的思考方式:在給出最終時間答案之前,先生成一段詳細的畫面旁白,描述影片裡每個時間段發生了什麼,再從這段文字描述中推斷出目標事件的時間段。這就像偵探在下結論之前,先把現場所有的線索逐一記錄下來,然後再從記錄中推斷嫌疑人。

經過第一階段訓練,基礎模型的EtF1分數從0.21分飆升到34.81分,說明SFT已經讓AI具備了基本的"一對多"定位能力。但研究團隊發現,單靠有監督訓練,AI在精確度和召回率的平衡上仍然不夠穩定——有時候找不全,有時候又找多了。

第二階段叫"強化學習"(RL),可以理解為給AI布置實戰練習並根據成績評分。在這個階段,AI不再只是跟著答案死記硬背,而是通過不斷嘗試、接受評分、調整策略來提升自己。研究團隊設計了一套組合獎勵函數,相當於給AI設立了多個考核維度。

這套組合獎勵由四個部分構成。第一部分是"時間重疊獎勵",直接獎勵AI找到的時間段和正確答案的重疊程度,鼓勵AI把時間邊界定得更准。第二部分是"計數準確獎勵",只有當AI預測的段數和正確答案完全一致時才給滿分,哪怕只差一段也不得分,這個機制專門逼迫AI學會準確感知事件出現的次數。這兩部分合在一起組成"時間獎勵",在實驗中發現,單有第一部分幾乎不能提升計數能力,但加入第二部分後,計數準確率大幅提升。

第三部分是最有創意的"字幕獎勵"。研究團隊引入了另一個AI(Qwen3-30B-A3B)作為評判官,專門評價AI在推理過程中生成的畫面旁白質量。這位評判官會從三個角度評分:一是"覆蓋度",檢查旁白里有沒有提到正確答案中所有的事件;二是"精確度",檢查旁白的時間邊界有沒有對準正確答案;三是"區分度",檢查每段旁白是否包含足夠獨特的資訊來幫助區分不同的事件發生。除此之外,評判官還會做一件特別有趣的事:只看AI寫的旁白文字(不看影片),然後嘗試從這段文字中推斷出目標事件的時間段,如果能推斷出來,就說明這段旁白確實包含了足夠豐富的時間資訊。這個機制確保了AI的"推理過程"不是在走過場,而是真正在幫助解決問題。

第四部分是"長度懲罰",專門懲罰AI寫出過於冗長的答案——如果旁白太長,就會從總分里扣分,這樣可以防止AI用廢話填充來干擾核心的時間定位。

經過強化學習階段,EtF1分數從34.81進一步提升到43.65,計數準確率也從44.06%跳升至55.63%。

---

五、成績單:碾壓頂級商業AI的小模型

最終的成績讓人印象深刻。研究團隊訓練出的模型被命名為OMTG-4B(參數量約40億),在評測基準上的EtF1得分為43.65%。

相比之下,谷歌的Gemini 2.5 Pro得分27.80%,谷歌更新的Gemini 3 Pro得分21.30%,字節跳動的Seed-1.8得分28.04%。OMTG-4B在這個任務上的得分比這些動輒千億參數的頂級商業AI高出了15個百分點以上。

那些連基礎OMTG能力都沒有的開源模型情況更糟:Qwen2.5-VL系列不論3B還是72B參數的版本,計數準確率都是0%,EtF1得分也都是0分。即便是更新版本的Qwen3-VL系列,最大的235B參數版本計數準確率也只有0.31%,EtF1接近零。

研究團隊還專門驗證了一件事:針對"找多段"任務的專項訓練,會不會讓AI在傳統的"找一段"任務上退步?結果令人驚喜——不僅沒有退步,在Charades、ActivityNet、QVHighlights三個經典單段定位基準上,OMTG-4B的表現都超過了基礎模型,其中強化學習階段的提升尤為明顯。這說明學會"把所有出現都找出來",反而讓AI對每個單獨事件的理解也更深刻。

為了進一步驗證泛化能力,團隊還從B站和YouTube收集了60段完全沒有被訓練過的真實影片,平均時長超過七分鐘。OMTG-4B在這些影片上的EtF1得分為22.10%,而Gemini 2.5 Pro和Gemini 3 Pro分別只有4.81%和3.29%。面對從未見過的真實世界影片,差距依然顯著。

---

六、這套方法的邊界在哪裡

當然,這項研究並非無懈可擊。研究團隊自己也坦承,訓練成本較高,在處理極長影片時面臨擴展性挑戰。他們在附錄中還展示了一個典型的失敗案例:在一段廚房影片裡,正確答案是找出"人移動冰箱門"這個動作在9-12秒和22-24秒各發生一次,共兩段。但OMTG-4B的推理過程雖然正確識別出了兩次不同的冰箱門動作,最終卻只輸出了一段答案(22-24秒),好像在"想清楚了"之後又在最後一步犯了錯。這類"思考對了、嘴上說錯了"的問題,反映出AI在將推理結果轉化為最終輸出時仍然存在不穩定性。Gemini系列則表現出另一種失敗模式:把開冰箱、拿東西、關冰箱這整個過程當成一件連續的事,輸出了一個從第6秒到第24秒的長段,完全沒有意識到"打開門"和"關上門"是兩個獨立的"移動冰箱門"動作。

研究團隊也指出,未來需要解決的問題之一是如何在超長影片中有效處理這個任務——當影片時長達到一兩個小時時,如何讓AI既不遺漏任何一次事件出現,又不憑空產生幻覺,依然是一個開放的挑戰。

---

歸根結底,這項研究做的事情,是把一個看似簡單卻被長期忽視的問題——在影片裡找出某件事的所有出現時刻——認真地當成一個獨立的研究課題來對待,並提供了一整套完整的解決方案:從評測標準到訓練數據,再到訓練方法,形成了閉環。對於普通用戶來說,這意味著未來的影片搜索工具或許真的能夠回答"幫我找出這部球賽里所有的進球時刻"或"把這段教學影片裡所有老師示範操作的片段剪出來"這樣的需求,而不是只給你一個片段、讓你自己再去慢慢翻。這方向是對的,距離真正好用的產品還需要時間,但邁出這一步本身,已經不容易。

有興趣深入研究技術細節的讀者,可以通過論文編號arXiv:2606.06294查閱完整原文。

---

Q&A

Q1:一對多時間定位(OMTG)和普通的影片時間定位有什麼區別?

A:普通的影片時間定位是"一個問題找一個答案",比如找出影片裡"某人第一次出現的時段"。一對多時間定位則要求找出"所有符合條件的時段",比如找出影片裡某人出現的每一次時段,不能遺漏任何一次。這個區別看似簡單,但對AI來說是完全不同的能力挑戰,因為AI不僅要找准每段的時間邊界,還要準確感知到目標事件一共出現了幾次。

Q2:為什麼用重疊率(tIoU)評價一對多時間定位會產生誤判?

A:重疊率只關心預測時間段和正確時間段的重疊面積,不關心段的數量是否正確。如果正確答案是4段,AI把它們合併成1段,重疊率可能高達0.9以上,看起來很準確,但實際上AI完全沒有理解事件的分段結構。反過來,AI多預測了幾段不存在的內容,重疊率也可能虛高。因此EtF1這個新指標專門要求AI預測的段數必須和正確答案完全一致,否則直接零分,才能真正衡量AI是否真正理解了影片內容。

Q3:OMTG模型的字幕獎勵機制是怎麼工作的?

A:字幕獎勵的核心思路是用另一個AI來評判"推理過程的質量"。被訓練的AI在給出時間答案之前,需要先生成一段詳細描述影片內容的文字。評判AI會檢查這段文字是否覆蓋了所有正確答案、時間邊界是否精準、不同事件是否被清晰區分,以及最關鍵的一點:僅憑這段文字(不看影片),能否推斷出正確的時間範圍。這樣可以確保AI的推理過程是真正有效的,而不是在走形式。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新