螞蟻集團與浙江大學聯手破解「超長影片理解」難題：讓AI像人一樣先「記」後「想」

這項由螞蟻集團、浙江大學、中南大學及香港科技大學（廣州）聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.07512，感興趣的讀者可通過該編號在arXiv平台上查閱完整原文。

贊助商廣告

**研究概要：當AI面對兩小時的電影，它會迷失**

假設你要看一部兩小時的電影，然後回答一道細節題："女主角第一次見到反派時，背景音樂是什麼風格？"你會怎麼做？你肯定不會把這兩個小時的畫面全部一秒一秒地硬塞進腦子裡，而是會先建立一個大致的情節脈絡，記住重要場景，然後根據問題去翻找那段記憶。

現在的AI視覺語言模型（簡單理解為"能看影片、能回答問題的AI"）面對超長影片時，偏偏採用了最笨的那種方式——把所有畫面全部塞進去處理。對於一部兩小時的720P影片，按每秒一幀來算，會產生超過162萬個"視覺詞"（學術上叫"token"）。這個數字遠遠超出了當前AI能處理的範圍，就像要求一個人一次性背下162萬個單詞，根本記不住，而且越到後面越亂。

正是為了解決這個問題，研究團隊提出了一套名為MEMDREAMER（可以理解為"記憶夢想家"）的全新方法。這套方法的核心思路出奇地樸素：把"感知"和"思考"分開來做，先讓AI把影片內容整理成一本結構清晰的"記憶筆記本"，再讓另一個AI根據問題去翻這本筆記本找答案。這篇研究在四個主流超長影片理解評測基準上刷新了最好成績，與人類專家水平的差距縮小到了僅3.7分，同時只需要原來2%的處理窗口，就能實現更好的效果。

---

一、問題根源：把162萬個詞硬塞進AI大腦，會發生什麼？

要理解這項研究的價值，得先弄清楚現有AI系統在處理超長影片時究竟卡在哪裡。

目前主流的做法，被研究團隊稱為"端到端耦合"模式。簡單說，就是把影片的所有畫面都轉化為AI能理解的數字信號（也就是"token"），然後全部一股腦地扔給AI，讓它同時處理視覺感知和邏輯推理兩件事。這就像讓一個人同時接收無數條資訊，還要求他立刻對每一條資訊都做出判斷。

贊助商廣告

這種方式帶來了兩個致命問題。第一個是"詞語爆炸"：哪怕是Gemini-2.5-Pro這樣目前最頂級的AI，處理一部普通的超長影片也需要塞進去78萬個詞，這已經逼近了它的極限。第二個問題更隱蔽，叫做"注意力稀釋"——當一個人需要同時關注太多東西的時候，他對每一件事的關注度都會下降，最終關鍵資訊會淹沒在海量噪音中。學術界把這個現象形象地稱為"迷失在中間"，意思是AI會記住開頭和結尾，但中間大量重要內容會被遺忘或忽視。

研究數據非常直觀地說明了這個問題。以最常用的超長影片評測集LVBench為例，Gemini-3.1-Pro在端到端模式下需要處理26.5萬個詞，得分78.2；Gemini-2.5-Pro需要處理78.4萬個詞，得分反而只有72.0；Qwen3-VL需要處理24萬個詞，得分更低，只有63.6。詞越多，表現越差，這個規律在這裡體現得相當明顯。

---

二、核心思路：先建"記憶宮殿"，再派"偵探"查案

MEMDREAMER的解決方案，可以用一個偵探破案的比喻來理解，而且這個比喻會貫穿整個方法的始終。

一個優秀的偵探在接到一個複雜案件時，不會把案件現場的每一張照片、每一份筆錄同時鋪在桌上，然後企圖一眼掃清所有細節。他會先系統地整理案件檔案，建立一個從宏觀到微觀的案件知識庫：先有總體案情概述，再有按時間線整理的重要事件，最後才是每個事件的具體細節和人物關係。等到需要回答某個具體問題時，他才會有針對性地翻出相關檔案，順著線索抽絲剝繭。

MEMDREAMER的工作方式與此如出一轍。整個系統分為兩個完全分離的階段：第一階段，一個專門負責"看影片"的AI（感知模型）把整部影片從頭到尾看一遍，把看到的內容整理成一本結構化的文字筆記，這本筆記就是所謂的"層級圖譜記憶"；第二階段，一個專門負責"推理"的AI（推理模型）完全不接觸原始影片，只拿著這本文字筆記，根據問題去主動查找線索，最終給出答案。

贊助商廣告

這個分離的設計帶來了一個在研究人員看來非常重要的副產品：推理模型的能力強弱，直接決定了最終答案的質量。研究團隊發現，在端到端模式下，AI自身的邏輯推理能力和它在超長影片上的表現幾乎沒什麼關係（統計學上的相關係數只有0.70，且不夠顯著）；但換成MEMDREAMER，兩者之間呈現出極強的正相關（相關係數高達0.897，統計顯著）。換句話說，通過這套方法，AI的"腦力"終於真正用在了刀刃上。

---

三、記憶宮殿的建造：從"總綱"到"細節圖"的三層檔案系統

現在來詳細看一看這本"偵探案件檔案"是怎麼建立的。

建立檔案的過程分三步完成，感知模型像是一位專業的檔案員，按照嚴格的體系將影片內容逐層整理。

第一步叫"流式自適應切割"。感知模型不是把影片每隔固定30秒切一刀，而是根據內容的語義邊界來劃分。就像寫書的時候，章節的劃分不是按字數來的，而是按內容的自然段落來的。系統使用一個最長10分鐘的滑動窗口，在每個窗口內找出內容完整的"宏觀事件"（類比檔案里的一個個獨立案例），然後從最後一個完整事件的結束時間點開始，滑到下一個窗口。這樣做有兩個好處：每個宏觀事件都是語義完整的，不會被隨意截斷；同時每次處理的影片長度不超過10分鐘，保證感知模型不會被過長的內容壓垮。

第二步叫"向下子圖提取"，負責把每個宏觀事件的內部細節記錄清楚。對於切割好的每一段影片，感知模型會構建一張局部關係圖，也就是檔案里的那些詳細案卷。這張圖里有兩種節點：一種是"實體節點"，記錄人物（比如女主角、反派）、物體（比如一把匕首）、地點（比如咖啡館）、群體等；另一種是"微觀事件節點"，記錄具體發生了什麼動作（比如"女主角將匕首放入包中"）。這兩種節點之間通過三類邊連接起來：描述空間位置關係的"空間-屬性邊"（比如"匕首位於包的內部"）、描述誰做了什麼的"主體-客體邊"（比如"女主角執行了放入動作"）、以及描述事件前後因果關係的"時序-因果邊"（比如"發現追蹤——導致——匕首藏入包"）。這套精細的圖譜結構能捕捉到光靠文字描述很難表達的複雜因果鏈條。

贊助商廣告

第三步叫"向上層級聚合"，負責把所有宏觀事件整合成一本有層次的總檔案。感知模型把所有宏觀事件的文字描述作為基礎節點，按照時間相鄰性和語義相似性，把相關聯的宏觀事件合併成"超級事件"（類比檔案里的"案件階段"，比如"嫌疑人跟蹤階段"、"證據收集階段"）。所有超級事件再向上匯聚成最頂層的一個"影片根節點"，包含整個影片的全局概述、主題標籤和關鍵實體。

以電影《動物方城市》為例，最頂層的影片根節點會寫：兔子警官朱迪與狐狸尼克合作調查掠食者失蹤案，追查到助理市長綿羊主謀的陰謀，最終在博物館揭穿真相。往下一層是超級事件，比如"抄表員任務與狐狸騙局"（時間範圍16:47-26:30）。再往下是宏觀事件，比如"遭遇棒冰騙局"（時間範圍17:39-23:43）。最底層是對應的子圖，詳細記錄尼克如何欺騙大象冰淇淋店、用買來的冰棍騙取材料、再把材料賣給小狐狸芬尼克的整個因果鏈條。

---

四、偵探查案：用"工具箱"主動探索記憶宮殿

建好檔案只是第一步，更關鍵的是推理模型如何用好這套檔案。

傳統的做法是"語義相似度檢索"——相當於讓偵探直接搜索"和案件關鍵詞相似的文件"。但這種方法有個根本缺陷：視覺上相似的片段，不一定在邏輯上和問題有關；而且一次檢索往往找不到全部答案，需要根據第一步的結果調整策略，繼續深挖。

MEMDREAMER為推理模型準備了一套專業的"偵探工具箱"，包含七件工具，分屬三個類別。

第一類是"導航工具"，用於在檔案的層級結構中上下穿梭。具體包括：獲取影片總概述（相當於看案件摘要）、列出所有超級事件（相當於看案件階段目錄）、獲取某個超級事件下的宏觀事件（相當於展開某個階段的詳細目錄）、獲取某個宏觀事件的子圖（相當於打開某個具體事件的詳細案卷）。

第二類是"精確搜索工具"，包括語義搜索（輸入一段描述性文字，系統找出語義最相近的節點）和時間搜索（輸入一個時間段，系統返回該時間段內的宏觀事件）。

贊助商廣告

第三類是"圖譜遍歷工具"，可以獲取任意節點的所有關聯邊，沿著因果鏈條進行多步跳轉。這相當於偵探順著"A導致了B，B又使得C發生"的邏輯鏈條，一步步追蹤到最終答案。

推理模型使用這套工具箱的方式，是一個反覆循環的"觀察-推理-行動"過程。每一輪，推理模型先看一眼目前已知的資訊，思考還缺什麼，然後選擇一個工具去執行。拿到工具返回的資訊後，推理模型不是把所有原始資訊都硬塞進記憶，而是先提煉出其中與當前問題真正相關的關鍵線索，只保留有用的部分。然後再進行下一輪判斷：資訊夠了嗎？夠了就給出答案，不夠就選擇下一個工具繼續挖掘。系統最多允許進行12輪工具調用，平均只需要3輪左右就能找到答案。

在論文中有一個很典型的例子：有人問"尼克賣的棒冰里的冰淇淋（果汁）來自哪裡？"推理模型先用導航工具獲取影片的超級事件列表，判斷這個問題大概在哪個階段。然後用語義搜索工具，輸入"尼克賣棒冰"找到相關節點，確定這個事件在宏觀事件2.2中。最後獲取該宏觀事件的子圖，從因果邊中讀出：尼克在大象冰淇淋店購買了一根巨型棒冰（Jumbo Pop），把融化的冰淇淋汁裝進容器，再用樹枝棍製作成小棒冰出售。答案就藏在這條因果鏈里。

---

五、實驗數據：數字背後的真實差距

研究團隊在四個權威評測集上驗證了MEMDREAMER的效果，這四個評測集分別針對不同類型和時長的影片，形成了相當完整的覆蓋。

LVBench是最嚴苛的測試，包含103部影片（每部30分鐘到2小時），共1549道題，分成6個子類。在這裡，MEMDREAMER搭載Gemini-3.1-Pro推理模型，得分90.7，比同一個模型在端到端模式下的78.2高出12.5分，與人類專家94.4分的差距縮小到了3.7分。搭載開源模型Qwen3-VL，端到端模式只有63.6，換成MEMDREAMER直接跳到84.8，提升了足足21.2分。搭載Gemini-2.5-Pro的版本從72.0提升到80.7，提升8.7分。這三個數字共同說明了一個事實：無論底座模型如何，MEMDREAMER都能帶來實質性提升。

贊助商廣告

LongVideoBench包含753個影片和1337道題，MEMDREAMER的最好成績達到92.9，比對應的端到端基線高出14.3分。Video-MME的長影片部分，最好成績92.1，高出11.8分。EgoSchema專注於第一人稱視角影片的推理，最好成績88.2，高出11.4分。

與其他記憶型影片系統相比，MEMDREAMER的優勢同樣明顯。之前的最強競爭對手VideoARM在LVBench上得79.7，在Video-MME上得81.2；DVD在LVBench上得74.2，在Video-MME上得67.3。MEMDREAMER在兩個評測集上都對這些系統形成了顯著超越。

在處理效率上的對比同樣令人印象深刻。端到端模式下，推理模型需要消化的影片詞數在24萬到78萬之間；而在MEMDREAMER的框架下，推理模型每輪只需要處理不到6200個詞，大約是端到端模式的1/40到1/124。用更少的"閱讀量"，換來了更高的準確率，這正是分離感知與推理所帶來的核心優勢。

---

六、拆解實驗：哪部分貢獻最大？

為了弄清楚這套方案里每個設計的真實價值，研究團隊進行了一系列細緻的對比實驗，把系統拆開來逐一檢驗。

關於"層級結構"和"圖譜結構"哪個更重要，實驗給出了清晰的答案。去掉所有高級設計、使用最簡單的平鋪文字塊儲存（1D Flat-Chunk），LVBench得分77.4。只加入圖譜結構、保持平鋪（1D Flat-Graph），得分跳到84.8，提升了7.4分——說明時序和因果圖譜關係對於保持事件連續性非常關鍵。只加入層級結構、去掉圖譜（Hierarchical-Chunk），得分跳到86.3，提升了8.9分——說明多粒度的層級導航能有效避免AI在細節里迷路。兩者合用（完整的MEMDREAMER），得分達到90.7，比簡單相加還要高，說明兩者之間存在協同增強效應，層級結構解決"在哪裡找"，圖譜結構解決"怎麼理解因果"，二者互補。

關於檢索方式的對比，單純依賴語義相似度檢索（Vanilla Embedding）只有70.5分，還不如直接把整個文字記憶塞給AI（Full Memory Context，78.9分）。但Full Memory Context在推理類子題上的表現很差，只有72.7分——大量無關的圖譜結構資訊反而干擾了邏輯推理。只用主動搜索、不用圖譜遍歷工具（Agentic Search Only）得80.2，加上完整的7件工具（Agentic Full Tools）飆升到90.7。說明單純的主動搜索還不夠，沿著因果邊進行多跳遍歷才是解決複雜推理題的關鍵。

贊助商廣告

關於工具調用輪數上限，研究團隊測試了8輪、10輪、12輪、15輪四種設置。從8輪的88.7穩步上升到12輪的90.7，但15輪時略微回落到90.2。更有意思的是，不管上限怎麼設，推理模型平均只使用了2.87到3.07輪就停下來了，說明AI足夠"自律"——找到答案就停，不會無謂地消耗工具調用次數。每輪處理的詞數也基本穩定在6000左右，沒有隨輪數上限的增加而顯著膨脹。

關於感知模型和推理模型的搭配靈活性，研究團隊測試了Gemini-2.5-Pro和Gemini-3.1-Pro兩種感知模型分別搭配不同推理模型的組合。當推理引擎相同時，換用不同的感知模型，最終準確率的變化僅在0.4到1.4個百分點之間。這說明由於感知階段每次只處理不超過10分鐘的短影片，不同感知模型的能力差距在這裡基本被抹平，整個系統對感知模型的依賴度很低，表現出良好的"容錯性"。

---

七、推理能力才是真正的天花板

研究中最具啟發性的一個發現，值得單獨拿出來講一講。

研究團隊測試了8個不同的大語言模型，把它們在數學奧賽題（AIME 2025）上的成績和在LVBench上的成績放在一起對比。AIME 2025是一個純文字的數學推理競賽，和影片完全無關，它代表的是AI純粹的邏輯推理能力。

在端到端模式下，推理能力和影片理解能力之間的關聯非常微弱，相關係數只有0.70，而且在統計學上不夠顯著（p值0.052）。換句話說，一個推理能力強的AI，在端到端模式下並不一定比推理能力弱的AI表現更好——因為它被海量的視覺噪聲給淹沒了，根本用不上自己的推理優勢。

但在MEMDREAMER框架下，這個相關係數躍升到了0.897，而且統計上高度顯著（p值小於0.01）。更直觀的數字是：Claude-Opus-4.6在AIME 2025上接近滿分（99.8），配合MEMDREAMER在LVBench上得到85.1；Gemini-3.1-Pro在AIME 2025上得98.1，配合MEMDREAMER得90.7；GPT-4o在AIME 2025上只有61.9，配合MEMDREAMER只有68.5。規律相當清晰。

贊助商廣告

這個發現的意義在於：提升超長影片理解能力，以後可能不需要專門去訓練"影片理解模型"，而是只需要提升模型的通用邏輯推理能力就夠了。推理能力的提升，能通過MEMDREAMER這樣的框架自然地轉化為影片理解能力的提升。這為整個領域開闢了一條新的優化方向。

---

八、局限性與展望

研究本身也存在一些值得關注的邊界條件。目前整套記憶系統完全依賴文字描述，影片的視覺資訊只有通過感知模型的文字轉化才能進入記憶。這意味著如果某些細節不夠容易用文字描述（比如微妙的面部表情、複雜的空間關係），可能在文字化過程中有所損失。不過這個局限性在目前的測試中影響不大，感知模型的文字描述能力已經足夠強大，覆蓋了絕大多數實際需要回答的問題類型。

此外，構建記憶的過程需要一定的計算資源，對於一部完整的長影片，需要調用感知模型對每個10分鐘的片段進行處理，然後再進行層級聚合。這部分的效率在未來還有優化空間。

說到底，這項研究的核心貢獻在於證明了一件事：讓AI更好地理解超長影片，關鍵不在於給它更大的"胃"去消化原始畫面，而在於給它一套好的"整理習慣"和"查閱方法"。感知和推理的分離，讓AI的智力真正得以發揮。隨著推理模型能力的持續提升，MEMDREAMER這樣的框架有望將AI在超長影片理解上的表現持續推向新的高度。有興趣進一步了解技術細節的讀者，可以通過arXiv編號2606.07512找到完整論文。

---

**Q&A**

Q1：MEMDREAMER的"層級圖譜記憶"具體儲存的是什麼內容？

A：MEMDREAMER的記憶分三層：最頂層是整個影片的全局概述（影片根節點），包含主題、關鍵人物和總體情節；中間層是若干"超級事件"，相當於把影片按劇情階段分章；最底層是具體的"宏觀事件"，每個宏觀事件對應一段時間窗口內發生的事情。在最底層之下還有一張更細的子圖，記錄具體的人物、物體、地點和它們之間的因果、空間、行動關係。整個記憶是純文字的，不保存任何影片幀。

贊助商廣告

Q2：MEMDREAMER的推理模型平均調用多少次工具就能答題？

A：根據論文的實驗數據，即使系統最多允許調用12輪工具，推理模型平均只需要約3輪（具體是3.06輪）就會自行停下來給出答案，說明大多數問題不需要太多輪次的探索。只有少數複雜問題才會真正用到接近上限的輪次。每輪處理的文字量也穩定在6000個詞左右。

Q3：MEMDREAMER和直接用大模型看影片相比，到底能提升多少準確率？

A：在LVBench這個最嚴苛的超長影片評測集上，使用Qwen3-VL直接看影片的準確率是63.6，換成MEMDREAMER框架提升到84.8，漲了21.2分。使用Gemini-3.1-Pro直接看影片是78.2，換成MEMDREAMER達到90.7，漲了12.5分。使用Gemini-2.5-Pro的提升幅度是8.7分（從72.0到80.7）。不同的底座模型提升幅度有所不同，但所有模型都獲得了顯著提升。