「你說你早上不喝咖啡不行,所以我每天早上都為你煮咖啡。
你說你是天秤座,而且剛好是最後一天的,所以我在10月23日你生日那天偷偷為你準備了蛋糕。」
2025年8月14日,字節跳動Seed團隊開發的M3-Agent系統,首次讓AI具備了類似人類的長期記憶和推理能力。該系統採用雙線程認知架構,能夠持續觀察環境形成記憶,並基於記憶進行多輪推理。M3-Agent在長影片理解任務上顯著超越現有方法,為AI助手的智能化發展開闢了新方向。項目代碼在Github開源,論文發表在arXiv上。
傳統的AI系統就像一個只有短期記憶的人,雖然能處理當前的任務,但無法從過往經歷中學習和積累智慧。這種局限性嚴重製約了AI的實用價值。如果AI助手每次都需要重新了解用戶,就永遠無法提供真正個性化和智能化的服務。更關鍵的是,現有的AI系統在處理長影片內容時往往力不從心,無法維持前後一致的理解和記憶。
研究團隊的核心洞察是,人類的智能很大程度上依賴於我們能夠持續觀察世界、形成記憶,並基於這些記憶進行推理。他們決定為AI構建一個類似的認知架構,讓它能夠像人類一樣"看見、聽見、記住、思考"。這不僅僅是技術上的挑戰,更是對AI智能本質的深層探索。
雙線程認知架構:讓AI像人類一樣思考
M3-Agent的設計靈感來源於人類大腦的工作方式。人類在日常生活中會同時進行兩種認知活動:一邊持續觀察和記憶周圍環境,一邊根據需要調取記憶來解決具體問題。研究團隊將這種認知模式轉化為兩個並行運行的系統。
第一個系統叫做"記憶化工作流",就像我們大腦中負責編碼和存儲記憶的部分。當M3-Agent觀看影片或聽到聲音時,這個系統會持續工作,將看到的、聽到的內容轉化為可以長期保存的記憶。這個過程不需要外界指令,就像我們在日常生活中自然而然地形成記憶一樣。
第二個系統是"控制工作流",相當於我們大腦中負責調取記憶和解決問題的部分。當用戶提出問題或給出指令時,這個系統會啟動,從長期記憶中搜索相關資訊,進行多輪推理,最終給出答案或完成任務。這種設計讓AI能夠在積累經驗的同時保持隨時響應的能力。
這種雙線程架構的優勢在於,AI可以在後台持續學習和記憶,而在前台保持對用戶需求的及時響應。就像一個經驗豐富的助手,既能從日常觀察中積累對你的了解,又能在你需要幫助時迅速調動相關經驗來提供支持。
記憶的雙重編碼:事件記錄與知識提煉
人類的記憶系統有一個有趣的特點:我們既能記住具體發生的事情,也能從這些事情中提煉出一般性的知識和規律。比如,你可能記得昨天在咖啡店看到朋友Alice點了拿鐵,同時也能總結出"Alice喜歡喝咖啡"這樣的一般性認知。
M3-Agent模擬了這種記憶機制,建立了兩種不同類型的記憶存儲。第一種叫做"情節記憶",專門記錄具體發生的事件和細節。當AI觀看影片時,它會詳細記錄"Alice拿起咖啡杯說'沒有這個我早上就出不了門'"這樣的具體場景,包括人物的動作、表情、對話和環境細節。
第二種是"語義記憶",負責從具體事件中提煉出抽象的知識和規律。基於剛才的情節記憶,AI會形成"Alice喜歡早上喝咖啡"、"綠色垃圾桶用於回收"這樣的一般性認知。這種抽象化的過程讓AI能夠舉一反三,將從特定情境中學到的規律應用到新的場景中。
更重要的是,M3-Agent還能識別不同感官資訊之間的聯繫。當它看到一個人的臉部特徵,同時聽到這個人的聲音時,會自動建立"臉部特徵-聲音"之間的對應關係。這就像我們能夠將某個人的長相和聲音聯繫起來一樣,讓AI對人物的認知更加完整和一致。
這種雙重編碼機制的價值在於,AI既能保持對細節的敏感度,又能形成高層次的抽象認知。當面對新問題時,它可以從具體的歷史事件中尋找線索,也可以調用抽象的知識規律來推理。
實體中心的記憶組織:構建一致的認知體系
傳統的AI系統在處理長期資訊時常常出現前後不一致的問題,比如在影片開頭將某個人識別為"穿藍衣服的男性",在中間又描述為"戴眼鏡的先生",到最後可能變成"坐在桌邊的人"。這種不一致性嚴重影響了AI的可靠性。
M3-Agent採用了一種巧妙的解決方案:以實體為中心組織記憶。簡單來說,就是為每個重要的人物、物品或概念建立一個專門的"檔案夾",將所有相關資訊都歸類存儲。這個檔案夾不僅包含視覺資訊(比如人物長相),還包含聲音特徵、行為模式、性格特點等多維度資訊。
為了建立這種一致性,研究團隊開發了專門的人臉識別和聲音識別工具。這些工具能夠在影片中準確識別不同的人物,並為每個人分配唯一的身份標識。當AI在描述記憶時,會始終使用這些標識來指代特定的人物,避免了模糊和混淆。
這種實體中心的記憶組織帶來了顯著的優勢。AI不僅能夠準確識別"這個人是誰",還能逐步積累對這個人的全面認知,包括外貌特徵、聲音特點、行為習慣、性格傾向等。隨著觀察時間的延長,AI對每個人的理解會越來越深入和準確。
多輪推理機制:從記憶中挖掘答案
以一個具體例子來說明這個過程。假設用戶問:"Tomasz是一個富有想像力的人,還是缺乏想像力的人?"M3-Agent首先會搜索記憶中關於"Tomasz"這個人的基本資訊,發現他是一位名叫Tomasz Patan的公司創始人和首席技術官。但僅憑職位資訊還無法判斷他的想像力水平。
接下來,AI會調整搜索策略,尋找關於Tomasz個性特徵的資訊。如果這次搜索仍然沒有找到直接答案,AI會進一步拓展搜索範圍,尋找他的創新方法或問題解決能力的相關資訊。最終,AI找到了一條關鍵資訊:"Tomasz具有創新精神和前瞻性思維,這體現在他對將無人機技術擴展到個人飛行的興趣上。"基於這個發現,AI得出結論:Tomasz是一個富有想像力的人。
這種多輪推理機制的價值在於,它模擬了人類解決複雜問題時的思維過程。我們在回答問題時往往不是一步到位,而是會根據已有資訊逐步縮小搜索範圍,調整思路,最終找到答案。M3-Agent通過強化學習訓練掌握了這種推理策略,能夠在最多5輪搜索中找到問題的答案。
更重要的是,這種推理過程是自適應的。AI會根據每次搜索的結果來調整下一輪的搜索策略,確保每次搜索都能獲得新的有用資訊。這種靈活性使得M3-Agent能夠處理各種複雜和開放性的問題。
M3-Bench評測基準:檢驗記憶推理能力
為了科學評估AI的長期記憶和推理能力,研究團隊開發了一個專門的評測基準M3-Bench。這個評測系統包含了兩個不同類型的數據集,總共涵蓋1029個長影片和6381個問答對,是目前最全面的多模態長期記憶評測工具。
第一個數據集叫做M3-Bench-robot,包含100個從機器人視角拍攝的真實場景影片。這些影片模擬了機器人在日常生活中可能遇到的各種情況:客廳聚會、廚房烹飪、臥室整理、書房學習、辦公室工作、會議室討論和健身房鍛煉。每個影片都經過精心設計,包含了豐富的人物互動和情節發展,平均時長約34分鐘。
第二個數據集M3-Bench-web收集了929個來自網路的多樣化影片,涵蓋了更廣泛的內容類型:紀錄片、探索節目、訪談、產品評測、街頭互動、教學、綜藝節目、個人vlog等。這些影片的多樣性確保了評測的全面性和現實相關性。
評測問題被精心分為五個類型,每種類型都考查AI的不同能力維度。多細節推理問題要求AI從影片的不同片段收集資訊並進行綜合分析,比如"五個展示商品中哪個起價最高?"這需要AI準確識別和記住五個不同時間點出現的商品價格資訊。
多步推理問題考查AI的邏輯思維能力,要求通過一系列推理步驟得出結論。跨模態推理問題則檢驗AI能否綜合視覺和聽覺資訊來回答問題,比如根據對話內容和視覺線索判斷某個文件夾的顏色。
人物理解問題專門評估AI對人物性格、情感和行為模式的認知能力。一般知識提取問題考查AI能否從具體事件中歸納出普遍適用的規律和常識。這種多維度的評測確保了對AI能力的全面考量。
訓練方法:強化學習驅動的能力提升
M3-Agent的訓練過程採用了創新的分階段策略。研究團隊將記憶和控制兩個功能分別訓練,以實現最佳性能。這種分離式訓練的邏輯在於,記憶功能需要強大的多模態理解能力,而控制功能更依賴邏輯推理能力,兩者的訓練需求不完全相同。
記憶系統基於Qwen2.5-Omni模型訓練,這是一個支持視覺和音頻輸入的先進多模態模型。訓練數據來源於團隊內部的500個長影片,總共包含26943個30秒片段和2736個問答對。訓練過程採用了精巧的三階段數據合成策略。
首先是情節記憶合成,團隊開發了一種混合標註策略,同時使用Gemini-1.5-Pro和GPT-4o兩個大型語言模型。GPT-4o負責提供幀級別的視覺細節,Gemini-1.5-Pro則生成整體的敘事描述,兩者的輸出經過融合形成比單一模型更豐富的記憶描述。
身份等價檢測是訓練的關鍵環節。團隊設計了一個自動算法來識別"元片段"——那些包含單一人臉和單一聲音的短影片片段。這些片段提供了高置信度的人臉-聲音對應關係,通過投票機制構建全局的身份映射字典。其他語義記憶的合成則通過專門設計的模板來引導,確保記憶內容涵蓋人物屬性、人際關係、情節理解和常識知識等多個維度。
控制系統的訓練更加複雜,採用了強化學習方法。訓練環境中,對於每個問題,AI需要在最多5輪搜索中找到答案。每次嘗試都會根據最終答案的正確性獲得獎勵信號(正確為1,錯誤為0)。通過DAPO算法,AI逐步學會了有效的搜索策略和推理方法。
這種訓練方式的優勢在於,AI不是簡單地記憶訓練樣本,而是真正學會了如何從記憶中提取資訊和進行推理。實驗結果顯示,經過強化學習訓練的M3-Agent在三個評測基準上分別比基線方法提升了10.0%、8.0%和9.3%的準確率。
實驗結果:超越現有方法的顯著優勢
研究團隊對M3-Agent進行了全面的性能評測,結果證明了這種長期記憶機制的顯著優勢。在M3-Bench-robot數據集上,M3-Agent達到了30.7%的準確率,比最強基線方法高出6.7%。在M3-Bench-web數據集上,準確率達到48.9%,提升了7.7%。在VideoMME-long基準測試中,準確率為61.8%,超出最佳對比方法5.3%。
傳統的AI系統在處理長影片時往往力不從心,隨著影片長度增加,理解質量急劇下降。而M3-Agent通過長期記憶機制,能夠在長時間觀察過程中保持甚至提升理解能力。
更有說服力的是各種問題類型上的表現分析。在人物理解任務上,M3-Agent在M3-Bench-robot和M3-Bench-web上分別比最佳基線提升了4.2%和15.5%。這表明AI確實學會了從長期觀察中積累對人物的深入認知,而不是簡單地識別表面特徵。
在跨模態推理任務上,M3-Agent的優勢同樣明顯,分別提升了8.5%和6.7%。這證明了實體中心記憶組織的有效性——AI能夠將視覺資訊和聽覺資訊有機結合,形成統一的認知。
研究團隊還進行了詳細的消融實驗,驗證了各個組件的重要性。結果顯示,如果移除語義記憶功能,準確率會分別下降17.1%、19.2%和13.1%。這表明抽象知識的提煉對AI的推理能力至關重要。移除多輪推理機制會導致11.7%、8.8%和9.5%的性能下降,證明了深度推理的價值。
案例分析:AI如何進行複雜推理
為了更直觀地展示M3-Agent的能力,研究團隊提供了詳細的案例分析。在一個典型案例中,用戶詢問"Tomasz是富有想像力還是缺乏想像力的人?"這個問題需要AI進行多層次的資訊搜索和推理。
首先,AI需要確定"Tomasz"這個名字對應的具體人物。通過搜索,AI發現Tomasz Patan是一位公司創始人和首席技術官。但職位資訊並不能直接回答想像力的問題,所以AI繼續搜索。
第二輪搜索中,AI嘗試尋找關於Tomasz個性特徵的直接描述,但沒有找到相關資訊。這時AI調整策略,開始尋找能夠間接反映想像力的資訊,比如他的創新方法或問題解決能力。
第三輪搜索取得了突破。AI發現了一段關鍵描述:"Tomasz具有創新精神和前瞻性思維,這體現在他對將無人機技術擴展到個人飛行的興趣上。"這個資訊表明,Tomasz不僅使用現有技術,還能想像將技術應用到全新領域的可能性。
基於這個發現,AI在第四輪推理中得出結論:一個能夠從無人機技術聯想到個人飛行器的人,顯然具有豐富的想像力和創新思維。最終答案是"Tomasz是一個富有想像力的人"。
這個案例展示了M3-Agent推理過程的幾個關鍵特點:目標導向的搜索、策略調整的靈活性、間接推理的能力,以及將具體資訊抽象為一般性結論的智慧。
至頂AI實驗室洞見
我們在論文裡發現了M3-Agent幾個關鍵的技術創新。
首先是無限資訊處理能力。傳統的影片理解方法受限於模型的上下文窗口,只能處理有限長度的影片。而M3-Agent通過流式處理機制,能夠持續觀察任意長度的影片流,就像人類的感知系統一樣永不停歇。
第二個創新是世界知識構建機制。以往的影片描述系統往往專注於低層次的視覺細節,而忽略了高層次的認知理解。M3-Agent通過語義記憶機制,能夠從具體事件中提煉出抽象的知識規律,建立對世界的結構化認知。
第三個突破是一致性維護機制。在長時間觀察過程中保持對同一實體認知的一致性是一個重大挑戰。M3-Agent通過實體中心的記憶組織和身份跟蹤技術,確保了認知的連貫性和可靠性。
第四個創新是記憶驅動的推理架構。不同於傳統的單次檢索方法,M3-Agent採用多輪疊代的推理策略,能夠根據問題的複雜程度動態調整搜索深度和策略。
M3-Agent證明了AI系統要更懂人類,需要具備類似人類的認知架構,包括感知和推理能力、記憶和學習能力。
未來,我們可能會看到這樣的AI助手:它們能夠記住你的日常習慣,理解你的喜好。它不僅能提高我們的生活效率,還能為老年人陪伴、兒童教育、醫療護理等領域帶來革命性的改變。
所以未來的AI系統將不再是一次性的問答工具,而是能夠與人類建立長期關係、共同成長的智能實體,成為我們日常生活中的夥伴。
項目地址:https://m3-agent.github.io/
論文地址:https://arxiv.org/abs/2508.09736