南京大學與字節跳動聯手打造的"AI私人助理"，終於能記住你是誰了

這項由南京大學與字節跳動聯合開展的研究，以預印本論文形式於2026年3月20日發布在arXiv平台，論文編號為arXiv:2604.13074v1，分類於電腦科學的計算與語言（cs.CL）方向。有興趣深入了解的讀者可以通過該編號直接查詢完整論文。

贊助商廣告

你有沒有跟AI助手聊天聊到一半，發現它完全不記得你上次說過什麼的經歷？你告訴它你不喜歡喝咖啡，結果下周再聊，它還是熱情地給你推薦拿鐵。你跟它分享過你是一個性格內向、容易焦慮的人，但當你說今天壓力很大時，它依然用那種充滿活力的語氣喊你"去派對認識新朋友吧！"——這感覺就像跟一個每次見面都把你忘乾淨的人在交流。

這不是個小問題。隨著AI助手越來越深入地參與人們的日常生活——幫你做計劃、聊心情、提建議——這種"健忘"和"一刀切"的回應方式，正在成為一個越來越令人沮喪的障礙。南京大學與字節跳動的研究團隊正是注意到了這個痛點，於是開發了一套名為PersonaVLM的框架，專門讓多模態大語言模型（就是那種既能看圖又能對話的AI）變成一個真正了解你、記住你、並能隨著你的變化不斷調整自己的私人助理。

一、為什麼現在的AI助手總是"失憶"又"刻板"

要理解PersonaVLM解決了什麼問題，得先搞清楚現在的AI助手究竟哪裡出了毛病。研究團隊把現有的個性化方法歸納為三類，並指出了每一類的根本缺陷。

第一類叫"適應型"方法，原理是針對每個用戶單獨訓練或微調模型，讓模型把用戶的習慣直接"燒錄"到自己的參數裡。代表作是MyVLM和Yo'LLaVA，它們能讓AI從認識"一隻狗"升級到認識"你家的狗旺財"。但問題在於，每來一個新用戶，或者用戶的習慣發生變化，就得重新訓練一次——這種代價太大了，根本無法大規模推廣，更無法追蹤用戶偏好的演變。

第二類叫"增強型"方法，思路是給AI配備一個外部資料庫，把用戶說過的話存進去，需要時再檢索出來。RAP等系統屬於這類，它們不需要重新訓練模型，相對靈活。但致命的弱點是：這個資料庫是人工預設好的，AI不會主動思考"這件事值不值得記下來"，也不會隨著對話主動更新記憶。更麻煩的是，直接用關鍵詞搜索記憶會產生"語義漂移"——你問"那天我們聊的那件事"，系統根本不知道你指的是哪件事。

贊助商廣告

第三類叫"對齊型"方法，目標是讓AI的回覆風格符合用戶的個性。ALIGNXPERT和PAS都屬於這個方向，但它們的問題在於把用戶性格當成一個固定標籤，一旦貼上"外向型"的標籤就一直用下去。可現實是，人的性格是流動的——一個在工作場合表現得雷厲風行的人，私下可能敏感細膩；一個年初開朗愛社交的人，年末可能因為某件事變得內斂焦慮。

研究團隊用一個非常形象的例子說明了這三類方法會同時失敗的場景：用戶在5月底說自己喝雪碧緩解夏季焦慮，6月初又說最近更喜歡喝可樂來平復情緒。7月中旬當用戶再次表達壓力很大時，增強型系統仍然從資料庫里翻出"雪碧"這條舊記錄，推薦了已經過時的選擇；而對齊型系統則用熱情洋溢的語氣喊那個內向、高神經質的用戶"去主動結交陌生人"——完全不顧這對他來說簡直是噩夢。

由此，研究團隊明確提出了長期個性化需要同時解決兩根支柱：一是能主動構建和維護動態用戶記憶的架構；二是能利用這些記憶進行推理、並生成與用戶當下性格真正對齊的回應的能力。

二、PersonaVLM的核心設計：一套會"認識你"的記憶系統

PersonaVLM的整體架構建立在一套專門設計的個性化記憶系統之上，這套系統儲存兩大類資訊，就像一個了解你的老朋友同時維護著兩本關於你的手冊。

第一本手冊叫"用戶性格檔案"，用五個維度的數值來描述你的性格——這五個維度來自心理學界廣泛認可的"大五人格模型"，分別是開放性（你有多願意嘗試新事物）、盡責性（你有多有條理有紀律）、外向性（你有多喜歡社交）、宜人性（你有多友善合作）、和神經質（你有多容易焦慮緊張）。每個維度的分值在1到5之間浮動，構成一個五維的數字向量，代表AI對你性格的實時認知。

第二本手冊是"多類型記憶資料庫"，分為四個格子。第一個格子叫"核心記憶"，存的是你最基礎的個人資訊，比如名字、年齡、職業、興趣偏好，以及你希望AI以什麼風格和你互動——這個格子裡的內容會隨著新資訊的出現直接覆蓋舊版本，永遠保持最新狀態。第二個格子叫"語義記憶"，存的是與時間無關的穩定知識，比如"用戶對貓過敏"、"用戶曾提到失業"、"用戶喜歡極簡風格的設計"，還包括用戶分享過的圖片中具體的視覺元素，比如"朋友小明（附上圖片中小明的裁剪圖）"。第三個格子叫"情節記憶"，存的是按時間軸組織的對話片段——每次對話結束後，AI會把整段對話按話題分割，給每個話題寫一個摘要、提取關鍵詞、並記錄這段對話的輪次索引。原始對話永遠不會被刪除，情節記憶只是一個快速定位的索引層。第四個格子叫"程序記憶"，專門記錄你的長期目標和重複性習慣，比如"用戶每周四早上跑步"、"用戶正在寫一本小說，目前完成了第三章"。

贊助商廣告

這套記憶系統的儲存和更新策略非常精妙。語義記憶和情節記憶是純粹累積的——新內容只增不減，歷史記錄完整保留，就像在日記本上不斷添頁，從不撕頁。而核心記憶和程序記憶則是"最新優先"——只保留最新版本，就像用最新的地圖替換舊地圖，避免過時資訊干擾判斷。

三、兩階段運作：從"回應你"到"認識你"的完整循環

PersonaVLM的實際運作分為兩個階段，像一個不斷學習的循環。

每當你發來一條消息（可以是文字，也可以帶圖），第一階段"回應階段"就啟動了。AI首先會看到你的消息、近期的對話記錄、你的核心記憶和當前的性格檔案。然後它開始一個非常關鍵的自主推理過程：先判斷手頭的資訊夠不夠回答你的問題。如果夠，直接給出回答；如果不夠，它會主動發起一次記憶檢索請求，在請求中指定兩個參數——關鍵詞和時間範圍。

時間範圍這個設計非常有意思。普通的RAG系統只管關鍵詞匹配，而PersonaVLM意識到人們說話經常帶時間線索，比如"上個月"、"那次出差之前"、"我媽生日那天"——這些線索對精確檢索至關重要。AI會先根據時間範圍圈定候選記憶，再在這個範圍內對語義記憶、情節記憶和程序記憶三個格子分別並行搜索，各自取出最相關的若干條。檢索結果回來後，AI繼續推理，判斷是否需要再檢索一輪，或者已經可以給出回答。整個推理和檢索過程可以疊代最多三次，就像偵探在案發地點反覆勘查，直到找到關鍵線索才合上筆記本。

這種設計解決了一個人們通常沒意識到的難題：用戶的問題經常包含指代詞，比如"那個東西我還需要買嗎"、"你還記得我說的那件事嗎"——這種問題用直接語義匹配根本找不到，必須通過上下文推理來確定"那個東西"指的是什麼，然後再去檢索。

檢索到的文字記憶用的是一個叫all-MiniLM-L6-v2的句子編碼器，把所有記憶轉換成數字向量，再用FAISS這個高效向量搜索庫快速找到最相關的條目。如果你發來了圖片，系統還會自動觸發視覺檢索：先用Grounding DINO這個目標檢測器從你的圖片中找出各種物體，然後用CLIP這個圖文對齊模型把這些物體和記憶庫里存的視覺概念做相似度比較，從而識別出"這張照片裡是你的朋友小明"。

贊助商廣告

在回復生成時，AI會把你的性格檔案作為核心指令，調整回復的語氣、風格和內容方向——對高神經質的用戶給予安撫和穩定感，對低開放性的用戶給出務實具體的建議，而不是充滿奇思妙想的發散性回答。

回復發出之後，系統進入第二階段"更新階段"，這個階段在"閒置時間"異步進行，不影響你下一條消息的響應速度。更新階段做兩件事：更新性格檔案，以及更新記憶資料庫。

性格檔案的更新通過一個叫做"人格演化機制"（PEM）的算法完成。AI會從你剛才那條消息的語言風格和情緒線索中，推斷出一個臨時的五維性格評分。然後用一個叫"指數移動平均"的公式，把這個臨時評分與歷史積累的長期性格檔案做加權融合：新檔案 = λ × 舊檔案 + (1-λ) × 臨時評分。這裡的λ是一個動態調整的係數，在你們剛開始互動時λ值比較小，意味著每次新輸入對檔案的影響更大，AI學得很快；隨著交互輪次增加，λ慢慢升高，檔案趨於穩定，不會因為你某天說話風格偶爾不同就劇烈波動。這個設計的邏輯是：了解一個人需要大量樣本，早期每條資訊都很寶貴，而建立了深度了解之後，偶爾的異常不應該推翻已有的認知。如果某次AI推斷出的臨時性格評分全是中性值3，這次更新會被跳過，避免無意義的對話污染性格檔案。

記憶更新則對四種類型分別處理：語義記憶在每輪對話結束後立即更新，提取新出現的偏好、明確要記憶的內容和新認識的人或物；程序記憶和核心記憶在每次會話結束後批量更新，AI會審視整段會話來決定是否新增、修改或刪除某條記錄；情節記憶則通過把整段會話按話題分割，為每個話題生成摘要、關鍵詞和對應輪次索引，追加到情節記憶庫中。

四、如何從零訓練出這樣一個系統

要讓PersonaVLM真正學會上述所有能力，研究團隊需要大量高質量的訓練數據。現有的數據集普遍存在三個缺陷：只有文字沒有圖片，只有短對話沒有長期互動，以及沒有關於記憶管理和性格推理的監督信號。於是團隊從頭構建了一條數據合成流水線。

贊助商廣告

流水線的起點是從PersonaHub（一個包含十億規模人物設定的公開資源）中抽取700個虛擬人物，再為每個人物隨機分配大五人格分數，生成詳細的角色描述和初始核心記憶。接著用商業級別的Seed1.6-thinking模型，模擬這些虛擬用戶與AI進行長達數百輪、跨越數周到數月的對話。為了讓對話更真實，流水線會概率性地觸發偏好轉變事件（比如原本喜歡雪碧的用戶某天因為看了一篇文章開始偏向可樂）、話題跳轉和性格演變。超過15%的對話包含圖片交互，覆蓋從專業工作討論到日常閒聊的廣泛場景。最關鍵的一點是，生成過程不僅產出對話內容，還同步產出中間的推理步驟、檢索決策和記憶更新操作，為模型訓練提供了極其豐富的監督信號。

最終數據集包含700組長期對話，其中500組用於訓練，200組留給測試，訓練集對話長度在20到100輪之間，測試集則更具挑戰性，設計了兩個難度檔：20到100輪對應32k上下文窗口，100到500輪對應128k上下文窗口。這種設計使得測試數據比訓練數據更長、更複雜，能夠真正檢驗系統的泛化能力。

整個數據集還經過了兩輪質量審查：第一輪是自動化過濾，包括規則檢查（時間戳是否符合時序、情節記憶的輪次索引是否完整）和模型自檢（內容是否安全連貫）；第二輪是人工審核，4名標註人員仔細排查錯誤、無意義或重複的對話，整個人工審核過程耗時約40人時。

有了數據之後，PersonaVLM以Qwen2.5-VL-7B這個多模態大語言模型作為基礎，進行兩階段訓練。第一階段是監督微調，用7.8萬條樣本訓練模型掌握記憶管理的基本功——包括怎麼推斷性格、怎麼執行各類記憶的增刪改查操作、以及怎麼生成有完整推理鏈條的答案。這一階段讓模型具備了清晰輸出推理過程和檢索指令的基礎能力。第二階段是強化學習，使用GRPO算法（一種改進版的強化學習策略優化方法）進一步強化多輪推理和檢索的質量。訓練時，模型對每個樣本會生成6條不同的推理路徑，然後用三個獎勵函數來評分：答案準確性、推理過程與最終答案是否邏輯自洽、以及輸出格式是否規範。評分由Qwen3-30B-A3B這個更大的模型擔任裁判。整個兩階段訓練在8塊NVIDIA H800 GPU上完成，總耗時約8小時（監督微調2小時，強化學習6小時）。

贊助商廣告

五、全面評測：PersonaVLM表現如何

為了評估PersonaVLM的性能，研究團隊做了三件事：參加已有的評測基準測試、引入自建的Persona-MME基準測試、以及進行開放式生成質量的定性評估。

已有基準方面，團隊在PERSONAMEM上進行了測試，這是一個專門設計來評估AI追蹤用戶偏好演變能力的基準，包含七類任務：回憶用戶分享過的事實、提出新建議、確認用戶最新偏好、追蹤完整偏好演變、回顧偏好變化的原因、提供符合偏好的推薦，以及綜合評分。測試分32k和128k兩種上下文長度。在32k設置下，PersonaVLM相比基礎版Qwen2.5-VL-7B（加了RAG檢索的版本）提升了10.86個百分點，比GPT-4o高出17.3個百分點。在更具挑戰性的128k設置下，PersonaVLM依然比GPT-4o高出2.0個百分點，這在面對如此長的對話歷史時是相當可觀的優勢。

研究團隊還特別關注到了一個反直覺的現象：在短上下文（32k）場景下，給模型加上RAG檢索反而會讓偏好理解任務的表現下降最多9.33%，而在長上下文（128k）場景下，RAG則帶來4.53%的明顯提升。這說明，當對話本身已經足夠簡短時，強行檢索會引入噪聲；只有當對話長到超出模型直接處理能力時，檢索才真正發揮價值。

自建的Persona-MME基準是這次研究的另一大貢獻。研究團隊基於200個虛擬人物，構建了超過2000道測試題，覆蓋七個核心維度和14項細粒度任務。七個維度分別是記憶、意圖、偏好、行為、關係、成長和對齊，每個維度下又細分為具體任務，比如視覺細節回憶（你能記住我之前分享的照片裡那件東西是什麼顏色的嗎？）、最新偏好識別（當用戶近期行為與之前言論矛盾時，以行為為準）、隱式意圖推理（用戶沒明說但言下之意想要什麼？）、行為模式識別（用戶每次遇到類似情況會怎麼做？）、長期目標追蹤（那個項目進展到哪了？不確定時也要能答出"目前不清楚狀態"）、人際關係識別（在用戶多次提到的朋友中，誰出現得最頻繁？），以及性格對齊（這條回復是否真的符合這個用戶的性格？）。每道題還有32k和128k兩個難度檔，總測試案例超過2034道。

贊助商廣告

在128k配置的Persona-MME上，PersonaVLM以77.08分排在所有測試模型中第二，僅次於GPT-5（82.95分），超過GPT-4o（71.90分）5.18個百分點，也超過了規模更大的InternVL3-38B（66.01分）和語言能力出色的Qwen3-30B-A3B（72.65分）。在與基礎版Qwen2.5-VL-7B（54.62分）相比，PersonaVLM提升了整整22.46個百分點，這個提升幅度尤其集中在"成長建模"和"性格對齊"兩個維度上，說明PersonaVLM的核心設計確實在這些最難的任務上產生了顯著效果。

在性格對齊專項評測方面，團隊還引入了P-SOUPS基準，這個基準包含1800道題，每道題給出一段對話、一個用戶性格描述、一條對齊的回覆和一條不對齊的回覆，讓模型選擇哪條更合適。PersonaVLM在這個測試中的整體得分比次優模型高出2.46個百分點，在風格維度（即回復語氣和表達方式是否符合性格）的提升尤為明顯，比基礎版提升超過12個百分點。

開放式生成質量測試則用Gemini-2.5-Pro作為自動裁判，對PersonaVLM和三個對比模型（GPT-4o、InternVL3-8B、Qwen2.5-VL-7B）的回覆進行兩兩比較，評估準確性和性格對齊度兩個維度。PersonaVLM對陣GPT-4o時贏了79%的案例，打平5%，輸了16%。對陣InternVL3-8B時贏了84%，對陣Qwen2.5-VL-7B時贏了92.5%。

六、消融實驗：每個設計選擇的貢獻

研究團隊還對設計中的每個關鍵組件單獨做了消融測試，驗證其是否真的有效。

移除情節記憶時，32k配置下性能下降12.41個百分點，128k下下降5.19個百分點——這是所有組件中影響最大的，說明有組織地儲存和檢索對話片段對於長期記憶至關重要。移除語義記憶時，性能下降約1.77個百分點，影響相對較小。移除程序記憶時，在行為和關係相關任務上有明顯的下降，說明記錄用戶習慣對於這類任務的理解有專門的價值。移除核心記憶時，下降約1.68個百分點，影響較為均勻。移除多步推理能力時（即直接檢索不疊代），32k下降2.75個百分點，128k下降3.73個百分點，進一步驗證了疊代推理比一次性檢索更有價值。

贊助商廣告

在情節記憶的檢索數量上，團隊還專門測試了檢索1到4個話題條目的效果。結果顯示，從0增加到2時性能提升明顯，2之後趨於平緩，因此團隊選擇了2作為默認配置，在性能和計算效率之間取得平衡。

在PEM的有效性上，移除性格演化機制後，P-SOUPS整體得分下降4個百分點，其中風格維度下降最為顯著（-9.2分），說明動態性格推斷確實能幫助AI找到更貼合用戶個性的回覆風格。

七、效率與隱私：現實部署中的兩個關鍵問題

在計算效率方面，研究團隊做了三組方案的對比：不帶PersonaVLM的基礎Qwen2.5-VL-7B平均每次請求消耗43530個token，平均響應時間8.4秒；帶了記憶但不推理的PersonaVLM（直接用檢索結果回答，不疊代）平均只用2726個token，響應時間僅2.09秒——比基礎版快了4倍多，token消耗減少了93.7%；完整PersonaVLM（帶多步推理）的token消耗進一步降至2170個（比不推理版還少20.4%，因為推理過程幫助精準定位了所需資訊），但響應時間因為需要多輪推理而增加到10.18秒，比基礎版慢了約21%。記憶更新操作在回復發出後異步執行，不計入響應時間。

隱私安全方面，PersonaVLM的記憶儲存和檢索完全在本地運行，不依賴任何外部商業API。用戶數據不會離開本地環境，從架構上杜絕了數據泄露風險。這對於那些希望使用個性化AI但又顧慮隱私的用戶來說，是一個重要的差異化優勢。

當然，研究團隊也坦誠地指出了幾個現實局限：PersonaVLM目前還不支持影片或音頻中的人物識別和追蹤；整體性能天花板受限於底層基礎模型Qwen2.5-VL-7B的能力；記憶系統目前是純粹基於時間線的，不同時間發生的相關事件之間還沒有建立橫向聯繫。這些都是未來需要改進的方向。

說到底，PersonaVLM做的事情可以用一句話概括：把AI助手從一個"每次見面都把你忘乾淨的陌生人"變成一個"真正了解你、記得你的過去、感知你的變化"的長期伴侶。它通過四格記憶系統解決了"記不住"的問題，通過疊代推理檢索解決了"找不准"的問題，通過動態性格演化機制解決了"不適配"的問題。

贊助商廣告

這項研究的意義不僅在於技術本身，更在於它重新定義了"個性化AI"的評估標準——不是看AI能不能記住你叫什麼，而是看它能不能感知到你從喜歡雪碧變成了喜歡可樂、能不能在你焦慮時用適合你性格的方式給你安慰。當然，77分的Persona-MME成績也說明這條路還很長，GPT-5的82.95分和PersonaVLM之間的差距提醒我們，真正像老朋友一樣理解人類，AI還在路上。有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2604.13074查閱完整論文。

Q&A

Q1：PersonaVLM的記憶系統有哪幾種類型，分別存什麼內容？

A：PersonaVLM的記憶資料庫分為四種類型。核心記憶存用戶的基礎資訊，如名字、職業、偏好，隨時覆蓋更新。語義記憶存穩定的事實性知識，比如"用戶對貓過敏"或某張照片裡特定人物的圖像。情節記憶按時間軸組織對話片段，每段附有摘要、關鍵詞和輪次索引。程序記憶則記錄用戶的長期目標和重複性習慣。前兩種類型純粹累積不刪除，後兩種只保留最新版本。

Q2：PersonaVLM如何追蹤用戶性格隨時間的變化？

A：PersonaVLM使用了一個叫"人格演化機制"（PEM）的算法，基於大五人格模型（開放性、盡責性、外向性、宜人性、神經質）維護一個五維數字檔案。每輪對話後，AI推斷一個臨時性格評分，然後用指數移動平均公式融合進長期檔案。早期對話中新評分權重更高，隨著交互增多檔案趨於穩定，避免被偶發的異常行為干擾，同時能捕捉到真實的長期性格演變。

Q3：PersonaVLM和直接讓AI讀完整對話歷史相比有什麼優勢？

A：直接讀完整歷史會隨著對話增長消耗大量計算資源，且模型容易在超長上下文中"迷失"關鍵資訊。PersonaVLM通過結構化記憶系統壓縮了資訊，平均token消耗比基礎模型減少93.7%，並通過疊代推理精確定位相關記憶，在128k超長上下文測試中的個性化理解表現比直接讀取歷史的GPT-4o還高出約5個百分點。

贊助商廣告