斯科爾科沃理工學院與Sberbank聯手打造的AI"記憶管家"：讓你的私人助手真正記住你

這項由俄羅斯斯科爾科沃理工學院（Skoltech）、俄羅斯聯邦儲蓄銀行（Sberbank）和俄羅斯人工智慧研究院（AIRI）聯合開展的研究，發表於2026年的IEEE Access期刊第14卷，論文編號為arXiv:2506.17001。感興趣的讀者可以通過這個編號在學術資料庫中找到完整原文。

贊助商廣告

你有沒有遇到過這樣的情況：你跟朋友傾訴了好幾次自己不喜歡吃香菜，結果每次聚餐他還是替你點了有香菜的菜？要是換成AI助手，這個問題就更嚴重了——你告訴它你喜歡某種音樂風格、你有某種過敏、你的工作習慣是什麼，但下次對話一開始，它就像失憶一樣，對這一切一無所知。

這正是當前AI助手最讓人抓狂的痛點。現有的AI大模型雖然知識淵博、能寫能說，卻沒有一個可靠的"長期記憶"機制。它們要麼完全依賴對話窗口裡的文字，要麼用一種叫做"檢索增強生成"（RAG，可以理解為"帶查資料功能的AI"）的技術來補充資訊——這種技術雖然能幫AI查到相關資料，但資料之間是孤立存在的，AI無法看出其中的關聯和邏輯脈絡。

來自上述三家機構的研究團隊決定徹底解決這個問題。他們提出了一個名為PersonalAI的框架，核心思路是給AI配備一個像圖書館一樣結構化的"知識圖譜記憶系統"，讓AI不僅能記住資訊，還能理解資訊之間的關係，並且隨時高效地找回需要的記憶。

一、為什麼普通的"查資料"方式不夠用

要理解這項研究的價值，先得明白現有方案的局限性在哪裡。

把現有的RAG技術比作一個圖書館的話，這個圖書館裡所有的書都被撕碎成一頁一頁，然後隨意堆在一起。當你想查某個問題時，圖書管理員會根據你的問題找出看起來最相關的幾頁紙交給你。這個過程的問題在於：那些散頁之間的聯繫被切斷了，你很可能拿到的是孤立的資訊片段，而無法得到一個完整的、有邏輯的答案。更關鍵的是，如果你問的問題需要把幾本書里的內容串聯起來思考，這種方式就徹底失效了。

贊助商廣告

更糟糕的是，當用戶和AI的交互越來越多、越來越複雜，這個"散頁圖書館"會變得越來越難以管理。舊資訊和新資訊堆在一起，AI分不清哪些是用戶已經改變的想法，哪些是過時的事實。這對於需要了解用戶長期喜好、習慣和歷史的個人化AI來說，簡直是致命缺陷。

研究團隊基於另一個名為AriGraph的架構（最初是為讓AI在文字冒險遊戲中導航而設計的），對其進行了大規模擴展，構建出PersonalAI框架。AriGraph的原始設計思路是讓AI像一個真正的探險家一樣，在探索過程中持續更新自己對世界的理解——記住走過的路，記住看到的事物，並把這些資訊組織成一張可以隨時查詢的地圖。PersonalAI將這個思路引入了個人化AI助手領域。

二、三種記憶類型：AI版的"工作記事本、日記本和百科全書"

PersonalAI最核心的創新是設計了一個多層次的知識圖譜記憶系統。這個系統里有三種不同類型的記憶節點，它們各司其職，共同構成一個立體的記憶網路。

第一種叫做"對象節點"，專門儲存具體的概念和實體，比如"蘋果手機"、"小明"、"北京"這些獨立的名詞性概念。這些節點就像圖書館書架上的書脊標籤，清晰地標註了每一個知識實體的存在。節點之間通過"對象邊"連接，每條連接都攜帶著一段關係描述，比如"小明——擁有——蘋果手機"，這就構成了一個知識三元組。

第二種叫做"論題節點"，儲存的是完整的陳述句，比如"蘋果手機的攝影機比三星拍出的照片更自然"。這類節點捕捉的不只是孤立的概念，而是帶有完整語義的觀點或事實。一個論題節點會通過"論題超邊"與它所包含的多個對象節點相連，就像一條繩子把相關的珠子串在一起。

第三種叫做"情節節點"，儲存的是原始文本片段，相當於對話或文檔的原貌。每一段原始資訊都作為一個情節節點存在，並通過"情節超邊"與從中提取出來的所有語義節點相連。這相當於在圖書館裡既保留了原始書頁，又建立了詳細的索引。

贊助商廣告

這三層結構的巧妙之處在於，它們同時提供了不同粒度的資訊訪問。當你想快速查找某個具體關係時，對象節點層就夠用了；當你想理解某個複雜觀點時，論題節點層提供了完整的語境；當你需要追溯原始資訊來源時，情節節點層保留了完整的記錄。

三、AI如何自動建造這張記憶地圖

知道要存什麼是一回事，知道如何自動從雜亂的文字中提取並儲存這些資訊，才是真正的技術難題。

研究團隊設計了一個叫做"記憶構建流水線"的自動化過程。當新的文本資訊進入系統時（比如用戶說了一段話，或者AI讀取了一篇文章），系統會依次執行幾個步驟。

首先，AI會閱讀這段文字，提取出其中包含的論題（完整的陳述句），並識別每個論題涉及的具體實體。然後，AI會進一步分析這些實體之間的關係，提取出具體的知識三元組。接著，系統會把新提取的內容與已有的記憶圖譜進行比對，看看是否有內容需要更新——比如用戶原來說喜歡吃辣，現在說最近身體原因要少吃辣，那麼舊的偏好記錄就需要相應更新。

更新過時資訊的機制也很精巧。系統先找出新資訊中涉及的實體，然後以這些實體為起點，在已有的圖譜中做廣度優先搜索，找出所有可能相關的舊記錄，再讓AI判斷哪些舊記錄與新資訊存在語義衝突，需要替換。這就像檔案管理員在歸檔新文件時，同時檢查並更新舊檔案，確保檔案櫃裡不會同時存在矛盾的記錄。

整個過程完全由AI自動完成，不需要人工標註或整理。實驗數據顯示，不同AI模型處理資訊的速度和質量有所差異。在速度方面，GPT-4o-mini表現最快，平均每分鐘能處理約1.86個文本片段；Llama 3.1 8B次之，約1.71個片段每分鐘；而DeepSeek 斯科爾科沃理工學院與Sberbank聯手打造的AI記憶管家讓你的私人助手真正記住你 V3由於解析錯誤率高達31.21%，實際有效速度偏低。對比之下，Qwen2.5 7B和Llama 3.1 8B的解析錯誤率最低，均約為0.02%。

以規模來說，一個典型的記憶圖譜是相當龐大的。以HotpotQA數據集為例，使用Qwen2.5 7B構建的記憶圖譜包含約31795個論題節點、56078個對象節點，以及超過10萬條各類邊和超邊。這相當於把將近4000段文本資訊，精煉成了一張密密麻麻但條理分明的知識網路。

贊助商廣告

四、六種"尋寶策略"：在記憶迷宮裡找到答案

有了這張龐大的記憶地圖，下一個挑戰是：當用戶提問時，如何快速準確地從地圖上找到相關資訊？

研究團隊設計並測試了六種不同的圖譜遍歷算法，每種算法都有自己獨特的"尋寶策略"，適用於不同的情境。

第一種是A星算法（A*），這是一種經典的路徑搜索方法，就像導航軟體找最短路線一樣。系統把用戶問題中的關鍵詞對應到圖譜中的節點，然後在節點之間尋找最優路徑，沿途收集經過的所有知識三元組。研究團隊還測試了三種不同的路徑評分方式：一種基於節點向量的內積（類似於用"方向相似度"來判斷路是否走對了），一種在此基礎上乘以路徑長度進行加權，還有一種則是綜合考慮已走路徑和剩餘路徑的平均加權距離。

第二種是WaterCircles算法，顧名思義，就像把石子投入水中，從問題實體對應的節點出發，以同心圓的方式向外擴展搜索範圍。當從不同起點出發的擴展路徑在某個節點相交時，該節點附近的資訊就被認為特別重要，會被優先收錄。這種方法的優勢在於不需要計算向量相似度，因此速度極快——實驗顯示，使用WaterCircles的問答流水線平均只需0.3分鐘，而A*需要約3.24分鐘，BeamSearch更是長達6.59分鐘。

第三種是BeamSearch算法，靈感來自AI文本生成中的"束搜索"技術。從問題實體出發，系統同時維護N條候選路徑（N是可調的超參數），每一步都根據路徑與問題的相關性評分來決定哪些路徑值得繼續延伸。最終把所有優質路徑上的知識三元組合併起來作為答案上下文。這個算法可以設置的參數非常豐富，包括最大搜索深度、最大路徑數量、是否允許同一路徑多次經過同一節點、不同路徑之間是否允許共享節點或共享邊，以及最終如何在"已終止的路徑"和"仍在延伸的路徑"之間取捨。

第四到第六種則是上述三種算法的兩兩組合——WaterCircles加BeamSearch、A*加BeamSearch、A*加WaterCircles。組合策略的邏輯很直觀：不同算法可能抓住不同角度的相關資訊，把它們的結果合併起來，就能降低遺漏重要資訊的概率，提升答案的完整性。

贊助商廣告

五、三條"限制通道"：並非所有記憶都值得翻閱

除了六種搜索策略，研究團隊還引入了另一個維度的調控：在搜索時，可以選擇性地禁止算法經過某些類型的節點。具體來說，可以禁止經過情節節點（E限制）、禁止經過論題節點（T限制）、禁止經過對象節點（O限制），也可以完全不加限制（all）。

這個設計背後有很深的考量。不同類型的記憶節點，對於不同規模的AI模型來說，其"信噪比"是不同的。

對於規模較小的7B（70億參數）模型來說，論題節點往往是最有價值的資訊來源，禁止經過論題節點的配置，在低質量結果中占了約84%的比例；而高質量結果的配置中，約44%都包含了限制情節節點或對象節點的選項。這意味著對於小模型，情節記憶和對象關係反而容易引入噪音，讓模型在複雜的上下文中迷失方向。

然而，對於規模更大的14B+（超過140億參數）模型來說，情況發生了有趣的逆轉。這類大模型有更強的噪音過濾能力，能夠從冗長的情節資訊中自行提煉出有用內容，因此論題節點對它們來說反而顯得多餘甚至干擾——在大模型的高質量配置中，約73%選擇了禁止經過論題節點。

這個發現的實際意義在於：部署AI記憶系統時，應該根據所使用的AI模型規模來調整記憶訪問策略。一刀切的做法會顯著降低性能。

六、在三個不同"考場"上的表現

研究團隊選擇了三個性質各異的問答數據集來全面評估系統性能，每個數據集代表一種不同類型的資訊需求。

第一個考場是DiaASQ數據集，這是一個關於移動設備用戶評論的對話數據集，來自中文論壇，共包含4800對問答和3483段上下文。這個數據集模擬了個人化AI助手最典型的應用場景：用戶討論某款手機的攝影機、續航、外觀等，AI需要從對話中提煉出用戶的真實偏好。研究團隊還對這個數據集進行了特別的擴展，加入了時間標註和內部矛盾陳述，以測試系統處理"隨時間變化的資訊"和"前後矛盾資訊"的能力。

贊助商廣告

第二個考場是HotpotQA，共2000對問答和3933段上下文。這個數據集專門測試"多跳推理"能力——也就是說，要回答一個問題，需要把來自多個不同文檔的資訊串聯起來。比如，要回答"張三出演的那部電影的導演是哪國人"，就需要先找到張三出演過哪部電影，再找到那部電影的導演是誰，最後找到這個導演的國籍。

第三個考場是TriviaQA，共500對問答和4925段上下文。這個數據集考驗的是廣泛的世界知識檢索能力，問題類型是直接的事實性問答，比如"誰發明了電話"。

評估指標方面，團隊沒有採用傳統的BLEU或ROUGE等字面匹配分數（因為這些指標難以區分語義相近但表述不同的回答），而是使用了"LLM-as-a-Judge"框架——讓另一個AI（Qwen2.5 7B）來充當裁判，判斷生成的答案是否正確，輸出0或1的分數，然後統計準確率。同時也計算了精確匹配（Exact Match）分數用於與已有方法的橫向比較。

七、各配置最終表現：誰表現最出色

在最終成績匯總表中，呈現出了清晰的規律。

按LLM-as-a-Judge準確率來看，DeepSeek V3在所有數據集上的平均準確率達到了0.70，GPT-4o-mini緊隨其後達到0.77（在HotpotQA上的0.77是單數據集最高分），而7B/8B規模的小模型中，Llama 3.1 8B以0.44的均值表現最佳，Qwen2.5 7B為0.27，DeepSeek R1 斯科爾科沃理工學院與Sberbank聯手打造的AI記憶管家讓你的私人助手真正記住你 7B僅有0.19。

從檢索算法的選擇來看，BeamSearch在小模型配置中頻繁出現在最優結果中，而大模型的最優配置則幾乎清一色是BeamSearch與WaterCircles的組合策略。這說明BeamSearch在精細尋路方面有天然優勢，但對參數設置極為敏感——配置稍差時，準確率可能暴跌24個百分點；而加入WaterCircles作為輔助後，這種敏感性顯著降低，系統表現更加穩定。

有一個有趣的機制值得單獨提一下，那就是"NoAnswer"機制。系統在提示詞中加入了一條指令：如果檢索到的上下文資訊不足以回答問題，就輸出一個特定的"資訊不足"符號，而不是胡亂猜測。分析不同配置下觸發這個機制的頻率，可以看出哪種策略最擅長找到有用資訊。8B模型在使用BeamSearch且限制情節節點的配置下，觸發"NoAnswer"的頻率最低，僅約40%；大模型使用無限制的BeamSearch+WaterCircles時，觸發率也僅約26%。

贊助商廣告

八、與現有方法的較量：有所超越也有差距

研究團隊將自己的最優配置與現有的RAG和GraphRAG方法進行了系統比較。

在HotpotQA數據集上，最優的PersonalAI配置（GPT-4o-mini + BeamSearch + WaterCircles，無限制）取得了60.0的精確匹配分數。對比當時的多個GraphRAG方法，包括ToG（41.0）、RoG（43.0）、GCR（45.9）等，PersonalAI的表現領先約14個百分點。這意味著在需要複雜多跳推理的任務上，有結構的知識圖譜記憶確實比現有圖譜方法更有優勢。

在TriviaQA數據集上，PersonalAI（DeepSeek V3 + BeamSearch + WaterCircles，無限制）取得了62.0的精確匹配分數。與各類傳統RAG方法相比，這個成績低於在同數據集上專門微調過的Atlas模型（79.8）和RePLUG（77.3）等。不過研究團隊指出，這些RAG方法的Reader和Retriever模組是專門針對該數據集訓練的，享有明顯的主場優勢；而PersonalAI在設計上是通用框架，並沒有針對任何特定數據集做專門的訓練調整。

此外，研究團隊還復現了另一個知名的圖譜增強RAG方法HippoRAG，並在同樣的數據集上進行了評測。結果顯示，PersonalAI在DiaASQ上的LLM-as-a-Judge準確率（最高達0.50，與HippoRAG的0.53接近），在HotpotQA上的精確匹配（60.0對60.2）與HippoRAG基本持平甚至略有超越，說明PersonalAI達到了當前同類方法的競爭水平。

九、儲存系統的選擇也有講究

這個研究還有一個很實用的發現，關於底層資料庫的選擇。

整個PersonalAI系統需要兩種資料庫配合工作：圖資料庫Neo4j負責儲存知識圖譜的結構（節點和邊），向量資料庫負責儲存每個節點和三元組的語義向量表示（用於計算相似度）。向量資料庫的性能對整個系統的響應速度影響極大，因為幾乎每次檢索都需要做大量向量相似度計算。

實驗完成後，研究團隊評測了五種主流向量資料庫：Milvus、OpenSearch、Weaviate、Elasticsearch和Qdrant。結果顯示，Qdrant是其中讀寫速度最快的，而且比主實驗中使用的Milvus快了整整六倍。更重要的是，使用Qdrant儲存的向量數據，每個記憶圖譜只需約4到6GB的磁盤空間，而使用Milvus則需要80到90GB。這種儲存效率的差異，在實際部署中意味著顯著的成本節約。

贊助商廣告

因此研究團隊明確建議：在實際部署PersonalAI時，優先使用Qdrant作為向量儲存後端，以獲得最佳的速度和儲存效率。

歸根結底，PersonalAI這項研究做了一件非常有價值的事情：它把"讓AI真正記住你"這件事，從模糊的願景變成了一套可以系統測試、可以按需調配的工程框架。研究團隊發現，沒有一種萬能的記憶和檢索配置適合所有情況——對於能力較弱的小模型，要讓它集中精力處理結構化的論題資訊，別給它太多原始文本去消化；對於能力強大的大模型，反而可以放開限制，讓它從更豐富的上下文中自行判斷哪些有用。BeamSearch幾乎在所有高性能配置中都扮演了核心角色，但它對參數設置極為敏感，而與WaterCircles結合後，這種脆弱性大幅降低。這些發現，對於任何希望構建真正個性化AI系統的工程師和研究者來說，都是相當直接的參考指引。

如果你對這套系統的技術細節感興趣，或者想了解完整的實驗數據，可以通過arXiv編號2506.17001查閱原始論文，獲取所有提示詞模板、超參數設置和數據預處理細節。

Q&A

Q1：PersonalAI框架中的知識圖譜和普通的檢索增強生成（RAG）有什麼區別？

A：普通RAG就像把文檔撕成散頁堆在一起，找資訊時只能靠關鍵詞匹配取出孤立的片段，相互之間的聯繫斷掉了。PersonalAI的知識圖譜則把資訊組織成網狀結構，節點之間有明確的關係標註，還區分了三種記憶層次——具體概念、完整觀點陳述和原始文本片段，讓AI既能快速找到特定關係，也能理解複雜觀點的完整語境，更適合需要多步推理的複雜問題。

Q2：PersonalAI支持的六種檢索算法各有什麼適用場景？

A：WaterCircles速度最快（平均0.3分鐘），適合對響應時間要求高的場景，但精度相對有限。A*算法居中（約3.24分鐘），適合需要找最短關聯路徑的任務。BeamSearch最慢（約6.59分鐘），但在精細檢索上表現突出，缺點是對參數設置非常敏感。實驗結果顯示，對於大模型來說，BeamSearch與WaterCircles的組合是最穩定的選擇，兼顧了準確性和抗干擾能力。

贊助商廣告

Q3：PersonalAI框架里的"NoAnswer"機制是什麼，為什麼重要？

A：NoAnswer機制是在系統提示詞中加入的一條指令，要求AI在檢索到的資訊不足以回答問題時，輸出特定的"資訊不足"符號而非強行猜測。這個機制很重要，因為它能防止AI在沒有依據時生成錯誤但聽起來像真的答案。通過統計不同配置觸發這個機制的頻率，研究者可以判斷哪種檢索策略真正找到了有用資訊，從而輔助優化系統配置。