當AI助手「讀懂」你的習慣：韓陽大學團隊讓智能體真正記住你這個人

這項由韓國漢陽大學自然語言處理團隊完成的研究，以預印本形式於2026年4月發表在arXiv平台上，論文編號為arXiv:2604.17886v1。感興趣的讀者可以通過該編號檢索到完整論文原文。

贊助商廣告

你有沒有遇到過這樣的情況：你打開某個訂餐應用，每次都要重新告訴它"我要便宜的"；或者跟語音助手說"幫我訂個機票"，它卻問你要商務艙還是經濟艙——明明你過去一百次都選的經濟艙。這種體驗說明了一件事：現在的AI助手有記憶，卻沒有真正"認識"你。

漢陽大學的研究團隊正是從這個日常痛點出發，著手解決一個被忽視已久的問題：當用戶說出一句不完整的請求，AI能不能憑藉對你過去行為的理解，自動補上那些你沒說出口的細節？

這聽起來簡單，但做起來相當複雜。關鍵在於，人的偏好往往不是直接說出來的，而是藏在一次次選擇的背後。你點過三次廉價韓餐，又選了免費入場的公園，再加上一輛緊湊型租車——如果把這些行為連起來看，你其實是個注重性價比的人。但沒有任何一次對話里，你明確說過"我偏好低價"。研究團隊把這種隱而不顯的規律稱為"潛在偏好"，而讓AI學會識別和利用這種偏好，就是這篇論文的核心任務。

為了研究這個問題，團隊做了兩件事：一是建立了一個專門的測試數據集，叫做MPT（多會話個性化工具調用基準）；二是提出了一種新的方法，叫做PREFINE，用來幫助AI從過去的對話記錄中提煉出用戶的潛在偏好，並在未來的請求中加以應用。實驗結果顯示，PREFINE不僅提升了準確率，還只用了完整歷史記錄所需token數量的1.24%，極大節省了計算資源。

---

一、為什麼"記住你選過什麼"還不夠

在深入了解這項研究之前，有必要先理解一個根本性的區別：記住你做過的事，和理解你為什麼這麼做，是完全不同的兩件事。

以一個偵探破案的思路來理解這個問題。一個普通的記錄員只會把每個案發現場的情況抄下來，而一個真正的偵探會在多個案件之間找到共同規律，最終推斷出犯罪嫌疑人的行為動機。AI助手在處理用戶偏好時面臨同樣的挑戰：僅僅記錄"這次點了經濟艙"是記錄員的做法，而從多次出行記錄中推斷出"這個用戶總是傾向於省錢"，才是偵探的做法。

贊助商廣告

研究團隊發現，現有的AI記憶方法大多是"記錄員"。比如常見的RAG（檢索增強生成）方法，會把過去的對話原文存起來，用的時候檢索相關片段；Mem0和LangMem這類系統會把對話壓縮成簡短的事實性摘要。這些方法在處理簡單的重複性需求時還算夠用，但一旦遇到需要跨場景推斷的情況，就會露出破綻。

比如，如果用戶以前只有餐廳和出行的記錄，現在突然要訂酒店，過去的具體行為並不直接告訴AI該選幾星級酒店。但如果AI真的理解了這個人"骨子裡就是個省錢型用戶"，它自然會往低星級靠攏。這種從具體行為中抽象出普遍規律，再把規律應用到新情境的能力，就是研究團隊所定義的"潛在偏好建模"。

---

二、給"偏好"畫一張地圖：MPT數據集是怎麼建成的

要研究和測試AI對用戶偏好的理解能力，首先得有一個合適的考題集。研究團隊構建的MPT數據集，就像是為偵探能力考試設計的一套卷子，專門測試AI能否在複雜情境下推斷出用戶的隱性需求。

MPT建立在一個叫做SGD（Schema-Guided Dialogue，模式引導對話）的已有數據集之上。SGD包含了兩萬多個涵蓋20個生活服務領域的對話，包括餐廳預訂、機票購買、酒店入住、租車、景點遊覽等等。研究團隊從中挑選出適合的對話，把來自同一位虛擬用戶的多個單獨對話重新組合成"多會話歷史"，模擬一個真實用戶在不同時間、不同需求下與AI助手打交道的完整記錄。

接下來是最關鍵的一步：偏好標註。由於SGD本身並不帶有偏好標籤，研究團隊需要手動把各種API參數（也就是AI調用服務時填寫的選項，比如價格檔次、出行人數）歸類到更高層次的偏好類別里。他們設計了兩大偏好組：預算偏好和出行規模偏好。預算偏好又細分為"低消費"和"高消費"兩種，前者覆蓋的參數包括"價格檔次=便宜"、"是否免費入場=是"、"車型=緊湊型"、"艙位=經濟艙"等，後者則對應"價格檔次=高檔"、"車型=大型"、"酒店星級=四五星"等。出行規模偏好則區分了"獨行"和"多人同行"兩種模式。

贊助商廣告

這套標註體系的巧妙之處在於，它不是按照具體的欄位名稱來分類，而是按照行為背後的邏輯來劃分。換句話說，不管是在哪個服務領域、用哪個欄位名，只要這個選擇反映了"用戶想省錢"，就歸入同一類偏好。這使得這套分類體系可以跨越不同服務接口，具有很強的通用性。

為了驗證這套分類是否符合大眾認知，研究團隊還邀請了19位普通志願者參與標註驗證實驗。結果顯示，預算類別的一致率達到89.7%，出行規模類別更高達97.4%，統計學上的一致性係數（Fleiss' κ）分別為0.701（屬於"實質性一致"等級）和0.880（屬於"近乎完美一致"等級）。這證明研究團隊設計的偏好分類方式，確實和普通人的直覺高度吻合。

在構建測試題目時，團隊還刻意設計了兩種難度的問題：一種是"情境引導型"（Context-Guided），對話里已經給出了部分明確資訊，但某個關鍵參數沒說；另一種是"無情境型"（Context-Free），連明確資訊也沒有，完全靠用戶的歷史行為來猜測偏好。後者相當於考卷里的難題——用戶什麼都沒說，AI必須單憑"偵探檔案"來做出判斷。

最終，MPT包含265個多會話對話，涵蓋2020個單獨會話和近四萬輪對話，平均每個用戶有7.6個歷史會話，每個會話有19.7輪對話。數據集涵蓋332道"偏好回憶"題（用戶在同一領域反覆做了相同的選擇）、293道"偏好歸納"題（需要跨領域匯總線索），以及472道"偏好遷移"題（目標領域完全沒有先例，必須從其他領域的規律遷移過來）。

---

三、三種考題，考驗三種不同的偵探能力

研究團隊把用戶偏好的推斷難度分成了三個層次，每個層次都對應著偵探工作中的一種挑戰，理解這三種挑戰是讀懂這篇論文的關鍵。

第一種叫"偏好回憶"。以機票訂購為例，假設用戶過去的歷史記錄里有三次購買記錄，全都選了經濟艙。現在用戶又說"幫我訂一張機票"，AI需要填寫艙位欄位。這種情況下，偵探只需要翻翻同類型的舊檔案，找到一致的規律，直接照搬就行了。這是最簡單的一種，要求的是"記憶"而非"推斷"。

贊助商廣告

第二種叫"偏好歸納"。假設用戶從來沒有在飛機出行記錄里明確選過艙位，但是在餐廳選了便宜的韓餐，在景點選了免費公園，在租車時選了緊湊型車。現在AI面對的是一道綜合題：這些來自不同領域的節儉行為，能不能拼湊出一個"這個人傾向於低消費"的結論，並以此推斷他會選經濟艙？這要求偵探具備跨案件歸納的能力，從表面上看起來不相關的線索中找出共同模式。

第三種叫"偏好遷移"。難度再升一級：用戶不僅沒有在目標領域（比如機票）有過明確選擇，甚至連可以橫向類比的其他領域的選擇也很少。AI必須從極為有限的、跨域的行為證據出發，推斷出一個可以應用到全新場景的偏好，這如同偵探面對一個全新類型的案件，必須調用以往所有辦案經驗來做出判斷，而沒有任何直接相似的先例可以參考。

研究團隊發現，現有的AI記憶方法在第一種考題上表現尚可，但在第二、第三種考題上成績大幅下滑，甚至可以說是基本失敗。以最基礎的"全歷史提示"方法為例，在無情境題目中，偏好回憶的F1分數是53.19%，偏好歸納是43%，到了偏好遷移，只剩下16.26%。這個斷崖式的下滑說明了一件事：把歷史記錄全部塞給AI看，並不等於AI能真正理解用戶。

---

四、PREFINE：像培養一個真正了解你的助手

正是為了解決上述問題，研究團隊設計了PREFINE這套方法。如果說普通的記憶系統是一個把所有案卷堆在桌上的檔案員，PREFINE更像是一個經驗豐富的偵探，會不斷總結、修正自己對案件規律的判斷，並把結論寫成可以隨時調用的"行為畫像"。

PREFINE的工作方式可以用一個循環來理解：每當一次新的對話結束，偵探（也就是AI）會檢視這次對話里發生了什麼，嘗試提出一個新的假設來解釋用戶的行為；然後對這個假設進行自我審查，看它是否真的經得起推敲；如果不行，就修改這個假設，再檢查一遍。這個"提出假設→檢驗假設→修正假設"的過程，在論文裡被稱為"生成-驗證-精煉"循環（Generate-Verify-Refine Loop）。

贊助商廣告

具體來說，PREFINE的"提出假設"模組負責從當前的對話內容、用完的服務接口，以及之前積累的偏好記憶出發，生成一個對用戶偏好的新描述。這個描述不是具體的選項記錄，而是一種抽象的行為規律，比如"用戶傾向於在各類服務中選擇經濟實惠的選項"。

"檢驗假設"模組則扮演質疑者的角色，按照四條標準來判斷這個假設是否靠譜：第一，證據是否充分，也就是說這個假設是否由多次一致的行為來支撐；第二，抽象程度是否合適，不能只是把某一次具體選擇重新換個說法；第三，是否具有可操作性，這個假設必須能夠指導未來的具體選擇；第四，是否在時間上保持一致，如果用戶最近的行為改變了，不能還守著過時的結論。

如果檢驗通過，這個假設就存入記憶，作為用戶的當前"偏好畫像"。如果檢驗沒通過，"修正假設"模組會根據質疑意見調整描述，然後再過一遍檢驗，最多循環三次。論文中的一個例子展示了這個過程的細節：在看完第一次對話（用戶選了評分為6的電影）之後，AI最初提出"用戶偏好評分中等的電影"，但這被檢驗模組否決，認為這個描述過於具體且缺乏足夠依據；修改後變成"用戶偏好容易獲取的電影內容"，再次被否，認為對未來決策的指導意義不夠；第三次修改為"用戶對電影興趣有限"，這才通過了檢驗。隨著更多會話的加入，偏好描述逐漸演化為"用戶在各類服務中傾向於經濟實惠和簡單的選擇"，最終凝練為一句話的行為畫像存入記憶。

PREFINE還有一個關鍵設計：記憶內容是抽象的、與具體服務接口無關的語言描述，而不是某個特定服務欄位的值。這意味著，即便將來AI要調用的服務接口換了一套欄位名稱，甚至進入了以前完全沒見過的服務領域，之前積累的偏好記憶依然可以使用。在接入新接口時，AI會把抽象的偏好描述重新映射到新接口的具體欄位上。論文對這一特性專門做了驗證，在七個全新服務領域（包括露營地預訂、城市旅遊、烹飪課程、健身課、滑雪通票、停車場和主題公園）上測試了PREFINE的表現，這些領域在訓練時從未出現過，欄位名稱也完全不同。結果顯示，使用GPT-5作為推理模型時，情境引導型題目的精確匹配率從3.75%躍升至47.00%，無情境型題目的F1分數從36.39%提升至51.45%，證明PREFINE的記憶內容具有真正意義上的跨域遷移能力。

贊助商廣告

---

五、數字背後的故事：實驗結果說明了什麼

研究團隊用MPT數據集對多種方法進行了系統性對比實驗，參與對比的推理模型涵蓋從輕量級到旗艦級的多個檔次，包括CodeGemma-7B、Gemma-3-12B、R1-Distill-Llama-8B、R1-Distill-Qwen-7B、GPT-4o-mini、GPT-5-mini、GPT-5以及Gemini-3-Flash。對比的基準方法則包括直接提供全部歷史記錄的"全歷史提示"方式，以及RAG、Mem0、LangMem三種記憶增強方法。

在情境引導型題目上，PREFINE在偏好精確匹配率（P-EM，衡量AI是否填對了那些沒說出口的關鍵參數）方面平均比全歷史提示方式高出約13個百分點。在更難的無情境型題目上，PREFINE在偏好推斷F1分數方面平均提升幅度約為3.4個百分點，在偏好歸納類別上提升9個百分點。

RAG方法在偏好回憶類題目上表現尚可（精確匹配率達到50.6%），但在偏好歸納和偏好遷移上明顯掉隊。LangMem在回憶類題目上甚至達到64.4%，但同樣無法保持這種優勢在更難的題目上延續。這印證了研究團隊的核心判斷：現有方法擅長的是表面記錄，而非深層推斷。

內存效率方面的對比數據同樣引人關注。全歷史提示方法平均每個用戶需要使用1883.57個token來儲存記憶內容；LangMem需要209.22個；RAG需要133.58個；Mem0需要119.87個；而PREFINE只需要23.28個，僅相當於全歷史方式的1.24%。更值得注意的是，隨著會話數量不斷增加，全歷史提示所需的token量持續攀升，到第十個會話已經需要2812個token；而PREFINE的記憶大小幾乎保持不變，始終在20到25個token左右徘徊。這是因為PREFINE儲存的不是原始記錄，而是精煉後的行為規律，新的會話只會更新和完善這條規律，而不會疊加新的原始內容。

研究團隊還分析了PREFINE對AI預測行為的另一個改善：參數數量的校準。API調用不僅要填對值，還要判斷應該填幾個參數——既不能多填不必要的欄位（增加誤判風險），也不能少填必要的欄位（導致服務執行失敗）。研究發現，使用全歷史提示方法時，AI預測的參數數量與真實所需參數數量之間的平均絕對偏差為0.77（情境引導型）和1.08（無情境型）；使用PREFINE之後，這個偏差分別降至0.56和0.77，對應減少28.1%和28.7%。換句話說，PREFINE讓AI在決定"該填什麼"的同時，也更清楚地知道"該填多少"。

贊助商廣告

實驗中也誠實地指出了PREFINE並非對所有模型都表現出均勻的增益。對於R1-Distill-Llama-8B這類本就傾向於低估參數數量的模型，PREFINE進一步收緊行動空間的效果反而導致它填寫的參數更少，EA-F1（明確參數的填寫準確率）出現了輕微下降。研究團隊認為，這不是PREFINE的根本缺陷，而是一個可預期的權衡：更精準的範圍限定會在某些情況下以召回率換取精確率。

---

六、PREFINE和它的競爭對手到底有何不同

在進一步理解PREFINE為何有效之前，有必要把它與其他幾種記憶方法做一個更細緻的比較，就像偵探事務所里不同流派的工作方式一樣。

RAG（檢索增強生成）的工作方式是把所有歷史對話的原文存檔，需要時根據當前問題找出最相近的幾段歷史內容。這就像一個檔案館員工，每次接待客戶都去翻閱原始文件，按相關性排序後呈上。它的問題在於，原始文件里充滿了細節噪音，而且相關性判斷依賴文字表面的相似性，不涉及行為規律的理解。

Mem0的方式則是把歷史對話壓縮成簡短的事實陳述，比如"用戶訂了經濟艙"、"用戶選了便宜餐廳"，然後儲存這些摘要事實，檢索時找出最匹配的幾條。問題在於，這些仍然是具體行為的記錄，而不是行為背後的規律。

LangMem更進一步，它會用AI把歷史資訊整理成結構化的知識，包括語義類（關於用戶偏好的描述）、情節類（特定事件記錄）和程序類（用戶的操作習慣）三種類型。它比Mem0更接近"理解"，但仍然主要以"已知事實"的形式儲存，缺乏動態驗證和跨域抽象的機制。

PREFINE的獨特之處在於，它儲存的不是"用戶做了什麼"，而是"用戶為什麼這麼做的抽象規律"；不是一堆事實記錄，而是一條經過多輪驗證、反覆修正的行為假設。這條假設足夠抽象，可以跨越服務領域；足夠精練，僅需一句話就能表達；又足夠可操作，可以直接指導具體的參數填寫。研究團隊把這種記憶形式總結為"可修訂的偏好假設"，強調了它的動態性和可操作性，這是其他方法所不具備的特徵。

贊助商廣告

---

說到底，這項研究揭示了一個關於AI個性化的根本問題：真正了解一個人，不是記住他做過什麼，而是明白他為什麼這麼做。

現在的AI助手在記憶層面已經不短缺了，RAG可以存很多，Mem0可以存很多，LangMem也可以存很多。但研究團隊的實驗結果清楚地說明，存的越多不等於懂的越多。一個把用戶所有歷史記錄都塞進來的AI，在面對新的、跨域的偏好推斷時，表現甚至不如一個把歷史行為提煉成一句精準結論的AI。

PREFINE的思路給出了一個值得關注的方向：與其讓AI背誦你的選擇清單，不如讓它學會識別你行為背後的邏輯。這種邏輯一旦被準確提煉出來，不僅適用於你曾經使用過的服務，也適用於你將來第一次使用的任何新服務。這意味著什麼？意味著一個真正"懂你"的AI助手，在你第一次訂豪華露營套餐時，就能根據你過去一貫的省錢習慣，自動推薦標準帳篷而不是豪華木屋，而不需要你再次解釋"我就是不想花太多錢"。

當然，這項研究也有很多尚未解決的問題。目前MPT的偏好類別還比較有限，現實中人的偏好要複雜得多，而且會隨時間演變。同一個人在不同時期、不同情緒下的選擇可能截然不同。此外，真實用戶的歷史記錄往往更加雜亂，充滿噪音和矛盾。研究團隊自己也指出，未來的工作需要擴展到更豐富的偏好分類、能夠隨時間演化的偏好建模，以及應對更長、更嘈雜的交互歷史。

對於普通用戶來說，這項研究帶來的啟示是：未來的AI助手可能會越來越少地問你"你想要什麼"，而是越來越多地根據對你這個人的理解，主動給出恰當的建議。不過，這也引出了一個值得思考的問題：你願意讓AI助手以這種方式"了解"你嗎？當AI不再只是一個工具，而是一個真正記住你行為規律的"同伴"，你會如何看待這種關係？

有興趣深入了解的讀者可以通過arXiv編號2604.17886查閱完整論文，同時MPT數據集和PREFINE代碼均已開源，分別發布在HuggingFace的HYU-NLP/MPT項目和GitHub的HYU-NLP/PRefine倉庫中。

贊助商廣告

---

Q&A

Q1：MPT基準數據集中的"偏好歸納"和"偏好遷移"有什麼區別？

A：偏好歸納要求AI從多個不同領域的行為中找出共同規律，比如用戶在餐廳、景點和租車時都選便宜的選項，AI需要歸納出"用戶偏好低消費"這一抽象規律，並用它來預測新情境下的選擇。偏好遷移則更難，目標領域裡沒有任何直接的歷史證據，必須把從其他領域總結出的規律直接套用到一個全新的服務上，相當於零先例情況下的推斷。

Q2：PREFINE的"生成-驗證-精煉"循環具體是怎麼運作的？

A：每當一輪新對話結束，PREFINE會先生成一個對用戶偏好的抽象描述，然後用四條標準來驗證：證據是否充分、抽象程度是否合適、是否能指導未來選擇、是否與最新行為一致。驗證通過則存入記憶；不通過則根據反饋修改描述，重新驗證，最多循環三次。最終儲存的是一句精煉的行為規律描述，而非具體的選項記錄。

Q3：PREFINE的記憶內容為什麼能在服務接口更換後依然有效？

A：因為PREFINE儲存的是抽象的行為規律描述，比如"用戶傾向於在各類服務中選擇經濟實惠的選項"，而不是某個特定服務欄位的具體值。在使用新的服務接口時，AI會把這條抽象描述重新映射到新接口的具體欄位上。實驗中使用了七個全新服務領域進行驗證，欄位名稱與訓練時完全不同，結果依然保持了明顯的性能優勢。