這項由韓國漢陽大學自然語言處理團隊完成的研究,以預印本形式於2026年4月發表在arXiv平台上,論文編號為arXiv:2604.17886v1。感興趣的讀者可以通過該編號檢索到完整論文原文。
你有沒有遇到過這樣的情況:你打開某個訂餐應用,每次都要重新告訴它"我要便宜的";或者跟語音助手說"幫我訂個機票",它卻問你要商務艙還是經濟艙——明明你過去一百次都選的經濟艙。這種體驗說明了一件事:現在的AI助手有記憶,卻沒有真正"認識"你。
漢陽大學的研究團隊正是從這個日常痛點出發,著手解決一個被忽視已久的問題:當用戶說出一句不完整的請求,AI能不能憑藉對你過去行為的理解,自動補上那些你沒說出口的細節?
這聽起來簡單,但做起來相當複雜。關鍵在於,人的偏好往往不是直接說出來的,而是藏在一次次選擇的背後。你點過三次廉價韓餐,又選了免費入場的公園,再加上一輛緊湊型租車——如果把這些行為連起來看,你其實是個注重性價比的人。但沒有任何一次對話里,你明確說過"我偏好低價"。研究團隊把這種隱而不顯的規律稱為"潛在偏好",而讓AI學會識別和利用這種偏好,就是這篇論文的核心任務。
為了研究這個問題,團隊做了兩件事:一是建立了一個專門的測試數據集,叫做MPT(多會話個性化工具調用基準);二是提出了一種新的方法,叫做PREFINE,用來幫助AI從過去的對話記錄中提煉出用戶的潛在偏好,並在未來的請求中加以應用。實驗結果顯示,PREFINE不僅提升了準確率,還只用了完整歷史記錄所需token數量的1.24%,極大節省了計算資源。
---
一、為什麼"記住你選過什麼"還不夠
在深入了解這項研究之前,有必要先理解一個根本性的區別:記住你做過的事,和理解你為什麼這麼做,是完全不同的兩件事。
以一個偵探破案的思路來理解這個問題。一個普通的記錄員只會把每個案發現場的情況抄下來,而一個真正的偵探會在多個案件之間找到共同規律,最終推斷出犯罪嫌疑人的行為動機。AI助手在處理用戶偏好時面臨同樣的挑戰:僅僅記錄"這次點了經濟艙"是記錄員的做法,而從多次出行記錄中推斷出"這個用戶總是傾向於省錢",才是偵探的做法。
研究團隊發現,現有的AI記憶方法大多是"記錄員"。比如常見的RAG(檢索增強生成)方法,會把過去的對話原文存起來,用的時候檢索相關片段;Mem0和LangMem這類系統會把對話壓縮成簡短的事實性摘要。這些方法在處理簡單的重複性需求時還算夠用,但一旦遇到需要跨場景推斷的情況,就會露出破綻。
比如,如果用戶以前只有餐廳和出行的記錄,現在突然要訂酒店,過去的具體行為並不直接告訴AI該選幾星級酒店。但如果AI真的理解了這個人"骨子裡就是個省錢型用戶",它自然會往低星級靠攏。這種從具體行為中抽象出普遍規律,再把規律應用到新情境的能力,就是研究團隊所定義的"潛在偏好建模"。
---
二、給"偏好"畫一張地圖:MPT數據集是怎麼建成的
要研究和測試AI對用戶偏好的理解能力,首先得有一個合適的考題集。研究團隊構建的MPT數據集,就像是為偵探能力考試設計的一套卷子,專門測試AI能否在複雜情境下推斷出用戶的隱性需求。
MPT建立在一個叫做SGD(Schema-Guided Dialogue,模式引導對話)的已有數據集之上。SGD包含了兩萬多個涵蓋20個生活服務領域的對話,包括餐廳預訂、機票購買、酒店入住、租車、景點遊覽等等。研究團隊從中挑選出適合的對話,把來自同一位虛擬用戶的多個單獨對話重新組合成"多會話歷史",模擬一個真實用戶在不同時間、不同需求下與AI助手打交道的完整記錄。
接下來是最關鍵的一步:偏好標註。由於SGD本身並不帶有偏好標籤,研究團隊需要手動把各種API參數(也就是AI調用服務時填寫的選項,比如價格檔次、出行人數)歸類到更高層次的偏好類別里。他們設計了兩大偏好組:預算偏好和出行規模偏好。預算偏好又細分為"低消費"和"高消費"兩種,前者覆蓋的參數包括"價格檔次=便宜"、"是否免費入場=是"、"車型=緊湊型"、"艙位=經濟艙"等,後者則對應"價格檔次=高檔"、"車型=大型"、"酒店星級=四五星"等。出行規模偏好則區分了"獨行"和"多人同行"兩種模式。
這套標註體系的巧妙之處在於,它不是按照具體的欄位名稱來分類,而是按照行為背後的邏輯來劃分。換句話說,不管是在哪個服務領域、用哪個欄位名,只要這個選擇反映了"用戶想省錢",就歸入同一類偏好。這使得這套分類體系可以跨越不同服務接口,具有很強的通用性。
為了驗證這套分類是否符合大眾認知,研究團隊還邀請了19位普通志願者參與標註驗證實驗。結果顯示,預算類別的一致率達到89.7%,出行規模類別更高達97.4%,統計學上的一致性係數(Fleiss' κ)分別為0.701(屬於"實質性一致"等級)和0.880(屬於"近乎完美一致"等級)。這證明研究團隊設計的偏好分類方式,確實和普通人的直覺高度吻合。
在構建測試題目時,團隊還刻意設計了兩種難度的問題:一種是"情境引導型"(Context-Guided),對話里已經給出了部分明確資訊,但某個關鍵參數沒說;另一種是"無情境型"(Context-Free),連明確資訊也沒有,完全靠用戶的歷史行為來猜測偏好。後者相當於考卷里的難題——用戶什麼都沒說,AI必須單憑"偵探檔案"來做出判斷。
最終,MPT包含265個多會話對話,涵蓋2020個單獨會話和近四萬輪對話,平均每個用戶有7.6個歷史會話,每個會話有19.7輪對話。數據集涵蓋332道"偏好回憶"題(用戶在同一領域反覆做了相同的選擇)、293道"偏好歸納"題(需要跨領域匯總線索),以及472道"偏好遷移"題(目標領域完全沒有先例,必須從其他領域的規律遷移過來)。
---
三、三種考題,考驗三種不同的偵探能力
研究團隊把用戶偏好的推斷難度分成了三個層次,每個層次都對應著偵探工作中的一種挑戰,理解這三種挑戰是讀懂這篇論文的關鍵。
第一種叫"偏好回憶"。以機票訂購為例,假設用戶過去的歷史記錄里有三次購買記錄,全都選了經濟艙。現在用戶又說"幫我訂一張機票",AI需要填寫艙位欄位。這種情況下,偵探只需要翻翻同類型的舊檔案,找到一致的規律,直接照搬就行了。這是最簡單的一種,要求的是"記憶"而非"推斷"。
第二種叫"偏好歸納"。假設用戶從來沒有在飛機出行記錄里明確選過艙位,但是在餐廳選了便宜的韓餐,在景點選了免費公園,在租車時選了緊湊型車。現在AI面對的是一道綜合題:這些來自不同領域的節儉行為,能不能拼湊出一個"這個人傾向於低消費"的結論,並以此推斷他會選經濟艙?這要求偵探具備跨案件歸納的能力,從表面上看起來不相關的線索中找出共同模式。
第三種叫"偏好遷移"。難度再升一級:用戶不僅沒有在目標領域(比如機票)有過明確選擇,甚至連可以橫向類比的其他領域的選擇也很少。AI必須從極為有限的、跨域的行為證據出發,推斷出一個可以應用到全新場景的偏好,這如同偵探面對一個全新類型的案件,必須調用以往所有辦案經驗來做出判斷,而沒有任何直接相似的先例可以參考。
研究團隊發現,現有的AI記憶方法在第一種考題上表現尚可,但在第二、第三種考題上成績大幅下滑,甚至可以說是基本失敗。以最基礎的"全歷史提示"方法為例,在無情境題目中,偏好回憶的F1分數是53.19%,偏好歸納是43%,到了偏好遷移,只剩下16.26%。這個斷崖式的下滑說明了一件事:把歷史記錄全部塞給AI看,並不等於AI能真正理解用戶。
---
四、PREFINE:像培養一個真正了解你的助手
正是為了解決上述問題,研究團隊設計了PREFINE這套方法。如果說普通的記憶系統是一個把所有案卷堆在桌上的檔案員,PREFINE更像是一個經驗豐富的偵探,會不斷總結、修正自己對案件規律的判斷,並把結論寫成可以隨時調用的"行為畫像"。
PREFINE的工作方式可以用一個循環來理解:每當一次新的對話結束,偵探(也就是AI)會檢視這次對話里發生了什麼,嘗試提出一個新的假設來解釋用戶的行為;然後對這個假設進行自我審查,看它是否真的經得起推敲;如果不行,就修改這個假設,再檢查一遍。這個"提出假設→檢驗假設→修正假設"的過程,在論文裡被稱為"生成-驗證-精煉"循環(Generate-Verify-Refine Loop)。
具體來說,PREFINE的"提出假設"模組負責從當前的對話內容、用完的服務接口,以及之前積累的偏好記憶出發,生成一個對用戶偏好的新描述。這個描述不是具體的選項記錄,而是一種抽象的行為規律,比如"用戶傾向於在各類服務中選擇經濟實惠的選項"。
"檢驗假設"模組則扮演質疑者的角色,按照四條標準來判斷這個假設是否靠譜:第一,證據是否充分,也就是說這個假設是否由多次一致的行為來支撐;第二,抽象程度是否合適,不能只是把某一次具體選擇重新換個說法;第三,是否具有可操作性,這個假設必須能夠指導未來的具體選擇;第四,是否在時間上保持一致,如果用戶最近的行為改變了,不能還守著過時的結論。
如果檢驗通過,這個假設就存入記憶,作為用戶的當前"偏好畫像"。如果檢驗沒通過,"修正假設"模組會根據質疑意見調整描述,然後再過一遍檢驗,最多循環三次。論文中的一個例子展示了這個過程的細節:在看完第一次對話(用戶選了評分為6的電影)之後,AI最初提出"用戶偏好評分中等的電影",但這被檢驗模組否決,認為這個描述過於具體且缺乏足夠依據;修改後變成"用戶偏好容易獲取的電影內容",再次被否,認為對未來決策的指導意義不夠;第三次修改為"用戶對電影興趣有限",這才通過了檢驗。隨著更多會話的加入,偏好描述逐漸演化為"用戶在各類服務中傾向於經濟實惠和簡單的選擇",最終凝練為一句話的行為畫像存入記憶。
PREFINE還有一個關鍵設計:記憶內容是抽象的、與具體服務接口無關的語言描述,而不是某個特定服務欄位的值。這意味著,即便將來AI要調用的服務接口換了一套欄位名稱,甚至進入了以前完全沒見過的服務領域,之前積累的偏好記憶依然可以使用。在接入新接口時,AI會把抽象的偏好描述重新映射到新接口的具體欄位上。論文對這一特性專門做了驗證,在七個全新服務領域(包括露營地預訂、城市旅遊、烹飪課程、健身課、滑雪通票、停車場和主題公園)上測試了PREFINE的表現,這些領域在訓練時從未出現過,欄位名稱也完全不同。結果顯示,使用GPT-5作為推理模型時,情境引導型題目的精確匹配率從3.75%躍升至47.00%,無情境型題目的F1分數從36.39%提升至51.45%,證明PREFINE的記憶內容具有真正意義上的跨域遷移能力。
---
五、數字背後的故事:實驗結果說明了什麼
研究團隊用MPT數據集對多種方法進行了系統性對比實驗,參與對比的推理模型涵蓋從輕量級到旗艦級的多個檔次,包括CodeGemma-7B、Gemma-3-12B、R1-Distill-Llama-8B、R1-Distill-Qwen-7B、GPT-4o-mini、GPT-5-mini、GPT-5以及Gemini-3-Flash。對比的基準方法則包括直接提供全部歷史記錄的"全歷史提示"方式,以及RAG、Mem0、LangMem三種記憶增強方法。
在情境引導型題目上,PREFINE在偏好精確匹配率(P-EM,衡量AI是否填對了那些沒說出口的關鍵參數)方面平均比全歷史提示方式高出約13個百分點。在更難的無情境型題目上,PREFINE在偏好推斷F1分數方面平均提升幅度約為3.4個百分點,在偏好歸納類別上提升9個百分點。
RAG方法在偏好回憶類題目上表現尚可(精確匹配率達到50.6%),但在偏好歸納和偏好遷移上明顯掉隊。LangMem在回憶類題目上甚至達到64.4%,但同樣無法保持這種優勢在更難的題目上延續。這印證了研究團隊的核心判斷:現有方法擅長的是表面記錄,而非深層推斷。
內存效率方面的對比數據同樣引人關注。全歷史提示方法平均每個用戶需要使用1883.57個token來儲存記憶內容;LangMem需要209.22個;RAG需要133.58個;Mem0需要119.87個;而PREFINE只需要23.28個,僅相當於全歷史方式的1.24%。更值得注意的是,隨著會話數量不斷增加,全歷史提示所需的token量持續攀升,到第十個會話已經需要2812個token;而PREFINE的記憶大小幾乎保持不變,始終在20到25個token左右徘徊。這是因為PREFINE儲存的不是原始記錄,而是精煉後的行為規律,新的會話只會更新和完善這條規律,而不會疊加新的原始內容。
研究團隊還分析了PREFINE對AI預測行為的另一個改善:參數數量的校準。API調用不僅要填對值,還要判斷應該填幾個參數——既不能多填不必要的欄位(增加誤判風險),也不能少填必要的欄位(導致服務執行失敗)。研究發現,使用全歷史提示方法時,AI預測的參數數量與真實所需參數數量之間的平均絕對偏差為0.77(情境引導型)和1.08(無情境型);使用PREFINE之後,這個偏差分別降至0.56和0.77,對應減少28.1%和28.7%。換句話說,PREFINE讓AI在決定"該填什麼"的同時,也更清楚地知道"該填多少"。
實驗中也誠實地指出了PREFINE並非對所有模型都表現出均勻的增益。對於R1-Distill-Llama-8B這類本就傾向於低估參數數量的模型,PREFINE進一步收緊行動空間的效果反而導致它填寫的參數更少,EA-F1(明確參數的填寫準確率)出現了輕微下降。研究團隊認為,這不是PREFINE的根本缺陷,而是一個可預期的權衡:更精準的範圍限定會在某些情況下以召回率換取精確率。
---
六、PREFINE和它的競爭對手到底有何不同
在進一步理解PREFINE為何有效之前,有必要把它與其他幾種記憶方法做一個更細緻的比較,就像偵探事務所里不同流派的工作方式一樣。
RAG(檢索增強生成)的工作方式是把所有歷史對話的原文存檔,需要時根據當前問題找出最相近的幾段歷史內容。這就像一個檔案館員工,每次接待客戶都去翻閱原始文件,按相關性排序後呈上。它的問題在於,原始文件里充滿了細節噪音,而且相關性判斷依賴文字表面的相似性,不涉及行為規律的理解。
Mem0的方式則是把歷史對話壓縮成簡短的事實陳述,比如"用戶訂了經濟艙"、"用戶選了便宜餐廳",然後儲存這些摘要事實,檢索時找出最匹配的幾條。問題在於,這些仍然是具體行為的記錄,而不是行為背後的規律。
LangMem更進一步,它會用AI把歷史資訊整理成結構化的知識,包括語義類(關於用戶偏好的描述)、情節類(特定事件記錄)和程序類(用戶的操作習慣)三種類型。它比Mem0更接近"理解",但仍然主要以"已知事實"的形式儲存,缺乏動態驗證和跨域抽象的機制。
PREFINE的獨特之處在於,它儲存的不是"用戶做了什麼",而是"用戶為什麼這麼做的抽象規律";不是一堆事實記錄,而是一條經過多輪驗證、反覆修正的行為假設。這條假設足夠抽象,可以跨越服務領域;足夠精練,僅需一句話就能表達;又足夠可操作,可以直接指導具體的參數填寫。研究團隊把這種記憶形式總結為"可修訂的偏好假設",強調了它的動態性和可操作性,這是其他方法所不具備的特徵。
---
說到底,這項研究揭示了一個關於AI個性化的根本問題:真正了解一個人,不是記住他做過什麼,而是明白他為什麼這麼做。
現在的AI助手在記憶層面已經不短缺了,RAG可以存很多,Mem0可以存很多,LangMem也可以存很多。但研究團隊的實驗結果清楚地說明,存的越多不等於懂的越多。一個把用戶所有歷史記錄都塞進來的AI,在面對新的、跨域的偏好推斷時,表現甚至不如一個把歷史行為提煉成一句精準結論的AI。
PREFINE的思路給出了一個值得關注的方向:與其讓AI背誦你的選擇清單,不如讓它學會識別你行為背後的邏輯。這種邏輯一旦被準確提煉出來,不僅適用於你曾經使用過的服務,也適用於你將來第一次使用的任何新服務。這意味著什麼?意味著一個真正"懂你"的AI助手,在你第一次訂豪華露營套餐時,就能根據你過去一貫的省錢習慣,自動推薦標準帳篷而不是豪華木屋,而不需要你再次解釋"我就是不想花太多錢"。
當然,這項研究也有很多尚未解決的問題。目前MPT的偏好類別還比較有限,現實中人的偏好要複雜得多,而且會隨時間演變。同一個人在不同時期、不同情緒下的選擇可能截然不同。此外,真實用戶的歷史記錄往往更加雜亂,充滿噪音和矛盾。研究團隊自己也指出,未來的工作需要擴展到更豐富的偏好分類、能夠隨時間演化的偏好建模,以及應對更長、更嘈雜的交互歷史。
對於普通用戶來說,這項研究帶來的啟示是:未來的AI助手可能會越來越少地問你"你想要什麼",而是越來越多地根據對你這個人的理解,主動給出恰當的建議。不過,這也引出了一個值得思考的問題:你願意讓AI助手以這種方式"了解"你嗎?當AI不再只是一個工具,而是一個真正記住你行為規律的"同伴",你會如何看待這種關係?
有興趣深入了解的讀者可以通過arXiv編號2604.17886查閱完整論文,同時MPT數據集和PREFINE代碼均已開源,分別發布在HuggingFace的HYU-NLP/MPT項目和GitHub的HYU-NLP/PRefine倉庫中。
---
Q&A
Q1:MPT基準數據集中的"偏好歸納"和"偏好遷移"有什麼區別?
A:偏好歸納要求AI從多個不同領域的行為中找出共同規律,比如用戶在餐廳、景點和租車時都選便宜的選項,AI需要歸納出"用戶偏好低消費"這一抽象規律,並用它來預測新情境下的選擇。偏好遷移則更難,目標領域裡沒有任何直接的歷史證據,必須把從其他領域總結出的規律直接套用到一個全新的服務上,相當於零先例情況下的推斷。
Q2:PREFINE的"生成-驗證-精煉"循環具體是怎麼運作的?
A:每當一輪新對話結束,PREFINE會先生成一個對用戶偏好的抽象描述,然後用四條標準來驗證:證據是否充分、抽象程度是否合適、是否能指導未來選擇、是否與最新行為一致。驗證通過則存入記憶;不通過則根據反饋修改描述,重新驗證,最多循環三次。最終儲存的是一句精煉的行為規律描述,而非具體的選項記錄。
Q3:PREFINE的記憶內容為什麼能在服務接口更換後依然有效?
A:因為PREFINE儲存的是抽象的行為規律描述,比如"用戶傾向於在各類服務中選擇經濟實惠的選項",而不是某個特定服務欄位的具體值。在使用新的服務接口時,AI會把這條抽象描述重新映射到新接口的具體欄位上。實驗中使用了七個全新服務領域進行驗證,欄位名稱與訓練時完全不同,結果依然保持了明顯的性能優勢。






