這項由韓國成均館大學(Sungkyunkwan University)研究團隊完成的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.24614,有興趣深入了解的讀者可以通過該編號查詢完整論文。
**一個讓人細思極恐的問題**
假設你是一家公司的HR,雇了一名新員工,但後來發現他曾接觸過某些不該知道的機密。你只好對他進行"脫敏培訓",反覆告訴他那些資訊是錯誤的、不存在的,並在他的考核中要求他表現出"什麼都不知道"的樣子。培訓結束,他在考核中的確答不上那些問題了。但你能確定,他腦子裡真的把那些資訊抹掉了嗎?還是說,他只是學會了在考試時假裝忘記,實際上知識還在,隨時可以被人用一點小手段喚醒?
這個場景,正是當下大語言模型(也就是像ChatGPT這樣的AI)面臨的真實困境。這些模型在訓練時吞噬了海量數據,其中可能包括個人隱私、危險知識,甚至各種敏感資訊。當需要"抹掉"這些知識時,研究者會對模型進行一種叫做"機器遺忘
"(machine unlearning)的操作——讓模型在面對相關問題時表現得好像從未學過一樣。
問題在於,現有的檢驗手段基本上都是在看模型的"答卷表現",也就是看它的輸出。如果模型在回答問題時不再能給出那些被遺忘的資訊,人們就認為遺忘成功了。但這就像只看員工的考試成績來判斷他是否真的忘記了機密——而沒有去檢查他的大腦內部。
成均館大學的研究團隊正是意識到了這個漏洞,才開發出了一套全新的"內部體檢"工具,也就是這篇論文的核心:**遺忘深度評分
(Unlearning Depth Score,簡稱UDS)**。
**一、為什麼AI"假裝忘記"是個真實威脅**
要理解這項研究的意義,先得弄清楚"機器遺忘"到底是怎麼回事,以及它為什麼會失敗。
大語言模型的訓練過程,可以理解成讓一個學生把一座圖書館裡的書全部讀完,並把知識編織進自己的神經網路里。這個過程一旦完成,要想讓他"忘記"其中某一本書的內容,就變得異常困難——因為那些知識早已和其他知識交織在一起,藏在了大腦的各個角落。
目前主流的遺忘方法大體上可以分為幾類。有的方法通過"梯度上升"讓模型在看到需要遺忘的內容時產生更大的錯誤,從而降低它輸出正確答案的概率;有的方法訓練模型遇到相關問題時回答"我不知道";還有的方法直接在模型內部的中間表示層(可以理解為大腦的某個處理區域)注入隨機干擾,讓模型的計算路徑偏離原來儲存知識的方向。
這些方法在表面測試上往往能取得不錯的成績,但已有研究表明,經過輕量級的再訓練之後,那些"被遺忘"的知識可以迅速復甦。也就是說,遺忘操作可能只是改變了模型的"輸出習慣",並沒有真正觸及內部儲存知識的層。模型就像那位接受了脫敏培訓的員工——表面上答不上來,實際上一點小刺激就能讓記憶回來。
**二、傳統檢驗方法的盲點**
現有的遺忘評估指標,基本上都是"輸出層面"的測量。比較常見的有以下幾類。
提取強度(Extraction Strength)測量的是:讓模型自由生成文本時,能提取出多少原始內容。精確記憶(Exact Memorization)看的是模型生成的詞是否和原始答案一字不差地對上。概率類指標(Probability)測的是模型給出正確答案的概率有多高。ROUGE分數衡量的是模型生成文本和原始答案之間的詞彙重疊程度。此外還有一類叫做成員推斷攻擊(Membership Inference Attack,MIA)的隱私檢測手段,它的思路是:如果一個數據是模型訓練集裡的,那模型對它的"熟悉感"(體現為損失函數的值)應該和測試數據不同,通過這種統計差異來推斷模型是否見過這條數據。
這些方法的共同問題在於,它們都是在觀察模型的輸出,而不是在觀察模型的內部計算過程。當一個遺忘方法成功地改變了模型的輸出分布,但並沒有真正抹去內部的知識表示時,這些指標就會被"欺騙",給出遺忘成功的假陽性判斷。
研究團隊把這種現象稱為"表示漂移
"(representational shift)——模型的內部向量空間被扭曲或旋轉了,導致從固定的解碼頭來讀取這些向量時,看起來知識消失了,但實際上知識還以某種變形的方式存在著,只要用合適的方式還原這個扭曲,資訊依然觸手可及。
**三、借鑑大腦神經科學:激活補丁技術
**
UDS的核心思路來自於一種叫做"激活補丁"(activation patching)的技術,這個技術原本用於研究大語言模型是如何儲存和檢索事實的。
用一個比喻來說明這個技術的原理:大語言模型就像一條流水線上的工廠,原材料(輸入的文字)從第一個工作站(第一層)進入,經過一道道加工(每一層神經網路的變換),最終在最後一個工作站(輸出層)變成成品(模型的回答)。每個工作站都會在中間產品(也就是所謂的"隱藏狀態"或"殘差流")上打上自己的烙印,傳遞給下一個工作站。
激活補丁技術的做法是:在工廠A(比如經過完整訓練的全量模型)運行到某個特定工作站時,強行把工廠B(比如只用保留數據訓練的保留模型)在同一工作站產出的中間產品替換進來,然後讓後續工作站繼續用工廠A的機器加工這個被替換的中間產品,看看最終的成品會發生什麼變化。
如果替換後成品質量大幅下降(即模型預測目標詞的概率急劇降低),就說明那個特定工作站在工廠A中處理了某種工廠B所沒有的特殊資訊——也就是說,那一層儲存了某種"被遺忘知識"獨有的內容。反之,如果替換後成品基本沒變,說明那一層對於區分兩種模型並不重要。
**四、UDS的兩階段工作流程**
理解了激活補丁的原理,就能理解UDS是如何工作的了。整個評分流程分為兩個階段,可以類比為"找出哪些工作站有獨家配方"和"檢查遺忘後這些配方是否真的被換掉"。
在第一階段,也就是"基準建立"階段,研究團隊使用三個模型:全量模型(Mfull,用包含需要遺忘數據在內的全部數據訓練)、保留模型(Mret,只用保留數據訓練,相當於"從未見過那些需要被遺忘資訊的理想版本")、以及被評估的遺忘模型(Munl,對全量模型施加了遺忘操作後得到的版本)。
這一階段的操作是:把保留模型(Mret)在某一層產生的中間產品,替換進全量模型(Mfull)的同一層,然後觀察全量模型預測"應該被遺忘的目標詞"的對數概率下降了多少。如果下降很大,說明全量模型在這一層儲存了保留模型所沒有的、關於目標知識的專屬資訊。研究團隊把這種層稱為"知識編碼層
"(Knowledge-Encoding layers,簡稱KE層),只有下降超過0.05這個閾值的層才會被納入後續計算。
在第二階段,也就是"量化遺忘"階段,操作完全相同,只是這次把替換的來源換成了遺忘模型(Munl)。同樣是替換某一層的中間產品到全量模型里,觀察預測概率的下降幅度。
這兩個階段的邏輯是:如果遺忘操作真的在某一層徹底抹去了目標知識,那麼用遺忘模型的中間產品替換進全量模型後,全量模型應該同樣"找不到"那些知識,概率下降應該和用保留模型替換時一樣大。如果遺忘不徹底,那麼遺忘模型的中間產品里還殘留著知識信號,全量模型後續的計算層能夠從中恢復資訊,概率下降就會比保留模型替換時小得多。
**五、從層級到單一評分的計算邏輯**
有了兩個階段的數據,研究團隊就可以為每一個知識編碼層計算一個"層級遺忘比率"(Layer Erasure Ratio,LER):用第二階段的概率下降值除以第一階段的概率下降值,再把結果截斷到0到1之間。
這個比率的含義很直觀:0分代表遺忘後知識完全沒有被抹去(遺忘模型替換後,全量模型損失幾乎為零,說明它還能從遺忘模型的表示中讀出知識);1分代表遺忘達到了理想的保留模型水平(遺忘模型替換後,全量模型的損失和保留模型替換時一樣大,說明遺忘模型和保留模型在這一層的表示對於全量模型而言是等價的)。
最終的每條數據的UDS,是把所有知識編碼層的LER取加權平均,權重是每一層在第一階段的概率下降值——下降越大的層,說明它對目標知識的編碼越深,在最終評分中的權重也就越大。整個模型的UDS是所有有效數據的個體UDS的平均值。
這個設計的精妙之處在於,它不僅給出了一個0到1的總體評分,還保留了逐層、逐樣本的細粒度資訊,可以用來分析"哪些層遺忘得徹底,哪些層還有殘留"以及"哪類問題的遺忘效果比其他類型差"。
**六、跨模型規模的驗證**
為了確保UDS不只是在某個特定大小的模型上有效,研究團隊在三個不同規模的Llama模型(10億、30億、80億參數)上進行了驗證,使用的是TOFU數據集裡的不同保留比例的模型作為"已知遺忘深度"的參照。
結果非常規律:無論在哪個規模上,見過全部數據的全量模型UDS最低(接近0),只見過90%數據的retain99模型UDS較低。這種單調遞增的關係在三個規模上都成立,證明UDS確實在追蹤"模型見過多少目標知識"這件事,而不是在測量某種和遺忘無關的模型屬性。
值得注意的是,隨著模型規模增大,同樣程度的訓練數據差異造成的UDS差異會略微縮小。這是符合直覺的:80億參數的大模型比10億參數的小模型有更強的表示能力,刪掉1%的訓練數據對大模型的內部表示影響更小。但單調性依然成立,說明UDS的核心邏輯在不同規模下是一致的。
**七、與20種現有評估指標的全面對比**
為了系統地驗證UDS的價值,研究團隊搭建了一個大規模的"指標評估框架",對UDS和另外19種現有評估指標進行了全面比較。
這個框架來自開放遺忘框架(OpenUnlearning),核心是評估兩個性質:忠實性(faithfulness)和魯棒性(robustness)。忠實性衡量的是,一個指標能否準確區分"真的見過目標數據的模型"和"從未見過目標數據的模型"——這直接用AUC-ROC分數來衡量,AUC-ROC越接近1,說明指標區分能力越強。魯棒性衡量的是,指標在模型經歷量化壓縮(把模型的數值精度從高精度壓縮到4位整數)或再學習(在目標數據上再訓練一個epoch)之後,是否依然給出穩定的判斷——穩定的指標在干擾前後應該給出接近相同的評分。
研究團隊構建了150個遺忘模型,覆蓋8種遺忘方法(GradDiff、NPO、SimNPO、IdkNLL、IdkDPO、AltPO、RMU、UNDIAL),每種方法都在不同超參數下訓練了多個版本,形成了一個豐富的評估池。
在忠實性方面,UDS以0.971的AUC-ROC高居榜首。輸出層面的最佳指標是Truth Ratio,達到了0.947。在其他白盒基線中,Logit Lens(一種直接從各層的隱藏狀態通過凍結解碼頭讀取詞預測概率的方法)達到了0.927,表現相當不錯;而CKA(中心核對齊,衡量兩個模型表示空間的幾何相似性)只有0.648,Fisher資訊(衡量模型參數對特定數據的梯度敏感度)只有0.712。CKA表現差的原因很直接:遺忘操作可以改變模型的表示幾何結構,而不刪除具體知識,所以兩個模型表示空間不相似,並不意味著一個沒有另一個有的知識;Fisher資訊則被證明反映的是優化軌跡而非真正的知識內容。
在魯棒性方面,UDS同樣領先,量化魯棒性Q值為0.968,再學習魯棒性R值為0.900,兩者的調和平均值為0.932。Logit Lens緊隨其後,調和平均為0.879,但在再學習魯棒性上(0.812)明顯弱於UDS(0.900)。CKA在再學習魯棒性上徹底崩潰,只有0.013,因為短暫的微調就會讓全局表示幾何發生大幅度偏移。Fisher資訊在量化魯棒性上最弱,只有0.583,因為4位量化會嚴重擾亂梯度景觀。
在輸出層面的指標中,ROUGE類指標的再學習魯棒性極差(0.064到0.203),因為殘留在模型內部的知識會讓再訓練時的文本生成能力迅速恢復,大幅超出保留模型學習同等新知識所需的進步幅度。Truth Ratio儘管忠實性第二,但再學習魯棒性也只有0.234。
研究團隊還對魯棒性的計算方式做了一個有意義的改進。原有框架只懲罰"指標評分在干擾後變好(即顯示知識恢復)"的情況,但會忽略"指標評分無緣無故變差"的情況。比如量化會因為降低模型精度而損害生成質量,導致ROUGE分數下降,原有框架反而會把這種下降當作"穩定"來獎勵。研究團隊提出了對稱的魯棒性計算公式,同等懲罰指標在兩個方向上的不穩定性,使得評估更加公平。
**八、白盒指標的內部分歧:一個具體案例**
在案例研究部分,研究團隊給出了一個極具說服力的具體例子,來展示UDS和Logit Lens在內部判斷上的分歧。
考慮一個對IdkDPO方法(該方法訓練模型在被問及應該遺忘的知識時,優先回答"我不知道")施加遺忘後的模型,被要求預測某個目標實體"historical fiction"(歷史小說)。Logit Lens給出的整體遺忘評分是0.801,並且在第7層到第13層都報告了完全遺忘(LER等於1.0),認為這些層已經不再攜帶目標知識。UDS給出的整體評分卻只有0.209,在第7層到第13層報告的LER都在0.000到0.230之間,認為知識依然高度可恢復。
兩個指標在最後一層(第15層)給出了相同的LER(0.254),因為最後一層的隱藏狀態直接決定輸出概率,在這一層用任何方法來測量,結論都必然一致。但在中間層,兩者的判斷截然相反。
原因在於:遺忘操作扭曲了模型中間層的向量空間——就像把一張地圖旋轉了90度。Logit Lens用的是固定的"指南針"(凍結解碼頭)來讀取這張地圖,地圖旋轉後,它以為目標地點"消失"了,實際上只是指南針失效了。UDS用的是把中間產品"塞回"全量模型後續層進行因果處理,全量模型後續的非線性變換可以對這些被旋轉的向量進行"逆變換",重新提取出其中蘊含的知識。這就驗證了UDS的核心優勢:它測量的是知識是否真的可以被恢復,而不是知識是否看起來像是在那裡。
**九、遺忘深度因問題類型而大相徑庭**
另一個案例研究揭示了一個更實際的問題:即便是同一種遺忘方法,對不同類型問題的遺忘效果也可能天差地別。
研究團隊對一個使用IdkNLL方法(訓練模型回答"我不知道")遺忘後的模型做了逐類型分析。在所有標準化MIA指標上,這個模型都接近於0分,看起來遺忘非常徹底。但UDS的逐樣本分析顯示,各問題類型的遺忘深度差異極大。
是否類問題(Yes/No questions)的平均UDS高達0.624,說明遺忘相對深入。而人名類問題(平均UDS 0.025)、書名/標題類問題(0.038)、傳記類問題(0.049)、描述性問題(0.042)的遺忘深度都非常淺。
原因是:對於是否類問題,"我不知道"這個回答在語義上是對原始"是"或"否"答案的一種否定,這個否定信號會影響到中間層的知識編碼。但對於"某人叫什麼名字"這類問題,"我不知道"和原始的人名在語義上毫無關聯,遺忘操作只是改變了輸出分布,而目標知識在中間層完全沒有被觸動。
這個發現的實際意義在於:如果一個AI系統被部署時依賴於輸出層面的評估來保證遺忘,而實際上某類知識在內部並沒有被抹去,就構成了一個真實的安全隱患。UDS的逐樣本分析能夠精準定位這種類型級別的遺忘不徹底,為遺忘方法的改進提供了明確的方向。
**十、如何把UDS整合進實際評估流程**
研究團隊不只停留在證明UDS性能更好,還給出了把它整合進現有評估框架的具體建議。
在隱私評估軸上,現有框架(如MUSE)通常只用成員推斷攻擊指標來衡量隱私保護程度。研究團隊建議把隱私評分定義為MIA聚合評分和UDS的調和平均值,這樣一來,模型必須同時通過輸出層面的隱私測試和內部知識層面的深度測試,才能獲得高分。
研究團隊用這個擴展後的評分對8種遺忘方法的最優配置進行了重新排名,發現NPO和SimNPO的排名發生了對換(從第2、3位變成了第3、2位)。這是因為NPO的最優配置在輸出層面的MIA分數很高(0.875),但內部遺忘深度(UDS只有0.619)並不突出;而SimNPO的最優配置MIA分數略低(0.816),但UDS更高(0.739),因為SimNPO的長度歸一化、無參考模型目標函數把遺忘壓力推向了更深的中間表示層。
在超參數選擇上,整合UDS後,AltPO和NPO都傾向於選擇學習率更高或訓練更長的配置,這些配置在內部遺忘深度上表現更好。這說明UDS能夠引導從業者做出更徹底遺忘的超參數選擇,而不是僅僅優化輸出表現。
在評估流程效率上,UDS本身不需要訓練任何額外模型,只需要運行前向傳播。計算第一階段的基準值(保留模型替換全量模型時的各層下降值)只需要做一次並緩存,後續評估新的遺忘模型只需要重新運行第二階段,大大減少了計算量。而且由於UDS在量化和再學習擾動下都表現出高度穩定性,它可以作為擾動後評估的替代品,省去了對每個模型都要做量化和再學習的昂貴測試流程。
**十一、這個方法的局限性**
研究團隊在論文中坦誠地列出了幾個需要注意的局限。
首先,UDS需要一個保留模型(Mret)作為參照基準。在某些部署場景下,這個保留模型可能不存在。如果沒有保留模型,研究團隊建議退化到只使用第二階段:把遺忘模型的中間產品替換進原始全量模型,單純觀察概率下降的絕對值,作為殘留知識的因果指標。這樣做失去了歸一化,但仍然比純輸出層面的評估更有資訊量。
其次,UDS的得分被截斷在0到1之間,這意味著當遺忘操作過度(模型的內部表示偏離保留模型的程度超過了全量模型和保留模型之間的差異)時,UDS同樣會給出1分,但這種情況下模型的通用能力可能已經受損。因此使用UDS時應該配合通用能力的評估指標,以排除過度遺忘的情況。
第三,目前的驗證集中在TOFU這個基於虛構人物傳記的數據集上。在其他類型的遺忘場景(如危險知識遺忘的WMDP數據集,或真實隱私保護的MUSE數據集)上,UDS的表現還有待驗證。
第四,UDS目前的實現針對的是結構化問答對中的局部實體片段。對於長文本、多步推理、開放生成等場景,如何定義"目標實體"並應用教師強迫策略,還是一個開放的問題。
說到底,這項研究揭示的核心洞察其實並不複雜:要檢驗一件東西是否真的被刪除,光看表面是不夠的,得直接去"探測內部"。這在日常生活中也是常識——你不會只看一塊板子的漆面來判斷裡面有沒有蛀蟲,得敲一敲、鑽個洞測一測。
對於AI系統的安全來說,這一點的意義尤其重大。未來的法規和標準可能會要求企業證明其AI系統確實不再包含某些特定知識,而不僅僅是"在輸出時表現得好像不知道"。UDS這類從內部進行因果檢驗的工具,也許會成為這類證明的必要組成部分。
當然,這也引出了一些讓人思考的問題:如果連專門設計來忘記的遺忘方法都會遺留內部痕跡,那麼我們對AI系統中知識儲存和提取機制的理解是否還遠遠不夠?遺忘的邊界究竟在哪裡?完全的機器遺忘在理論上是否可能,還是說它始終是一種近似?這些問題值得整個AI研究界繼續探索。有興趣的讀者可以通過arXiv編號2605.24614找到完整論文,深入了解每個技術細節。
---
Q&A
Q1:遺忘深度評分(UDS)和傳統的ROUGE、MIA等評估指標有什麼本質區別?
A:傳統指標測量的是模型的輸出行為,比如能不能生成正確答案、統計特徵是否像訓練集成員,本質上是在看模型的"答卷"。UDS通過激活補丁技術直接干預模型內部的計算過程,檢驗知識是否真的在內部被抹去,還是只是輸出習慣改變了。這就像一個是看學生的考試成績,一個是直接掃描學生的大腦來檢查記憶痕跡,測量的根本就不是同一件事。
Q2:激活補丁技術是什麼,普通人怎麼理解它?
A:激活補丁就是在模型A的某一處理層,強行把模型B在同一層產生的中間結果替換進去,然後讓A的後續部分繼續處理,看最終結果變了多少。可以理解為:在一條流水線上,把來自另一條流水線的半成品偷偷換進去,看最終產品有何不同。變化越大,說明那個節點處理了兩條流水線之間的關鍵差異資訊。
Q3:機器遺忘方法真的能徹底抹去AI中的知識嗎?
A:根據這篇研究的發現,現有的主流遺忘方法大多數只能改變模型的輸出行為,而沒有徹底抹去內部的知識編碼。通過激活補丁的因果檢驗,可以發現大多數遺忘模型在中間層仍然保留著相當程度的目標知識。IdkNLL方法在所有輸出層指標上接近滿分,但UDS揭示其內部遺忘深度只有0.076,說明完全依賴輸出評估會給出嚴重誤導性的結論。






