廈門大學團隊找到了讓AI「選擇性失憶」的優雅方法，代價幾乎為零

這項由廈門大學資訊學院與人工智慧研究院聯合領導、廈門大學膠片學院及國防科技大學協同參與的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2605.18879。

贊助商廣告

大型語言模型（也就是ChatGPT、LLaMA這類AI）的訓練方式，就像是讓一個孩子把整個圖書館的書都讀一遍。讀得越多，懂得越多，本來是好事。但問題來了：書里不只有百科全書和詩歌，還有各種隱私資訊、有害內容、過時的錯誤知識。等孩子長大，你想讓他"忘掉"其中某些不該記住的東西，才發現這件事比你想像的要難得多。

研究團隊面對的正是這個難題。現有的"讓AI忘事"方案要麼代價極大——把AI推倒重來重新訓練，就像因為孩子記了幾條錯誤資訊就讓他重讀十二年書；要麼副作用嚴重——用一種粗暴的方式強行讓AI忘掉某些內容，結果連帶著把旁邊的正常知識也一起損毀了，就像為了消除腦子裡一段不好的記憶，把整塊腦區都燒掉。

這支來自廈門大學的團隊提出了一個完全不同的思路，他們把這套方法叫做ZeroUnlearn。他們的核心想法是：與其讓AI"忘掉"敏感知識，不如把那些敏感知識"重新覆寫"，讓AI在遇到危險問題時，輸出的不再是有害答案，而是一種中性的、無意義的終止信號。更精妙的是，這個覆寫過程可以做得極度精準，只動"需要動的那一小塊"，完全不影響AI其餘的知識儲備。

一、為什麼"讓AI忘事"這麼難

先來理解一下AI是怎麼儲存知識的。現代大型語言模型內部有數十億個參數，每個參數都是一個數字，知識就分散編碼在這些數字的分布關係里。你沒法打開AI的大腦，找到"法國首都是巴黎"這條記憶住在哪個格子裡，然後把它單獨刪掉。知識是彌散的、交織的，像一張複雜的蜘蛛網，每一根絲都可能和多條知識有關。

目前常見的方案大概有兩類。第一類是"梯度上升"（研究里簡稱GA），原理是：訓練AI的時候，我們通過反覆讓它做對題、調整參數來讓它學會知識；那忘掉知識，就反過來，把調整方向倒過來，讓AI在這道題上變得越來越"錯"。道理上行得通，但實際操作就像你用橡皮猛力擦掉試卷上一個字，結果把紙都擦破了，周圍好幾個字也跟著毀了。實驗數據證明，GA讓AI的"困惑度"（衡量語言模型正常程度的指標，越低越好）直接爆炸到超過1000，而原始AI只有七八左右——這基本意味著AI說話已經完全亂了套。

贊助商廣告

第二類是"微調"（FT），原理是：既然要忘掉舊答案，那就強行訓練AI給出新答案。聽起來溫柔一些，但同樣有災難性副作用。在實驗裡，用這種方式處理後，AI對於"鄰近知識"（和被刪除知識相關但不應該被刪除的知識）的保留率直接跌到了接近零——也就是說，為了刪掉一條資訊，AI把整片相關知識都一併丟失了。

研究團隊由此看到了機會：現有方法的核心問題，是它們太粗糙，影響範圍太大。能不能找到一把精確到毫米級的手術刀，而不是一把大錘？

二、從"知識編輯"里得到的靈感

這支團隊的靈感來自另一個AI研究領域——"知識編輯"。知識編輯做的事是：當AI記錯了或者記了過時的資訊，怎麼快速修正？比如AI以為某個城市的市長還是五年前那個人，那能不能只修改這條記錄，而不重新訓練整個模型？

研究者們意識到，知識編輯和知識遺忘其實是同一枚硬幣的兩面。編輯是"把A改成B"，遺忘可以是"把A改成什麼都不是"。順著這個思路，ZeroUnlearn的核心思想就成形了：與其刪掉危險知識，不如把它重新映射到一個安全的"終點"。

這個終點被設定為一個特殊標記，在語言模型里叫做""，也就是"句子結束"的信號。當AI遇到危險的輸入，ZeroUnlearn想讓它輸出的不是有害答案，而是這個"句子結束"標記——相當於AI禮貌地閉嘴了。

但僅僅做到"輸出EOS"還不夠。如果AI內部對危險資訊的表徵（也就是它大腦里處理這個資訊時形成的中間狀態）還是原來那個樣子，只是最後被強行攔截了，那危險知識其實還在那裡，只是被壓住了。ZeroUnlearn的更大野心是：不只改變輸出，還要從根源上改變AI對危險資訊的內部理解方式——要讓它在內心深處就已經"不認識"這條危險資訊了。

三、數學上的零空間：一個永不重疊的維度

現在進入ZeroUnlearn最核心的技術部分。研究團隊借用了線性代數裡的一個概念，叫做"零空間"（null space）。用一個非常直觀的比喻來理解：假設你站在一個三維空間裡，"危險知識"占據了某個特定的方向，比如正北方。零空間就是除了正北方之外所有其他方向組成的世界——只要你的行動發生在零空間裡，就永遠不會和正北方那條線相交，自然也就永遠不會"喚醒"危險知識。

贊助商廣告

ZeroUnlearn的做法，是為AI的權重矩陣（你可以把它理解為AI大腦里儲存知識的"配方本"）設計一個特殊的變換操作。這個操作把對危險知識的處理方式壓進了零空間——數學上保證了變換後的輸出和原來危險知識的方向完全垂直，相似度為零。

具體來說，研究團隊先對危險知識矩陣做了一個叫做"奇異值分解"（SVD）的操作，這本質上是把一個複雜的矩陣分解成幾個有規律的部分，好比把一首複雜的交響樂拆解成小提琴聲部、大提琴聲部、長笛聲部分別來看。通過這個分解，他們找到了危險知識所占據的"方向"，然後構造了一個投影矩陣P，這個矩陣的效果就是：任何東西乘上它，都會被"投影"到和危險知識完全垂直的空間裡去。

整個框架有三個同時工作的目標。第一個是"零目標"：確保修改後的AI對危險知識的內部表徵，和原來的危險知識在數學上夾角為九十度，兩者毫無相似性。第二個是"遺忘目標"：確保當AI遇到危險輸入時，它確實輸出那個中性的"句子結束"標記，而不是有害內容。第三個是"實用目標"：在進行這一切操作的同時，AI對普通知識的處理能力必須保持不變——好比你修理了鋼琴的某根琴弦，但整首曲子的其他音符還是能正常彈出來。

最令人驚喜的是，這三個目標被整合成一個數學優化問題後，研究團隊找到了一個"閉合形式解"——也就是說，這個問題不需要反覆試探、疊代求解，而是有一個像一元二次方程求根公式那樣的直接答案。代入數字，一步算出，就得到了最優的權重修改方案。這使得ZeroUnlearn在處理少量樣本時極為高效。

四、當需要忘掉的東西很多時怎麼辦

ZeroUnlearn的閉合形式解非常優雅，但它天然適合"少量遺忘"的場景。當需要同時刪除成百上千條知識時，情況變得複雜了。

研究團隊因此提出了ZeroUnlearn的升級版，叫做ZeroUnlearn-GD。這個版本改用了一種叫做"梯度下降"的疊代優化方式。如果說原版ZeroUnlearn是直接用公式算出答案，ZeroUnlearn-GD則是像用GPS導航一樣，每走一步都判斷一下當前方向是否正確，然後調整，再走，再調整，最終一步一步逼近目標。

贊助商廣告

這個升級版在數學上同樣有嚴格的理論保障。研究團隊證明了這個優化目標是一個凸函數——這在數學上意味著它只有一個最低點，沒有"掉進局部陷阱"的風險，梯度下降一定能找到全局最優解。

兩個版本各有適用場景：當只需要刪除少量敏感資訊時，用ZeroUnlearn的閉合解，速度極快；當需要批量處理大量樣本時，用ZeroUnlearn-GD的梯度方案，雖然需要更多計算，但結果同樣可靠。

五、AI的"知識體檢"：找到最需要動手術的地方

在真正進行遺忘操作之前，研究團隊還解決了一個重要的前置問題：該改哪一層？

現代大型語言模型像一棟多層樓，每一層都在處理資訊，而知識並不均勻地存在於所有樓層。研究團隊採用了一種叫做"因果追蹤"的診斷方法。原理是這樣的：先給AI一個正常的提問，記錄它的回答準確度；然後故意把輸入里的關鍵詞破壞掉（相當於把提問寫錯了），觀察AI的準確度下降了多少；最後，逐層"修復"AI內部的激活狀態，看修復哪一層能讓準確度恢復得最多——恢復最多的那一層，就是這條知識最主要的"棲息地"。

通過對三個不同大小的模型（Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B）進行這種"體檢"，研究團隊發現了一個有趣的規律：知識主要集中在模型中間偏前的某些連續層里，而不是均勻分布在所有層中。就像一棟樓里，檔案室不是隨機分布在每一層，而是集中在某幾個特定樓層。找到這些樓層，手術就只在這裡進行，其他樓層完全不受干擾。

值得一提的是，研究團隊發現對於Llama系列模型，雖然知識的峰值效應在更底層，但直接修改底層會嚴重損害模型的整體能力。因此他們選擇了"最後一個詞"對應的峰值層（位於模型中段），這體現了工程實踐和理論最優之間需要靈活權衡的一面。

六、實驗說話：數字背後的故事

研究團隊在三個模型上做了全面測試，用了三個知識數據集：MCF（一個專門測試事實知識的大型數據集）、ZsRE（一個關係抽取問答數據集）、MQUAKE（一個多跳推理數據集，被改造成單跳形式使用）。

贊助商廣告

考核指標分四項。"遺忘效果"看的是被刪除的知識是否還能被AI答出來，數字越低越好；"泛化效果"看的是換一種問法，AI還是否會給出被刪除的答案，同樣越低越好；"特異性"看的是AI對周邊正常知識的保留程度，越高越好；"困惑度"則衡量AI的整體語言生成質量，越低越好。

在"少量遺忘"場景下，研究團隊用10個隨機種子、每次隨機抽取50個樣本進行測試。在Llama-3.1模型上，ZeroUnlearn在MCF數據集上的遺忘效果達到了0%——也就是被刪除的知識完全無法被答出。相比之下，ROME這類方法的遺忘效果幾乎和沒改過的原始模型一樣糟糕（24.40%對比原始的24.60%），MEMIT稍好一些但也只降到了9.60%，AlphaEdit降到了0.20%。

但僅僅"忘得好"還不夠，還要"不誤傷"。GA雖然也能把遺忘效果降得很低，但代價是困惑度爆炸超過1000，特異性跌到接近於零——相當於把AI的大腦燒成了白板。FT同樣如此，特異性在MCF數據集上直接歸零。ZeroUnlearn的困惑度維持在13左右（原始模型是12.88），特異性維持在14到17之間，算是在徹底遺忘的同時，對正常能力損傷最小的方法。

在"大量遺忘"場景下，用1000個樣本測試ZeroUnlearn-GD，結果同樣出色。在Llama-3.2模型的MCF數據集上，遺忘效果同樣達到0%，而AlphaEdit這個目前最好的競爭對手只能做到1.40%，MEMIT則是13.80%。ZeroUnlearn-GD的困惑度維持在13.05，特異性為12.41，在所有能達到完全遺忘的方法裡，對模型能力的保護是最好的。

研究團隊還對六個下游任務進行了測試，包括情感分析（SST）、多任務語言理解（MMLU）、語義匹配（MRPC）、語法判斷（COLA）、文本蘊含（RTE）和自然語言推理（NLI）。結果顯示，ZeroUnlearn處理後的模型在所有六項任務上，表現與未改動的原始模型在統計上沒有顯著差異，而GA和FT則在其中多項任務上出現了接近於隨機猜測的崩潰表現。

七、用眼睛看見"遺忘"的發生

贊助商廣告

研究團隊還提供了一種非常直觀的驗證方式：PCA可視化。PCA（主成分分析）可以把AI內部高維的資訊處理狀態，壓縮到人眼能看懂的二維圖。

圖上有兩種點：藍色（青色）的點代表原始模型處理這些知識時的內部狀態，紅色的點代表修改後的模型處理同樣知識時的內部狀態。如果兩種顏色的點混在一起，說明修改幾乎沒有效果，AI內部還是以同樣的方式理解這些知識。如果兩種顏色的點分開成兩個不同的聚類，則說明AI對這些知識的內部表徵已經發生了根本性的改變。

在圖上，ZeroUnlearn的結果非常明顯：紅色點和藍色點形成了兩個清晰分開的聚類，相隔很遠。而AlphaEdit和MEMIT的結果則是兩種顏色的點大量重疊，意味著這些方法雖然在某種程度上改變了輸出，但並沒有從根本上改變AI對這些知識的內部編碼。這個可視化結果從直覺層面印證了ZeroUnlearn"從內而外"徹底覆寫知識的效果。

八、效率賬單：花了多少時間和內存

實際部署一項技術，效率同樣重要。研究團隊測量了ZeroUnlearn在不同規模下的運行時間和內存占用，以Llama-3.2模型為基準。

SVD分解（構建零空間投影矩陣的步驟）本身非常輕量：即使遺忘樣本從10個增加到1000個，SVD時間也始終低於0.3秒，內存僅從約13.8GB增加到14.1GB。端到端的完整流程時間隨樣本數量接近線性增長：10個樣本約0.04小時，1000個樣本約3.35到3.82小時。總內存穩定在約15到17.4GB之間。

對於一個不需要重新訓練整個模型、只需要修改少數層參數的方案來說，這個效率是完全可以接受的。研究團隊也指出，真正的時間瓶頸不在於那個閉合解的計算，而在於從模型里提取每個知識的"鍵值對"（也就是那些k和m向量）以及逐層更新權重的過程。

歸根結底，這項研究做的事情，可以用一句話來概括：他們找到了一種方法，讓AI可以精準地"從心裡忘掉"某些知識，而不只是假裝忘了，同時又確保AI的其他一切能力安然無恙。這背後的關鍵洞見是：遺忘不必是破壞，可以是重新映射；而重新映射可以發生在一個對原有知識"數學上完全正交"的空間裡，從而在物理層面保證兩者互不干擾。

贊助商廣告

對普通用戶而言，這項研究的意義在於：未來當你希望某個AI產品刪除你的隱私數據、修正它已知的錯誤資訊、或者禁止它產生某類有害內容時，背後實現這一切的技術路徑有望變得更快、更准、更安全，而不會以犧牲AI整體能力為代價。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2605.18879查閱完整原文。

Q&A

Q1：ZeroUnlearn和普通的"讓AI忘掉某些資訊"的方法有什麼本質區別？

A：普通方法（如梯度上升GA）是強行讓AI在特定知識上變得越來越"錯"，但這會連帶破壞周圍的正常知識，就像用橡皮用力擦字把紙都擦破了。ZeroUnlearn則是把危險知識"重新映射"到一個數學上和原始危險知識完全垂直（正交）的空間裡，從根本上改變AI對這些資訊的內部理解方式，同時對其他知識的影響極小，甚至接近於零。

Q2：ZeroUnlearn能不能用來刪除AI里某個真實人物的個人隱私資訊？

A：理論上可以。ZeroUnlearn處理的是結構化的"知識三元組"，即主語-關係-賓語這樣的形式，只要能把隱私資訊表達成這種格式（比如某人的住址、生日、聯繫方式），就可以用ZeroUnlearn將其從模型中精準清除。不過現實中個人隱私可能以更複雜的形式存在，需要更多工程適配工作才能實際部署。

Q3：ZeroUnlearn處理完的AI，真的完全不會再輸出被刪除的資訊了嗎？

A：在實驗中，ZeroUnlearn在Llama-3.1模型上對MCF數據集實現了0%的遺忘效果，即完全無法輸出被刪除資訊。但"泛化效果"指標顯示，換一種問法時還有約4.6%的殘留，說明極端情況下仍有極小概率泄露。研究團隊通過中性目標狀態的引入顯著改善了這一問題，但徹底的100%全場景遺忘在技術上仍是開放挑戰。