宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

廈門大學團隊找到了讓AI「選擇性失憶」的優雅方法,代價幾乎為零

2026年06月02日 首頁 » 熱門科技

這項由廈門大學資訊學院與人工智慧研究院聯合領導、廈門大學膠片學院及國防科技大學協同參與的研究,發表於2026年第43屆國際機器學習大會(ICML 2026),論文編號為arXiv:2605.18879。

大型語言模型(也就是ChatGPT、LLaMA這類AI)的訓練方式,就像是讓一個孩子把整個圖書館的書都讀一遍。讀得越多,懂得越多,本來是好事。但問題來了:書里不只有百科全書和詩歌,還有各種隱私資訊、有害內容、過時的錯誤知識。等孩子長大,你想讓他"忘掉"其中某些不該記住的東西,才發現這件事比你想像的要難得多。

研究團隊面對的正是這個難題。現有的"讓AI忘事"方案要麼代價極大——把AI推倒重來重新訓練,就像因為孩子記了幾條錯誤資訊就讓他重讀十二年書;要麼副作用嚴重——用一種粗暴的方式強行讓AI忘掉某些內容,結果連帶著把旁邊的正常知識也一起損毀了,就像為了消除腦子裡一段不好的記憶,把整塊腦區都燒掉。

這支來自廈門大學的團隊提出了一個完全不同的思路,他們把這套方法叫做ZeroUnlearn。他們的核心想法是:與其讓AI"忘掉"敏感知識,不如把那些敏感知識"重新覆寫",讓AI在遇到危險問題時,輸出的不再是有害答案,而是一種中性的、無意義的終止信號。更精妙的是,這個覆寫過程可以做得極度精準,只動"需要動的那一小塊",完全不影響AI其餘的知識儲備。

一、為什麼"讓AI忘事"這麼難

先來理解一下AI是怎麼儲存知識的。現代大型語言模型內部有數十億個參數,每個參數都是一個數字,知識就分散編碼在這些數字的分布關係里。你沒法打開AI的大腦,找到"法國首都是巴黎"這條記憶住在哪個格子裡,然後把它單獨刪掉。知識是彌散的、交織的,像一張複雜的蜘蛛網,每一根絲都可能和多條知識有關。

目前常見的方案大概有兩類。第一類是"梯度上升"(研究里簡稱GA),原理是:訓練AI的時候,我們通過反覆讓它做對題、調整參數來讓它學會知識;那忘掉知識,就反過來,把調整方向倒過來,讓AI在這道題上變得越來越"錯"。道理上行得通,但實際操作就像你用橡皮猛力擦掉試卷上一個字,結果把紙都擦破了,周圍好幾個字也跟著毀了。實驗數據證明,GA讓AI的"困惑度"(衡量語言模型正常程度的指標,越低越好)直接爆炸到超過1000,而原始AI只有七八左右——這基本意味著AI說話已經完全亂了套。

第二類是"微調"(FT),原理是:既然要忘掉舊答案,那就強行訓練AI給出新答案。聽起來溫柔一些,但同樣有災難性副作用。在實驗裡,用這種方式處理後,AI對於"鄰近知識"(和被刪除知識相關但不應該被刪除的知識)的保留率直接跌到了接近零——也就是說,為了刪掉一條資訊,AI把整片相關知識都一併丟失了。

研究團隊由此看到了機會:現有方法的核心問題,是它們太粗糙,影響範圍太大。能不能找到一把精確到毫米級的手術刀,而不是一把大錘?

二、從"知識編輯"里得到的靈感

這支團隊的靈感來自另一個AI研究領域——"知識編輯"。知識編輯做的事是:當AI記錯了或者記了過時的資訊,怎麼快速修正?比如AI以為某個城市的市長還是五年前那個人,那能不能只修改這條記錄,而不重新訓練整個模型?

研究者們意識到,知識編輯和知識遺忘其實是同一枚硬幣的兩面。編輯是"把A改成B",遺忘可以是"把A改成什麼都不是"。順著這個思路,ZeroUnlearn的核心思想就成形了:與其刪掉危險知識,不如把它重新映射到一個安全的"終點"。

這個終點被設定為一個特殊標記,在語言模型里叫做"",也就是"句子結束"的信號。當AI遇到危險的輸入,ZeroUnlearn想讓它輸出的不是有害答案,而是這個"句子結束"標記——相當於AI禮貌地閉嘴了。

但僅僅做到"輸出EOS"還不夠。如果AI內部對危險資訊的表徵(也就是它大腦里處理這個資訊時形成的中間狀態)還是原來那個樣子,只是最後被強行攔截了,那危險知識其實還在那裡,只是被壓住了。ZeroUnlearn的更大野心是:不只改變輸出,還要從根源上改變AI對危險資訊的內部理解方式——要讓它在內心深處就已經"不認識"這條危險資訊了。

三、數學上的零空間:一個永不重疊的維度

現在進入ZeroUnlearn最核心的技術部分。研究團隊借用了線性代數裡的一個概念,叫做"零空間"(null space)。用一個非常直觀的比喻來理解:假設你站在一個三維空間裡,"危險知識"占據了某個特定的方向,比如正北方。零空間就是除了正北方之外所有其他方向組成的世界——只要你的行動發生在零空間裡,就永遠不會和正北方那條線相交,自然也就永遠不會"喚醒"危險知識。

ZeroUnlearn的做法,是為AI的權重矩陣(你可以把它理解為AI大腦里儲存知識的"配方本")設計一個特殊的變換操作。這個操作把對危險知識的處理方式壓進了零空間——數學上保證了變換後的輸出和原來危險知識的方向完全垂直,相似度為零。

具體來說,研究團隊先對危險知識矩陣做了一個叫做"奇異值分解"(SVD)的操作,這本質上是把一個複雜的矩陣分解成幾個有規律的部分,好比把一首複雜的交響樂拆解成小提琴聲部、大提琴聲部、長笛聲部分別來看。通過這個分解,他們找到了危險知識所占據的"方向",然後構造了一個投影矩陣P,這個矩陣的效果就是:任何東西乘上它,都會被"投影"到和危險知識完全垂直的空間裡去。

整個框架有三個同時工作的目標。第一個是"零目標":確保修改後的AI對危險知識的內部表徵,和原來的危險知識在數學上夾角為九十度,兩者毫無相似性。第二個是"遺忘目標":確保當AI遇到危險輸入時,它確實輸出那個中性的"句子結束"標記,而不是有害內容。第三個是"實用目標":在進行這一切操作的同時,AI對普通知識的處理能力必須保持不變——好比你修理了鋼琴的某根琴弦,但整首曲子的其他音符還是能正常彈出來。

最令人驚喜的是,這三個目標被整合成一個數學優化問題後,研究團隊找到了一個"閉合形式解"——也就是說,這個問題不需要反覆試探、疊代求解,而是有一個像一元二次方程求根公式那樣的直接答案。代入數字,一步算出,就得到了最優的權重修改方案。這使得ZeroUnlearn在處理少量樣本時極為高效。

四、當需要忘掉的東西很多時怎麼辦

ZeroUnlearn的閉合形式解非常優雅,但它天然適合"少量遺忘"的場景。當需要同時刪除成百上千條知識時,情況變得複雜了。

研究團隊因此提出了ZeroUnlearn的升級版,叫做ZeroUnlearn-GD。這個版本改用了一種叫做"梯度下降"的疊代優化方式。如果說原版ZeroUnlearn是直接用公式算出答案,ZeroUnlearn-GD則是像用GPS導航一樣,每走一步都判斷一下當前方向是否正確,然後調整,再走,再調整,最終一步一步逼近目標。

這個升級版在數學上同樣有嚴格的理論保障。研究團隊證明了這個優化目標是一個凸函數——這在數學上意味著它只有一個最低點,沒有"掉進局部陷阱"的風險,梯度下降一定能找到全局最優解。

兩個版本各有適用場景:當只需要刪除少量敏感資訊時,用ZeroUnlearn的閉合解,速度極快;當需要批量處理大量樣本時,用ZeroUnlearn-GD的梯度方案,雖然需要更多計算,但結果同樣可靠。

五、AI的"知識體檢":找到最需要動手術的地方

在真正進行遺忘操作之前,研究團隊還解決了一個重要的前置問題:該改哪一層?

現代大型語言模型像一棟多層樓,每一層都在處理資訊,而知識並不均勻地存在於所有樓層。研究團隊採用了一種叫做"因果追蹤"的診斷方法。原理是這樣的:先給AI一個正常的提問,記錄它的回答準確度;然後故意把輸入里的關鍵詞破壞掉(相當於把提問寫錯了),觀察AI的準確度下降了多少;最後,逐層"修復"AI內部的激活狀態,看修復哪一層能讓準確度恢復得最多——恢復最多的那一層,就是這條知識最主要的"棲息地"。

通過對三個不同大小的模型(Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B)進行這種"體檢",研究團隊發現了一個有趣的規律:知識主要集中在模型中間偏前的某些連續層里,而不是均勻分布在所有層中。就像一棟樓里,檔案室不是隨機分布在每一層,而是集中在某幾個特定樓層。找到這些樓層,手術就只在這裡進行,其他樓層完全不受干擾。

值得一提的是,研究團隊發現對於Llama系列模型,雖然知識的峰值效應在更底層,但直接修改底層會嚴重損害模型的整體能力。因此他們選擇了"最後一個詞"對應的峰值層(位於模型中段),這體現了工程實踐和理論最優之間需要靈活權衡的一面。

六、實驗說話:數字背後的故事

研究團隊在三個模型上做了全面測試,用了三個知識數據集:MCF(一個專門測試事實知識的大型數據集)、ZsRE(一個關係抽取問答數據集)、MQUAKE(一個多跳推理數據集,被改造成單跳形式使用)。

考核指標分四項。"遺忘效果"看的是被刪除的知識是否還能被AI答出來,數字越低越好;"泛化效果"看的是換一種問法,AI還是否會給出被刪除的答案,同樣越低越好;"特異性"看的是AI對周邊正常知識的保留程度,越高越好;"困惑度"則衡量AI的整體語言生成質量,越低越好。

在"少量遺忘"場景下,研究團隊用10個隨機種子、每次隨機抽取50個樣本進行測試。在Llama-3.1模型上,ZeroUnlearn在MCF數據集上的遺忘效果達到了0%——也就是被刪除的知識完全無法被答出。相比之下,ROME這類方法的遺忘效果幾乎和沒改過的原始模型一樣糟糕(24.40%對比原始的24.60%),MEMIT稍好一些但也只降到了9.60%,AlphaEdit降到了0.20%。

但僅僅"忘得好"還不夠,還要"不誤傷"。GA雖然也能把遺忘效果降得很低,但代價是困惑度爆炸超過1000,特異性跌到接近於零——相當於把AI的大腦燒成了白板。FT同樣如此,特異性在MCF數據集上直接歸零。ZeroUnlearn的困惑度維持在13左右(原始模型是12.88),特異性維持在14到17之間,算是在徹底遺忘的同時,對正常能力損傷最小的方法。

在"大量遺忘"場景下,用1000個樣本測試ZeroUnlearn-GD,結果同樣出色。在Llama-3.2模型的MCF數據集上,遺忘效果同樣達到0%,而AlphaEdit這個目前最好的競爭對手只能做到1.40%,MEMIT則是13.80%。ZeroUnlearn-GD的困惑度維持在13.05,特異性為12.41,在所有能達到完全遺忘的方法裡,對模型能力的保護是最好的。

研究團隊還對六個下游任務進行了測試,包括情感分析(SST)、多任務語言理解(MMLU)、語義匹配(MRPC)、語法判斷(COLA)、文本蘊含(RTE)和自然語言推理(NLI)。結果顯示,ZeroUnlearn處理後的模型在所有六項任務上,表現與未改動的原始模型在統計上沒有顯著差異,而GA和FT則在其中多項任務上出現了接近於隨機猜測的崩潰表現。

七、用眼睛看見"遺忘"的發生

研究團隊還提供了一種非常直觀的驗證方式:PCA可視化。PCA(主成分分析)可以把AI內部高維的資訊處理狀態,壓縮到人眼能看懂的二維圖。

圖上有兩種點:藍色(青色)的點代表原始模型處理這些知識時的內部狀態,紅色的點代表修改後的模型處理同樣知識時的內部狀態。如果兩種顏色的點混在一起,說明修改幾乎沒有效果,AI內部還是以同樣的方式理解這些知識。如果兩種顏色的點分開成兩個不同的聚類,則說明AI對這些知識的內部表徵已經發生了根本性的改變。

在圖上,ZeroUnlearn的結果非常明顯:紅色點和藍色點形成了兩個清晰分開的聚類,相隔很遠。而AlphaEdit和MEMIT的結果則是兩種顏色的點大量重疊,意味著這些方法雖然在某種程度上改變了輸出,但並沒有從根本上改變AI對這些知識的內部編碼。這個可視化結果從直覺層面印證了ZeroUnlearn"從內而外"徹底覆寫知識的效果。

八、效率賬單:花了多少時間和內存

實際部署一項技術,效率同樣重要。研究團隊測量了ZeroUnlearn在不同規模下的運行時間和內存占用,以Llama-3.2模型為基準。

SVD分解(構建零空間投影矩陣的步驟)本身非常輕量:即使遺忘樣本從10個增加到1000個,SVD時間也始終低於0.3秒,內存僅從約13.8GB增加到14.1GB。端到端的完整流程時間隨樣本數量接近線性增長:10個樣本約0.04小時,1000個樣本約3.35到3.82小時。總內存穩定在約15到17.4GB之間。

對於一個不需要重新訓練整個模型、只需要修改少數層參數的方案來說,這個效率是完全可以接受的。研究團隊也指出,真正的時間瓶頸不在於那個閉合解的計算,而在於從模型里提取每個知識的"鍵值對"(也就是那些k和m向量)以及逐層更新權重的過程。

歸根結底,這項研究做的事情,可以用一句話來概括:他們找到了一種方法,讓AI可以精準地"從心裡忘掉"某些知識,而不只是假裝忘了,同時又確保AI的其他一切能力安然無恙。這背後的關鍵洞見是:遺忘不必是破壞,可以是重新映射;而重新映射可以發生在一個對原有知識"數學上完全正交"的空間裡,從而在物理層面保證兩者互不干擾。

對普通用戶而言,這項研究的意義在於:未來當你希望某個AI產品刪除你的隱私數據、修正它已知的錯誤資訊、或者禁止它產生某類有害內容時,背後實現這一切的技術路徑有望變得更快、更准、更安全,而不會以犧牲AI整體能力為代價。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2605.18879查閱完整原文。

Q&A

Q1:ZeroUnlearn和普通的"讓AI忘掉某些資訊"的方法有什麼本質區別?

A:普通方法(如梯度上升GA)是強行讓AI在特定知識上變得越來越"錯",但這會連帶破壞周圍的正常知識,就像用橡皮用力擦字把紙都擦破了。ZeroUnlearn則是把危險知識"重新映射"到一個數學上和原始危險知識完全垂直(正交)的空間裡,從根本上改變AI對這些資訊的內部理解方式,同時對其他知識的影響極小,甚至接近於零。

Q2:ZeroUnlearn能不能用來刪除AI里某個真實人物的個人隱私資訊?

A:理論上可以。ZeroUnlearn處理的是結構化的"知識三元組",即主語-關係-賓語這樣的形式,只要能把隱私資訊表達成這種格式(比如某人的住址、生日、聯繫方式),就可以用ZeroUnlearn將其從模型中精準清除。不過現實中個人隱私可能以更複雜的形式存在,需要更多工程適配工作才能實際部署。

Q3:ZeroUnlearn處理完的AI,真的完全不會再輸出被刪除的資訊了嗎?

A:在實驗中,ZeroUnlearn在Llama-3.1模型上對MCF數據集實現了0%的遺忘效果,即完全無法輸出被刪除資訊。但"泛化效果"指標顯示,換一種問法時還有約4.6%的殘留,說明極端情況下仍有極小概率泄露。研究團隊通過中性目標狀態的引入顯著改善了這一問題,但徹底的100%全場景遺忘在技術上仍是開放挑戰。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新