「馬什麼梅?什麼冬梅?馬冬什麼?」
老年人容易忘事,年輕人難以背誦全文。AI其實也有記不住的時候。

2025年11月,愛丁堡大學的研究團隊試圖回答一個困擾AI領域多年的核心問題:為什麼機器學習系統在學習新東西時,總是會忘記之前學會的知識?研究成果發表於Arxiv。
想像一下這樣的場景:你教會了一個機器人認識貓的照片,它學得很好。但當你繼續教它認識狗的照片時,它突然就不太會認貓了。這個現象在AI領域非常普遍,但奇怪的是,儘管研究人員研究了幾十年,卻一直沒有一個統一的理論來解釋"遺忘"到底是什麼。就好比大家都知道人會感冒,但如果沒有病毒學理論,我們就無法真正理解感冒的本質,也就很難找到有效的治療方法。
這項研究的突破性意義在於,它首次提出了一個不依賴於具體算法或任務類型的通用理論框架,來精確定義和測量AI系統的遺忘現象。研究團隊發現了一個關鍵洞察:如果一個學習系統在遇到它已經預期會出現的數據時還要更新自己的判斷,那麼這種更新不可能代表獲取了新資訊,而只能說明它丟失了之前掌握的知識。基於這個核心思想,研究團隊建立了一套完整的理論體系,並通過涵蓋分類、回歸、生成建模和強化學習等多個領域的大量實驗,證實了遺忘現象確實無處不在,並且在決定學習效率方面扮演著至關重要的角色。
更令人驚訝的是,研究發現適度的遺忘並非完全是壞事。就像人類記憶一樣,完全不遺忘反而可能降低學習效率。研究團隊發現,在深度學習中,訓練效率最高的模型往往不是遺忘最少的,而是在遺忘和適應之間找到了某種微妙平衡的那些。特別是在強化學習(比如訓練遊戲AI)這樣的場景中,遺忘問題尤為嚴重,這也解釋了為什麼這類AI訓練起來特別困難。這項研究不僅為理解AI的學習機制提供了全新視角,更為開發能夠持續學習而不忘記舊知識的AI系統奠定了理論基礎。
什麼是遺忘?從日常觀察到科學定義
在開始深入探討之前,我們先來理解一個基本問題:遺忘到底是什麼?你可能會說,這還不簡單嗎?遺忘就是忘記了之前學過的東西。但當我們試圖精確定義這個概念時,問題就變得複雜了。
想像你在學習彈鋼琴。一開始你學會了彈《小星星》,後來你開始學《致愛麗絲》。幾個月後,當你再想彈《小星星》時,發現有些地方記不清了。這算是遺忘嗎?似乎是的。但如果換一個角度看,你現在能彈更複雜的《致愛麗絲》了,你的整體鋼琴水平其實是提高了的。那麼我們該說你"遺忘"了《小星星》,還是說你在學習過程中做出了某種"取捨"?
AI系統面臨的困境與此類似,但更為複雜。研究團隊指出,現有的大多數研究都來自"持續學習"領域,這個領域關注的是AI如何在不同任務之間切換而不丟失之前的能力。但這些研究中用來測量遺忘的方法存在一個根本問題:它們無法區分"遺忘"和"後向遷移"這兩個完全不同的現象。

什麼是後向遷移呢?還是用鋼琴來比喻。假設你先學會了彈《小星星》,然後學習了《致愛麗絲》。在學習《致愛麗絲》的過程中,你掌握了更好的手指技巧和節奏感。現在,當你重新彈《小星星》時,你發現自己彈得比以前更好了,因為新學到的技能反過來改進了你彈舊曲子的能力。這種"新知識改進舊能力"的現象就是後向遷移。
問題在於,傳統的測量方法只是簡單比較"學習新任務前"和"學習新任務後"在舊任務上的表現差異。如果表現變差了,就說發生了遺忘。但這種方法忽略了一個關鍵事實:表現變差可能是因為真的忘記了舊知識,也可能只是因為新舊知識之間存在衝突,還可能是因為測量方式本身有問題。就好比你用計算器算題時按錯了鍵,不能說明你忘記了數學知識。
更令人困惑的是,即使在理想的情況下,數據分布完全不變,每次都從同一個數據池中隨機抽取訓練樣本,AI系統仍然會表現出遺忘現象。這個發現讓研究人員意識到,遺忘可能是學習過程本身的一個內在特性,而不僅僅是環境變化導致的問題。
為了建立一個更好的理論框架,研究團隊提出了四個核心標準,任何有效的遺忘定義都應該滿足這些標準。第一,遺忘的測量應該關注資訊的丟失,而不是任務表現的變化,因為一個系統可能保留了錯誤的資訊但表現不錯,也可能丟失了重要資訊但暫時表現還可以。第二,必須能夠區分"丟失舊知識"和"基於新資訊做出合理調整"這兩種情況,就像區分真正忘記和主動選擇不同。第三,遺忘不應該僅僅指忘記見過的具體例子,還應該包括失去泛化能力——比如一個學會識別貓的AI,即使你沒有給它看過某隻特定的貓,它也應該能認出來,如果它失去了這種泛化能力,就算是遺忘了。第四,遺忘應該是學習系統的屬性,而不是環境或數據的屬性,就像說"這個學生記憶力不好"而不是說"這本書難記"。
基於這些思考,研究團隊提出了一個全新的視角:從"預測一致性"的角度來定義遺忘。這個想法的核心非常簡潔優雅。想像你有一個AI模型,它現在對未來會發生什麼有一套預測。比如一個識別動物的AI,當看到一張模糊的圖片時,它會說"我覺得這80%可能是貓,20%可能是狗"。現在,假設你讓這個AI根據它自己的預測生成一些"假想數據"(就是它認為可能會出現的數據),然後用這些假想數據來更新它自己。如果更新之後,AI對未來的預測改變了,那就說明它忘記了某些東西。因為它看到的只是它自己覺得會出現的數據,這些數據里沒有任何新資訊,所以任何改變都只能是資訊的丟失,而不是資訊的獲取。
這就像是你寫了一份關於明天會發生什麼的預測報告,然後你讀了自己寫的這份報告,結果你對明天的看法改變了。這說明什麼?說明你忘記了當初為什麼那樣預測,否則重讀自己的報告不應該改變你的想法,因為報告裡的資訊本來就是你已經知道的。
通過這個定義,研究團隊成功地將"遺忘"轉化為一個可以精確測量的數學量。他們稱之為"遺忘傾向",用來衡量一個學習系統在多大程度上會在看到自己預期的數據後改變自己的預測。這個測量方法的巧妙之處在於,它不需要知道"正確答案"是什麼,也不需要假設數據分布保持不變,更不需要定義什麼是"重要"的知識。它只需要檢查系統是否在自己的預測上保持一致。
建立理論基礎:把學習過程看作一個動態故事
為了精確描述遺忘現象,研究團隊首先需要建立一個通用的框架來描述學習過程本身。這個框架的目標是能夠涵蓋所有類型的機器學習,無論是教電腦識別圖片,還是訓練遊戲AI,或是讓AI生成文字,都能用同一套語言來描述。
想像學習過程就像是一場持續進行的對話。對話有兩個參與者:一個是"環境",它不斷提出問題或給出觀察結果;另一個是"學習者",它根據觀察做出預測或採取行動。這場對話是一輪接一輪進行的,每一輪都包含三個步驟。
第一步,環境給出一個觀察結果。這個觀察結果可能是一張圖片和它對應的標籤(在圖片分類任務中),可能是遊戲的當前狀態和得到的獎勵(在強化學習中),也可能就是一個需要學習生成的數據樣本(在生成建模中)。第二步,學習者基於當前的內部狀態和觀察到的內容,做出一個預測或採取一個行動。比如它可能預測圖片裡有隻貓,或者決定在遊戲中向左移動。第三步,學習者根據新的觀察和自己的預測,更新自己的內部狀態。這個內部狀態包含了學習者的所有"知識",比如神經網路的參數權重、優化器的動量、可能還有一個存儲過去經驗的回放緩衝區。
這個框架的精妙之處在於它的統一性。研究團隊指出,表面上看起來完全不同的機器學習任務,實際上都可以用這個框架來描述。在監督學習中,觀察就是輸入和正確答案的配對,學習者的輸出是它的預測。在強化學習中,觀察是當前狀態和獲得的獎勵,學習者的輸出是它要採取的行動。在生成建模中,學習者試圖模仿觀察到的數據分布,它的輸出是對下一個數據樣本的預測。
但這個框架的關鍵創新還不止於此。研究團隊引入了一個叫做"誘導未來"的概念,這個概念為理解遺忘提供了核心工具。什麼是誘導未來呢?簡單來說,就是讓學習者"做白日夢",想像未來會發生什麼。

具體來說,在任何時刻,學習者都維護著一個內部狀態,這個狀態決定了它如何預測和行動。現在,我們不讓學習者繼續與真實環境互動,而是讓它進入一種"推演模式"。在這個模式下,學習者根據自己當前的預測生成假想的未來觀察,然後假裝這些是真的觀察,據此更新自己的狀態(但只是表面上的更新,不真正改變核心的學習內容),接著繼續預測下一步,再生成下一個假想觀察,如此循環下去。這樣,學習者就生成了一個關於未來的完整故事,這個故事完全基於它當前的信念和預測能力。
為什麼這個"誘導未來"的概念如此重要?因為它提供了一個檢驗學習者"自洽性"的方法。想像你問一個人:"你覺得明天會發生什麼?"他給了你一個預測。然後你說:"好,現在假設你的預測都成真了,明天真的就是你說的那樣。那麼後天呢?"如果這個人是完全自洽的,那麼他基於自己預測的明天來預測後天,應該和他直接預測後天的結果一樣。但如果不一樣,就說明這個人的思維是不一致的,他可能在推理過程中忘記了什麼。
研究團隊將這個思想應用到機器學習系統上。他們發現,一個不遺忘的學習系統應該具有這樣的性質:如果讓它根據自己當前的預測"推演"未來k步,得到的未來預測分布,應該和直接從現在的狀態推演k步後的未來預測分布完全一致。用數學語言說,就是"邊緣化"後的分布應該保持不變。
這個性質被稱為"一致性條件"。如果一個學習系統違反了這個一致性條件,就說明它在用自己預期的數據更新自己時,改變了自己的預測分布,這只能意味著資訊的丟失,也就是遺忘。研究團隊據此定義了"遺忘傾向"這個量,用來衡量一致性條件被違反的程度。違反得越嚴重,說明系統的遺忘傾向越強。
這個理論框架還有一個重要的洞察。研究團隊指出,這種從"預測視角"來看待學習的方式,受到了"預測貝葉斯"框架的啟發。傳統的貝葉斯方法關注的是模型參數的後驗分布,而預測貝葉斯方法關注的是對未來觀察的預測分布。這個轉變看似微妙,但意義重大。在深度學習中,神經網路的參數本身往往沒有明確的統計學意義,它們只是計算的中間產物。真正有意義的是模型的預測能力。因此,從預測分布的角度來定義遺忘,比從參數變化的角度更加本質和通用。
而且,預測是可以被驗證的。你可以觀察模型的預測是否準確,但你無法直接觀察一個"正確的參數後驗分布"應該是什麼樣。這使得基於預測的遺忘定義具有可操作性和可驗證性。
驗證理論:遺忘無處不在的實證證據
理論提出後,最關鍵的問題是:它在實踐中有效嗎?研究團隊設計了一系列覆蓋多個領域的實驗來驗證他們的理論,結果令人印象深刻。他們發現,無論在哪種學習場景下,遺忘現象都客觀存在,並且表現出一些共同的規律。

在回歸任務中,研究團隊訓練一個簡單的神經網路來擬合一個正弦函數。這是最基礎的機器學習任務之一,就像教一個孩子認識數字一樣簡單。即便在這麼簡單的任務中,研究團隊仍然觀察到明顯的遺忘現象。有趣的是,遺忘傾向在訓練過程中不是單調變化的,而是呈現出複雜的動態模式。在訓練初期,遺忘傾向通常較高,因為模型還在大幅調整自己。隨著訓練的進行,遺忘傾向逐漸穩定下來,但從不完全消失。更有意思的是,研究團隊通過改變學習算法的各種參數(比如學習率、批次大小、網路規模),觀察到遺忘傾向會相應變化,這證明遺忘確實是學習過程的固有屬性。
分類任務的情況類似。研究團隊在一個二分類問題上(區分兩個半月形區域的點)訓練神經網路,同樣觀察到了持續的遺忘現象。特別引人注目的是,當研究團隊人為製造任務切換(先學任務A,再學任務B,這在學術界被稱為"類增量學習")時,遺忘傾向在任務切換的瞬間會出現顯著的跳躍。這符合直覺:當環境突然改變時,學習者需要快速適應,這個快速適應的代價就是大量遺忘。
生成建模任務提供了另一個有趣的視角。研究團隊訓練一個AI來生成符合特定分布的數據點(仍然是那個二維的兩個半月形分布)。這類任務特別有意思,因為這裡沒有明確的"正確答案",模型只是試圖捕捉數據的內在規律。然而即使在這種情況下,遺忘現象依然存在。研究團隊通過測量模型在訓練過程中生成樣本分布的變化,發現模型確實會逐漸"忘記"數據分布的某些細節特徵,即使這些特徵在訓練數據中反覆出現。

但最戲劇性的發現來自強化學習實驗。強化學習是訓練AI玩遊戲或控制機器人的主要方法,也是被認為最接近人類學習方式的一種範式。研究團隊使用經典的CartPole環境(一個平衡倒立擺的任務,類似於用手掌頂一根豎直的棍子)訓練深度Q網路。結果顯示,強化學習中的遺忘現象遠比監督學習嚴重得多。
遺忘傾向的曲線在強化學習中表現出劇烈的、混亂的振盪。這種混亂不是隨機噪聲,而是反映了強化學習的一個基本特徵:環境的非平穩性。在監督學習中,數據分布通常是固定的或緩慢變化的。但在強化學習中,智能體的策略改變會導致它遇到的狀態分布改變,而狀態分布的改變又會影響策略的更新,形成一個複雜的反饋循環。這個循環導致學習過程極不穩定,遺忘現象也因此格外嚴重。
研究團隊通過詳細的數據分析指出,強化學習中的混亂遺忘動態是當前強化學習算法效率低下的一個重要原因。現有的優化算法主要是為監督學習設計的,它們假設數據分布相對穩定。當應用到強化學習這種高度非平穩的環境時,這些算法無法有效地平衡適應和保留,導致智能體在學習過程中不斷地"忘記"之前學到的有用策略。
在所有這些實驗中,一個一致的發現是:遺忘和學習效率之間存在微妙的權衡關係。研究團隊定義了一個"訓練效率"指標,衡量模型達到一定性能水平所需的訓練時間。令人驚訝的是,遺忘傾向最低的模型往往不是訓練效率最高的。相反,存在一個"最優遺忘水平",在這個水平上,模型既能快速適應新資訊,又不會過度破壞已有知識。
為了理解這個現象,我們可以用一個比喻。想像你在整理一個雜物房。如果你完全不扔任何東西(零遺忘),房間很快就會被塞滿,新的有用物品無處可放。但如果你隨意亂扔(過度遺忘),可能會把以後還要用的東西丟掉。最優策略是選擇性地清理:保留重要的東西,丟棄不重要的。機器學習系統面臨同樣的困境。模型的"容量"是有限的,它不能無限制地保留所有資訊。適度的遺忘實際上是一種必要的篩選機制,它讓模型能夠為新知識騰出空間。
研究團隊通過操控學習算法的各種參數,系統地研究了這個權衡關係。他們發現,當改變模型大小時,存在一個"甜蜜點":太小的模型學不到足夠的知識,太大的模型則會過度遺忘(因為有太多參數需要協調)。當改變優化器的動量參數時,也觀察到類似的模式:適中的動量帶來最佳的學習效率,因為它在穩定性和適應性之間取得了平衡。批次大小的影響也很明顯:太小的批次導致訓練不穩定和嚴重遺忘,太大的批次雖然穩定但學習緩慢,中等大小的批次提供了最好的權衡。
深層機制:為什麼遺忘是學習的必然伴侶
通過這些廣泛的實驗,研究團隊不僅驗證了他們的理論框架,還揭示了遺忘現象背後的一些深層機制。他們的分析表明,對於使用近似方法的學習系統(這包括幾乎所有實用的深度學習模型),遺忘幾乎是不可避免的。
為什麼會這樣呢?根本原因在於,實際的機器學習系統都在進行某種形式的"壓縮"。想像你要在一個小筆記本上記錄一本厚書的內容,你不可能逐字逐句地抄寫,只能提取要點。機器學習模型面臨類似的約束:它們的參數數量是有限的,不可能完美地記住所有訓練數據的每一個細節。因此,模型必須學會"概括"或"壓縮"資訊。
這個壓縮過程是有損的。當模型遇到新數據時,它必須調整參數來容納新資訊。但參數是有限的,調整參數來適應新數據不可避免地會影響模型對舊數據的表示。這就像你在筆記本上添加新內容時,可能需要擦掉或覆蓋一些舊筆記,或者至少需要重新組織筆記的結構,這個過程中一些舊資訊的細節就會丟失。
研究團隊通過一個精心設計的實驗展示了這一點。他們比較了三種不同的學習系統:一個完整的貝葉斯推理系統(理論上的理想學習者),一個使用對角協方差矩陣的簡化貝葉斯系統(一種常用的近似),和一個基於梯度下降的點估計系統(最常用的深度學習方法)。結果顯示,只有第一個系統完全不遺忘,因為它精確地維護了關於參數的完整概率分布。後兩個系統都表現出遺忘,程度隨著近似程度的增加而增加。
但這裡有一個看似矛盾的發現:雖然近似系統會遺忘,但在實際任務中,它們的表現往往比完美的貝葉斯系統更好(至少在有限的計算資源下)。為什麼會這樣?研究團隊指出,這是因為適度的遺忘實際上起到了一種"正則化"的作用。正則化是機器學習中的一個技術術語,指的是防止模型過度擬合的方法。遺忘可以被看作是一種隱式的正則化:通過不完美地記住每個訓練樣本,模型被迫學習更加泛化的模式,而不是記憶具體的例子。
這個發現與人類學習的某些特徵有著有趣的相似之處。認知科學研究表明,人類的遺忘並非完全是缺陷,在某些情況下它是有益的。忘記不重要的細節可以幫助我們聚焦於重要的模式和原則。機器學習系統似乎也展現出了類似的特性。
研究團隊還深入分析了不同學習場景下遺忘動態的差異。他們發現,數據分布的穩定性是一個關鍵因素。在獨立同分布的數據上(比如每次從同一個數據池中隨機抽取樣本),學習相對平滑,遺忘傾向也相對穩定。但當數據分布發生變化時(比如任務切換或強化學習中的策略變化),遺忘會急劇增加。
這個觀察引出了一個重要的實踐啟示:要減少遺忘,關鍵不僅在於改進學習算法本身,還在於穩定訓練過程中的數據分布。這解釋了為什麼經驗重放(在強化學習中存儲和重複使用過去的經驗)這樣的技術如此有效。經驗重放本質上是通過人為地保持數據分布的穩定性來減少遺忘。但研究團隊的理論表明,重放只是治標不治本,因為它沒有解決遺忘的根本原因。一個更根本的解決方案需要設計出能夠在不穩定數據流中保持自洽性的學習算法。
另一個有趣的發現涉及模型架構的影響。研究團隊在CIFAR-10圖像分類數據集上比較了不同架構(邏輯回歸、多層感知機、卷積神經網路和殘差網路)的遺忘傾向。結果顯示,更強大的架構(如殘差網路)反而表現出更高的遺忘傾向,但它們的最終性能卻是最好的。這再次印證了遺忘和學習能力之間的複雜關係:強大的模型之所以強大,部分原因正在於它們能夠快速適應和調整,而這種適應性的代價就是更多的遺忘。
研究團隊從理論角度闡釋了為什麼會出現這種現象。他們證明,在他們的框架下,遺忘本質上衡量的是模型在不同時間點的"信念"之間的不一致性。一個更有表達力的模型(如深度神經網路)可以表示更複雜的信念分布,因此它在更新時也可能產生更大的信念變化。相比之下,一個簡單的線性模型的表達能力有限,它的信念分布本身就很"僵硬",因此即使更新也不會產生太大的變化。但這種僵硬是以犧牲學習能力為代價的。
理論邊界:什麼時候這個框架適用
研究團隊非常坦誠地討論了他們理論框架的適用範圍和局限性。他們指出,這個基於"預測一致性"的遺忘定義依賴於一個關鍵假設:學習系統必須能夠被看作是維護著一個關於未來的"連貫的概率模型"。
什麼叫連貫的概率模型呢?簡單說,就是學習系統的內部狀態能夠被解釋為一個定義良好的概率分布,這個分布描述了系統對未來可能觀察到的數據的預期。大多數標準的機器學習方法都滿足這個條件。比如,一個分類神經網路輸出的是各個類別的概率,一個生成模型明確定義了數據的概率分布,即使是強化學習中的價值函數也可以被解釋為對未來回報的某種概率預期。
但在某些特殊情況下,這個假設可能不成立。研究團隊舉了幾個例子。第一個是"瞬態階段",比如在強化學習中,當我們突然清空經驗回放緩衝區,或者重置目標網路時,學習系統的狀態在那一瞬間不對應任何連貫的預測模型。在這些瞬間,談論遺忘是沒有意義的,因為系統本身暫時失去了"連貫的信念"這個前提。第二個例子是一些非概率的啟發式算法,它們可能根本不維護一個概率模型,而是使用一些規則或查找表來做決策。對於這類系統,基於預測分布的遺忘定義確實不適用。
不過研究團隊強調,這些例外情況相對罕見。在實際應用中,絕大多數機器學習系統在絕大多數時間裡都滿足這個假設。而且,這個理論框架的價值不在於它能涵蓋所有可能的學習系統,而在於它為主流的機器學習方法提供了一個統一的、原則性的分析工具。
研究團隊還討論了測量方法的實際挑戰。雖然"遺忘傾向"在理論上定義得很清楚,但在實踐中精確測量它並不簡單。這個測量需要讓學習系統根據自己的預測生成數據,然後用這些數據更新自己,最後比較更新前後的預測分布。這個過程涉及多次"克隆"模型和模擬未來軌跡,計算成本較高。研究團隊使用了蒙特卡洛方法(一種通過大量隨機採樣來近似複雜概率分布的技術)來實現這個測量,但承認這只是一個近似。
另一個實踐挑戰是如何選擇合適的"發散度量"來量化預測分布的變化。研究團隊在實驗中使用了KL散度(一種測量兩個概率分布之間差異的標準方法)和最大平均差異(適用於連續分布的另一種度量)。不同的度量可能會給出定性相似但定量不同的結果。研究團隊建議,在實際應用中應該根據具體任務選擇合適的度量,並且最好使用多個度量來交叉驗證結果。
此外,研究團隊指出,他們的理論目前主要關注"點估計",也就是學習系統在某個特定時刻的遺忘傾向。一個自然的擴展是考慮遺忘傾向在整個學習過程中的累積效應。雖然研究團隊在實驗中繪製了遺忘傾向隨時間的曲線,但如何將這些時間序列資訊整合成對學習系統的整體評估,仍然是一個開放問題。
儘管存在這些局限,研究團隊的實驗結果令人信服地表明,這個理論框架捕捉到了機器學習系統行為的一個重要方面。遺忘傾向的變化與學習效率、模型性能、訓練穩定性等可觀察的現象高度相關,這證明了這個理論量不僅在數學上優雅,而且在實踐中有意義。
至頂AI實驗室洞見
這項研究建立了一座橋樑,連接了機器學習中一些之前看似獨立的概念。遺忘、泛化、正則化、經驗重放、持續學習,這些概念現在可以在一個統一的框架下被理解。研究團隊的工作表明,這些現象都與學習系統維護預測一致性的能力有關。這種統一的視角可能幫助研究人員發現新的算法設計原則。
一個直接的應用方向是開發"遺忘感知"的學習算法。既然我們現在有了測量遺忘的方法,就可以把"最小化遺忘"或"維持最優遺忘水平"作為一個明確的優化目標。也許會有一個神經網路優化器,不僅關注訓練損失,還監控遺忘傾向,並動態調整學習率或參數更新策略以保持在最優遺忘區間。這種算法在持續學習和強化學習等容易發生嚴重遺忘的場景中可能特別有用。
另一個有前景的方向是利用這個理論來診斷和調試學習系統。當一個模型表現不佳時,我們可以檢查它的遺忘傾向曲線,看看是否存在異常的遺忘模式。過高的遺忘可能意味著學習率太大或批次大小太小,遺忘模式的劇烈波動可能表明數據分布不穩定或存在某種形式的分布偏移。這種診斷資訊可以指導我們如何調整超參數或改進數據採樣策略。
在持續學習領域,這項研究提供了一個新的評估標準。目前的持續學習方法主要關注任務性能的保持,但正如研究團隊所指出的,性能保持不等於不遺忘,因為存在後向遷移的干擾。使用遺忘傾向作為評估指標,我們可以更純粹地衡量一個算法到底在多大程度上保留了舊知識,而不是依賴於可能混淆多個因素的任務性能指標。
對於強化學習,這項研究的啟示尤其重要。研究團隊發現強化學習中的遺忘問題格外嚴重,這可能是當前強化學習效率低下的一個根本原因。一個自然的推論是,開發能夠穩定遺忘動態的新型強化學習算法可能會帶來顯著的性能提升。這可能涉及新的經驗回放機制、更智能的探索策略,或者根本性地重新思考如何在非平穩環境中進行價值函數逼近。
從更宏觀的角度看,這項研究為理解智能本身的本質提供了新的視角。人類智能的一個顯著特徵是我們能夠持續學習新事物而不完全忘記舊知識,儘管我們確實會遺忘一些東西。這項研究表明,遺忘可能不是學習的缺陷,而是在有限資源約束下實現高效學習的必要代價。人類大腦似乎已經進化出了非常精妙的機制來管理這個權衡,選擇性地保留重要資訊而忘記不重要的細節。理解這些機制,並在人工系統中複製它們,可能是通向更強大AI的關鍵一步。
說到底,這項研究回答了一個看似簡單但實際深刻的問題:當機器學習新東西時,它為什麼會忘記舊東西?答案是複雜而微妙的。遺忘不僅僅是一個需要消除的缺陷,它是有限容量系統在不斷變化的環境中學習時的自然產物,甚至在某種程度上是必要的。真正的挑戰不是完全消除遺忘,而是智慧地管理它,在保留重要知識和適應新資訊之間找到恰當的平衡。這項研究為我們提供了理解和處理這個挑戰的新工具,這些工具的全部潛力還有待我們去探索和實現。
Q&A
Q1:什麼是"遺忘傾向"?
A:遺忘傾向是研究團隊提出的一個測量指標,用來量化AI系統在看到自己預期會出現的數據後改變預測的程度。如果系統根據自己的預測更新後改變了未來預期,就說明它忘記了某些之前學到的知識。這個指標越高,說明系統越容易遺忘。
Q2:適度遺忘為什麼對學習有益?
A:就像人類需要忘記不重要的細節來專注於重要模式一樣,AI系統的適度遺忘實際上起到了"資訊篩選"的作用。完全不遺忘會導致模型容量被無用資訊占滿,過度遺忘則會丟失重要知識。最優學習效率往往出現在中等遺忘水平,這時系統既能快速適應新資訊,又不會過度破壞已有的有用知識。
Q3:這項研究對實際AI開發有什麼幫助?
A:這項研究為AI開發者提供了診斷和優化學習系統的新工具。通過監測遺忘傾向,開發者可以識別訓練過程中的問題,如學習率設置不當或數據分布不穩定。研究還揭示了不同超參數(如批次大小、模型規模)如何影響遺忘,幫助開發者找到最優配置。






