香港大學教我們：讓AI「邊學邊記」突破300關，終於不再「學了新的忘了舊的」

這項由香港大學計算與數據科學學院及深圳灣區人工智慧與電腦視覺研究中心聯合開展的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2602.03473。

贊助商廣告

人類有一種很自然的學習方式：學會騎自行車之後，再去學騎摩托車，不會突然忘記怎麼踩腳踏板。但現在的人工智慧系統卻常常做不到這一點——當它學習新知識時，舊知識會像被橡皮擦掉一樣消失，這種現象在學術界被稱為"災難性遺忘"。

更麻煩的是，現實世界中的任務是源源不斷的。今天要認識貓和狗，明天要認識各種花卉，後天又要識別建築風格。如果每次來了新任務，AI都要把舊知識清空重學，那跟一個每天早上失憶的人沒什麼區別。研究人員把這類問題叫做"持續學習"，其中最難啃的骨頭是"類別增量學習"——AI需要一批接一批地學習全新的類別，同時還要記住所有已學過的內容。

大多數現有研究在這個問題上做得還不錯，但有個致命的局限：它們只在很短的任務序列上測試過，比如把100個類別分成10組，每次學一組，一共10次。然而真實世界可不是這麼客氣，任務可能會綿延成百上千個。當研究團隊把現有方法推到100個任務、200個任務甚至300個任務的場景下，很多方法的表現會像被長跑耗盡體力的運動員一樣，直線崩潰。

正是為了解決這個"越跑越慢甚至摔倒"的問題，香港大學的研究團隊提出了一套新方案，叫做CaRE——一個可以擴展到300多個連續任務的持續學習框架。與此同時，他們還專門構建了一個更具挑戰性的測試數據集OmniBenchmark-1K，讓整個領域終於有了測試"長跑能力"的專用跑道。

一、"學了新的忘了舊的"，這個老問題到底有多麻煩

先用一個貼近生活的場景來理解這件事。假設你是一家博物館的導覽員，博物館一直在新增展廳。第一個月你學會了介紹古埃及文物，第二個月又來了古希臘展廳，第三個月增加了中世紀歐洲，就這樣一直加下去，一年後博物館有了幾百個展廳。

贊助商廣告

一個優秀的導覽員不僅要記住最新展廳的內容，還要在遊客問起三年前那個古埃及展廳時，依然能侃侃而談。更難的是，當有人拿出一件從未見過的文物問你"這是哪個時代哪個地區的風格"時，你需要調動所有展廳的知識來綜合判斷。

這就是持續學習面臨的核心挑戰：既要不斷吸收新知識，又不能遺忘舊知識，還要能在新知識和舊知識之間靈活切換、互相借鑑。

近年來，研究者們發現藉助已經在海量圖片上預訓練好的大模型作為起點，然後用輕量級的"補丁模組"來學習每個新任務，是一條很有效的路子。這類方法的核心思路是：大模型已經掌握了非常通用的視覺理解能力，學新任務只需要加一個小小的適配器（Adapter），就像給一雙通用運動鞋加上針對不同運動的鞋墊一樣，既省力又有效。

但問題在於，當任務數量從10個擴展到100個，再到300個時，這些"鞋墊"會越堆越多。如何在幾百個鞋墊里，迅速找到對當前情況最合適的那一個，甚至是最合適的幾個組合，就成了真正的技術難題。

二、大腦如何調用記憶：CaRE的設計靈感來自人類認知

研究團隊在設計CaRE時，借鑑了人類記憶的運作方式。當你試圖區分一隻柯基犬和一隻哈士奇時，你不會從零開始思考，而是會自動調用所有關於狗的記憶——可能包括你養過的寵物、看過的紀錄片、以及朋友家裡的各種狗狗。與此同時，你對"貓科動物的特徵"這類記憶雖然也存在，但此刻並不是最主要的參考依據。

換句話說，人類在面對新問題時，會有選擇性地召喚相關歷史知識，而不是無差別地翻遍所有記憶。這種"按需調用相關記憶"的機制，就是CaRE設計的核心出發點。

CaRE的核心組件叫做"雙層路由專家混合"機制，英文縮寫是BR-MoE。這個名字聽起來複雜，但背後的邏輯其實就像一家大型圖書館的智能檢索系統。

圖書館裡有成百上千個書架（對應著每個任務學到的"專家模組"）。當你帶著一本書來查詢時，檢索系統不會讓你把所有書架都翻一遍。它會先判斷這本書大概屬於哪幾個類別，然後把你引導到最相關的兩三個書架區域，再在這些區域內精確找到最匹配的幾本參考書，綜合給出答案。

贊助商廣告

具體來說，BR-MoE的工作分兩步走。第一步叫"動態路由器選擇"，第二步叫"動態專家路由"。這兩步層層遞進，共同完成對歷史知識的精準檢索。

三、第一步：用"自信心"來選圖書管理員

先來理解BR-MoE的第一步。每個任務在訓練時都會產生三樣東西：一個"類別感知器"（相當於這個任務的專屬標籤解讀器），一個"路由網路"（相當於這個任務的專屬管理員），以及一個"適配器專家"（相當於這個任務的知識本體）。

當一張新圖片進來時，系統會把它同時送給所有任務的類別感知器，讓每個感知器都判斷一下："這張圖片像不像我負責的那些類別？"

關鍵在於，系統並不是看哪個感知器評分最高，而是看哪個感知器"最有把握"。這個"把握程度"通過一個叫做"資訊熵"的指標來衡量。資訊熵越低，說明感知器越篤定，越低越說明"這張圖很可能屬於我管的類別"；資訊熵越高，則說明感知器自己也不確定，在各種可能性之間猶豫不決。

用一個更形象的比喻：你拿著一張柯基犬的圖片去問100個專家。負責"犬類"的專家會很快、很肯定地說"這是犬類！"（低熵，高自信）；而負責"汽車"的專家會茫然地說"這……好像是什麼動物？但又好像不是……"（高熵，低自信）。

系統根據資訊熵從低到高排序，選出最自信的幾個感知器所對應的路由網路。在訓練時，除了當前任務的路由網路必然被激活外，還會額外動態選擇一個最相關的歷史路由網路；在推理時，則完全依賴這種動態選擇機制，選出兩個最自信的路由網路。

這個設計之所以採用資訊熵而不是簡單的最高分，是因為資訊熵能夠捕捉整體分布的不確定性，而不僅僅是最高概率值的大小。一個感知器可能在某個類別上打了60分，但它同時在其他類別上也打了55分和50分，整體非常不確定——這時資訊熵就會比較高，說明它其實並不擅長處理這張圖片。相比之下，一個感知器在某個類別上打了90分，其他類別都只有5分，整體非常篤定，資訊熵就會很低。

贊助商廣告

研究團隊用實驗驗證了這個選擇：用自動編碼器重建誤差、用原型分類器的餘弦相似度、或者直接取最高分等替代方案，表現都明顯不如資訊熵方法。

四、第二步：管理員精確調配專屬檔案

一旦選出了最相關的幾個路由網路（比如選出了管理"犬類"任務的路由網路96號和管理"哈士奇"相關任務的路由網路53號），第二步便開始了。

每個被選中的路由網路會生成一組"權重評分"，評估在它管轄範圍內的所有專家適配器中，哪幾個最值得調用。評分最高的前三個專家會被激活，它們的輸出按照各自的權重加權合併，形成一個融合了多方知識的特徵表示。

以柯基犬的例子來說：路由網路96號激活了專家96（柯基犬相關）、專家16（狗類通用知識）和專家37（動物毛髮紋理），並根據它們各自的相關程度分配權重。路由網路53號則激活了專家53（哈士奇，因為哈士奇與柯基在外形上有些相似之處）、專家19和專家1（均含動物知識）。這兩批激活的專家各自產生特徵，然後合併在一起。

這樣一來，最終的特徵表示里既有柯基犬自身最獨特的判別特徵（來自專家96），也有來自相似犬種的參考特徵（來自專家53），還有通用的動物細節特徵（來自專家16等）。這種融合既"精準"——因為調用了最相關的知識，又"全面"——因為引入了互補的相關經驗。

除了這些任務專屬的專家之外，系統還引入了一個"共享專家"，這個專家積累的是所有任務的通用知識精華。這個共享專家不是固定不變的，而是通過一種叫做"指數移動平均"的方式，隨著每個新任務的學習而緩緩更新，就像一個不斷沉澱的經驗庫，總是保存著迄今為止所有任務的綜合知識摘要。每次有新任務到來，就用新任務訓練出的適配器參數去小幅度地更新共享專家，動量係數設為0.999，意味著更新非常緩慢、穩定，不會因為某個新任務而大幅改變積累多年的通用知識。

贊助商廣告

五、每一層網路都有自己的"判斷力"

這裡有一個非常重要的細節值得單獨說明：BR-MoE模組會被安裝在神經網路的每一個中間層，而不只是最後一層。這意味著網路的每一層都有自己獨立的路由判斷能力。

為什麼這很重要？因為在視覺神經網路里，淺層負責識別邊緣、紋理這類低級特徵，而深層才開始理解語義、類別這樣的高級概念。淺層看到柯基犬時，感知到的可能只是"有毛"、"有角"這類基礎特徵，而深層才會判斷"這是一隻犬，而且是柯基"。

如果全網路共用一套路由決策，就相當於要求淺層也按照高層的邏輯來調用專家，這顯然不合理。CaRE的解決方案是讓每一層都自主做決策，根據自己這一層的特徵抽象程度，選擇最合適的知識來輔助當前層的特徵提取。

為了訓練每一層的類別感知器都能做出有效判斷，研究團隊引入了一個輔助損失函數。具體來說，對於每一層的類別感知器，它不僅要自己學著區分當前任務的類別（分類損失），還要模仿最後一層深層網路的輸出分布（KL散度損失）。這就好像讓每個樓層的接待員不僅要處理好自己樓層的工作，還要學習頂層總經理的判斷方式，使得即使是淺層，也能形成更具語義價值的判斷，從而做出更好的路由決策。

研究團隊用實驗驗證了層級獨立決策的價值：當把路由決策的"視野"從1層擴展到2層（即當前層的決策會延續到下一層），再擴展到3層時，性能持續下降。這證明每一層都需要有自己量身定製的知識檢索模式，而不是簡單地共用上一層的決策。

六、訓練時的細節：既要記住舊知識，也要學會新任務

在訓練機制上，CaRE採用了一種參數凍結策略。每來一個新任務，就為這個任務新增一套三元組（類別感知器、路由網路、適配器專家），同時把所有以前任務的參數鎖死不動。這樣做的好處是從根本上避免了"學新忘舊"——舊知識的參數從未被觸碰，自然不會被覆蓋。

贊助商廣告

整體訓練目標由兩部分組成。主要部分是針對當前任務的分類損失，使用了一種叫做"角度懲罰"的分類函數，通過對特徵向量和類別向量之間的餘弦相似度做歸一化，使得不同類別之間的決策邊界更加清晰，配合一個固定放大係數20來銳化分類邊界。輔助部分則是對每一層類別感知器的監督，包括該層自身的分類損失和與最終層輸出的KL散度對齊損失。這兩部分加權組合，構成了最終的優化目標。值得一提的是，輔助損失的權重係數λ設為1，實驗表明在0.5到2.0的範圍內，性能對這個參數並不敏感，說明這個設計具有良好的穩定性。

七、為了公平測試，還專門造了一個新跑道

在驗證CaRE的性能時，研究團隊遇到了一個尷尬的現實：現有的測試數據集根本不夠用來評測長序列性能。最常用的CIFAR-100隻有100個類別，如果分成100個任務，每個任務就只有1個類別，這種測試毫無意義。ImageNet雖然大，但絕大多數預訓練模型都用它訓練過，測它就像考試前偷看了答案，成績沒有參考價值。

於是研究團隊從頭構建了一個新數據集，命名為OmniBenchmark-1K。這個數據集從OmniBenchmark-V2中精心篩選而來，包含來自21個視覺領域的1000個類別，共約18.87萬張訓練圖片，每個類別平均169張，最多的有403張，最少也有100張。測試集包含約19849張圖片，每類約19張。

為了確保均衡性，數據集的構建過程使用固定隨機種子，從每個視覺領域中等比例抽取類別，覆蓋了鳥類、食物、活動等21個不同主題。這個數據集的類別之間有的差異巨大（比如蘑菇和飛機），有的則語義相近（比如不同品種的狗），這種多樣性正是測試持續學習能力的絕佳場景。

在這個新跑道上，研究團隊設計了四種難度不同的評測配置。"B0 Inc10"代表沒有初始基礎類，每個任務學10個類，總共100個任務；"B0 Inc5"則是每任務5個類，共200個任務；"B100 Inc6"有100個基礎類打底，再學151個任務；最難的"B100 Inc3"則是在100個基礎類之上，再連續學301個任務，每次只學3個類。

贊助商廣告

與此同時，研究團隊也在OmniBenchmark-V1、ObjectNet、ImageNet-R、ImageNet-A等傳統數據集上進行了較短序列（50到60個任務）的評測，以及CIFAR-100等超短序列（5到20個任務）的經典場景測試。

八、跑完300關，CaRE遙遙領先

在長序列評測結果上，CaRE展現出了壓倒性的優勢。以100任務場景為例，CaRE的最終準確率達到68.27%，比當時最強的競爭對手MOS（64.27%）高出4個百分點，比MIN（63.60%）高出近4.67個百分點。

當任務數量增加到200個時，差距進一步擴大。CaRE以67.46%的最終準確率領先，而強勁的TUNA只有59.14%，差距接近8.32個百分點。在151個任務的場景下，CaRE超過APER-Adapter約6個百分點。

最引人注目的是301個任務的極端場景。在這個超長序列下，大多數方法都出現了明顯的性能滑坡，但CaRE依然保持在68.51%的最終準確率，明顯高於所有對手。

研究團隊還特別觀察到一個發人深省的現象：一些在短序列表現不錯的方法，比如SEMA和MoAL，在長序列下會出現斷崖式下跌。以MoAL為例，在最初的20個任務里它的表現相當不錯，但隨著任務數量增加，它的準確率急劇下降，最終遠落後於CaRE。這說明能在短序列下工作的方法，並不一定具備支撐長序列的內在架構。

在短序列經典測試上，CaRE同樣表現優異。在CIFAR-100的10任務設置下，CaRE的最終準確率達到92.46%，超過MoAL約1.97個百分點，超過TUNA約0.75個百分點。在ObjectNet的20任務設置下，CaRE以66.54%的最終準確率領先，超過SLCA超過5個百分點。在ImageNet-R和ImageNet-A兩個極具挑戰性的數據集上，CaRE分別獲得80.53%和64.78%的最終準確率，繼續保持領先。即便是只有5個任務的超短序列評測（VTAB數據集），CaRE以93.80%的最終準確率居於榜首。

從不同任務順序下的穩定性來看，研究團隊用4個不同的隨機種子生成4種不同的任務排列，結果顯示CaRE在最終準確率上的標準差僅為0.16，是所有對比方法中最低的，遠低於MOS的0.88和TUNA的1.00。這說明CaRE的優勢並非依賴於特定的任務順序，而是來自其架構本身的魯棒性。

贊助商廣告

九、效率上的驚喜：更強的同時，還更輕便

一個很自然的擔憂是：這麼複雜的雙層路由機制，計算開銷會不會很高？研究團隊在100任務場景下對計算效率進行了詳細分析，結果令人驚喜。

CaRE每個任務平均需要的可訓練參數量為330萬，在所有對比方法中處於中等偏低水平。學完所有任務後，額外附加在預訓練模型上的參數總量約為9099萬，而MOS為3227萬，但MOS的性能明顯低於CaRE。換個維度看，與性能接近的MIN相比，CaRE的參數量更少。

推理速度上，CaRE的平均推理延遲約為70.89毫秒，與MIN的71.13毫秒基本相當，但明顯快於MOS的1116.54毫秒和TUNA的820.19毫秒。也就是說，CaRE用了不到MOS十六分之一的推理時間，就實現了更高的準確率。

十、路由行為的可視化：系統真的在"按需調用相關知識"嗎

為了驗證BR-MoE確實在做有意義的知識檢索而不是隨機選擇，研究團隊進行了路由行為分析。

在301任務的評測協議下，他們統計了不同網路層在不同階段（學習10個任務、100個任務、301個任務後）的路由召回率。路由器的Top-2召回率指的是：被激活的兩個路由網路中，有沒有至少一個對應真實任務。專家的Top-3召回率則指：激活的三個專家中，有沒有對應真實任務的專家。

結果顯示，隨著網路層數的加深，召回率持續上升。在學習了301個任務之後，第3層的路由器召回率為27.4%，專家召回率為58.4%；而第12層（最深層）的路由器召回率達到80.6%，專家召回率達到85.8%。這說明深層網路已經形成了足夠豐富的語義表示，能夠以很高的準確率識別當前輸入屬於哪個任務範疇，並調用正確的歷史知識。

淺層的較低召回率並不代表失敗，而是符合預期——淺層處理的是通用低級特徵，不同任務的淺層知識本來就有較多重疊，所以調用"相關任務"還是"非相關任務"的淺層專家，差異並不大。

研究團隊還通過熱力圖可視化了100個任務下，各層的路由器激活模式和專家激活模式。結果清楚地顯示出層次化的激活結構：淺層的激活分布比較彌散，少數幾個路由器被絕大多數任務頻繁調用（說明淺層知識確實更加通用）；深層的激活則越來越集中，每個任務傾向於激活與自身高度相關的特定路由器和專家（說明深層知識更加任務專屬）。

贊助商廣告

特別有意思的一個發現是：即便是學習早期任務時，那些尚未存在的後期任務的知識也無從獲取；但在推理時，系統可以動態地將後期任務積累的知識融合進來，用於輔助對早期任務類別的判斷。這種推理時的靈活性意味著，隨著系統學習的任務越來越多，它對早期任務的判斷能力其實也在悄悄提升，因為可調用的參考知識庫變得更加豐富了。

十一、消融實驗：把CaRE拆解開來看

為了搞清楚每個設計細節的貢獻，研究團隊做了一系列"拆零件"實驗，逐一驗證每個組件的必要性。所有消融實驗都在OmniBenchmark-1K的100任務設置下進行。

關於動態路由選擇的重要性：如果把所有類別感知器全部移除，改用原型分類器來靜態決定路由（即為每個任務維護一個原型向量，根據餘弦相似度決定用哪個任務的路由），最終準確率會下降整整9.98個百分點。這是所有消融實驗中幅度最大的一次，充分說明層級獨立的動態路由是CaRE性能的核心來源。

關於多路由網路的必要性：如果把激活的路由網路數量從2個減少到1個（只激活當前任務自己的路由），最終準確率下降1.20個百分點。如果在1個路由的基礎上激活雙倍數量的專家來補償（也就是說通過多調專家來彌補少用路由的缺陷），性能依然沒有恢復到2個路由的水平。這說明，多個路由網路帶來的不只是更多的專家資源，更重要的是帶來了來自不同任務視角的特徵處理方式，這種多樣性是單純增加專家數量所無法替代的。

關於專家路由網路（門控機制）的必要性：如果去掉門控評分，直接通過類別感知器選擇K個專家然後直接加和（不加權），性能會下降6個百分點以上。增加被激活的專家數量（從K=1到K=3），如果沒有門控加權，性能會持續下降，因為不相關專家的特徵被等權加入，相當於噪聲疊加。

關於專家數量K的選擇：實驗發現K=3是最優點。從K=1增加到K=2再到K=3，性能持續提升，但K=6和K=18與K=3基本持平，沒有進一步提升。這與大型語言模型中"激活更多專家就能持續提升性能"的經驗相悖。原因在於，持續學習的目標是精準檢索相關歷史知識，而不是廣泛聚合通用知識。激活過多專家不可避免地引入無關任務的特徵，這些特徵對當前任務來說是噪聲，反而會干擾判斷。

贊助商廣告

關於單路由器的局限性：如果整個系統只有一個共享路由器，每來一個新任務就擴展這個路由器的通道維度（而不是新增獨立的任務專屬路由器），性能會暴跌11.79個百分點。這說明隨著任務數量增加，一個單一路由器根本無法有效區分和調度幾百個不同任務的知識。

關於適配器通道配置：實驗發現，任務專屬適配器使用16個瓶頸通道最優；共享專家使用64個通道最優；EMA動量係數使用0.999最優，過大（0.9999）或過小（0.9）都會導致性能下降。

關於模組放置位置：研究團隊還測試了兩種連接方式——"先經過適配器再送入類別感知器和路由網路"（After Adapter）與"原始特徵直接送入類別感知器和路由網路"（Before Adapter）。結果顯示前者優於後者1.36個百分點，說明經過任務專屬適配器變換後的特徵，比原始特徵更適合用來做路由決策。

---

說到底，CaRE做的事情可以用一句話概括：讓AI學會"按圖索驥"，而不是"全部翻遍"。面對一張新圖片，它不是把所有學過的知識都翻出來，而是先判斷"這張圖大概涉及什麼主題"，再有的放矢地調出相關歷史知識來輔助判斷，而且這個判斷在網路的每一層都在獨立進行，每層都有自己的"專業判斷力"。

這個設計之所以在300多個任務的超長序列上依然有效，是因為它的效率隨任務數量增長得非常克制——無論有多少任務，每次推理只需要激活2個路由網路和6個專家，而不是把所有幾百個任務的知識全部調用一遍。同時，它的準確性依賴於深層特徵足夠豐富的語義資訊，實驗已經證明深層的路由準確率高達80%以上，完全足夠支撐高質量的知識檢索。

這項研究的意義不只在於刷新了技術指標。它更重要的貢獻在於：揭示了"長序列持續學習"是一個與"短序列持續學習"截然不同的挑戰，並提供了第一條被驗證可行的解決路徑。它還提供了OmniBenchmark-1K這個專為長序列評測設計的數據集，讓未來的研究有了可以共同比拼的標準跑道。

贊助商廣告

當然，CaRE也有它誠實承認的局限性：隨著任務數量增長，附加到模型上的參數量是線性增長的，這在超長序列上會帶來不可忽視的儲存負擔。如何在不犧牲性能的前提下進一步壓縮模型複雜度，以及如何把這套方案擴展到視覺語言大模型，是研究團隊明確提出的未來方向。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2602.03473查閱完整論文，所有代碼和數據集也已在GitHub開源（搜索CaRE LMMMEng即可找到）。

---

Q&A

Q1：CaRE和普通持續學習方法相比，最核心的區別是什麼？

A：普通方法通常為每個任務訓練一個適配器，推理時要麼選一個固定的，要麼對所有任務的結果取平均。CaRE的核心區別在於雙層路由機制：先用資訊熵動態選出最相關的路由網路，再由這些路由網路按權重激活最匹配的專家模組，而且這個過程在網路每一層獨立進行。這種"按需調用相關知識"的方式，讓CaRE在長序列場景下比其他方法更穩健。

Q2：OmniBenchmark-1K和之前常用的CIFAR-100這類數據集相比，有什麼本質的不同？

A：CIFAR-100隻有100個類別，分成超過20個任務時每任務就只有幾個類，任務太短且類別太少，無法測試真實的長序列學習能力。OmniBenchmark-1K有1000個類別，橫跨21個視覺領域，每個類別至少100張訓練圖片，最多能分出300多個連續任務，專門用於評測持續學習系統在長任務序列下的綜合表現，是目前該領域規模最大、最全面的長序列測試集之一。

Q3：CaRE在長序列測試里有多少個任務時性能會開始明顯下降？

A：CaRE在所有測試配置下均保持了較為穩定的性能曲線。即便在301個任務的極端場景下，它的最終準確率仍維持在68.51%，是所有對比方法中最高的。相比之下，SEMA和MoAL等方法在超過20個任務之後就出現了明顯的性能滑坡，說明CaRE的架構設計從根本上更適合長序列場景，目前尚未觀察到明顯的性能斷崖點。

贊助商廣告