當AI「專家」越來越多，休斯頓大學研究團隊找到了讓它們和平共處的秘訣

這項由休斯頓大學電腦科學系與俄克拉荷馬大學電腦科學學院聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.06477，有興趣深入探索的讀者可通過該編號檢索完整原文。

贊助商廣告

**一個讓人頭疼的老問題**

假設你雇了一位精通法語的家教，他把你的法語輔導得相當不錯。然而當你第二天讓他改教西班牙語時，他居然把昨天學的法語全忘光了——不僅西班牙語教得一塌糊塗，就連原本擅長的法語也變得一片空白。這聽起來荒謬可笑，但對於人工智慧來說，這恰恰是一個真實存在的困境，有個專門的名字叫做"災難性遺忘"。

近年來，大型視覺-語言模型（就是那種既能看圖又能理解文字的AI系統）變得越來越強大，CLIP就是其中的代表。CLIP由OpenAI訓練，在海量圖文數據上學會了理解圖片和文字之間的關係，因此在識別各種物體時表現出色。但一旦我們想讓它在某個專業領域（比如衛星圖像分析或者紋理識別）更加精準，就必須對它進行額外訓練。問題來了：對某個專業領域訓練得越精，模型就越容易遺忘它之前掌握的通用知識，像一個精專於某處卻失去全局能力的偏科生。

休斯頓大學與俄克拉荷馬大學的研究團隊決定正面攻克這個問題。他們的方案不是讓AI反覆練習所有舊知識（這樣代價太高），也不是同時餵給它所有領域的數據（這樣管理起來極度複雜），而是發明了一套全新的"疊加"機制，讓不同領域的專家模型可以像樂高積木一樣拼合在一起，既保留各自的專長，又互不干擾。這套機制被他們命名為**GeoStack**（幾何疊加）。

**一、AI世界裡的"遺忘病"是如何產生的**

回到開頭那位家教的比喻。人類大腦在學新東西時，舊知識通常並不會消失，因為我們的神經網路足夠大且靈活，新舊知識可以共存於不同的記憶區域。然而，今天的AI神經網路在面對新任務時，卻傾向於直接覆寫原來的參數（可以理解為AI的"記憶細胞"），導致舊知識被新知識衝掉。

贊助商廣告

研究人員面對這個問題，歷史上提出過不少應對方法。一種思路是"知識蒸餾"——讓新舊兩個版本的AI互相對照，確保新AI的輸出不要偏離舊AI太遠，像是給AI裝了一個"守舊剎車"。另一種思路是"數據回放"——在訓練新任務時，同時混入一些舊任務的樣本數據，強迫AI不忘舊課，就像每天溫習舊筆記。還有一種流行方案叫"適配器"（Adapter）——給大模型裝上一個小插件，新任務只訓練這個插件，主模型保持不變，以此保護原有知識。

適配器方案聽起來很完美，但它有一個隱患：每個插件只專注於自己那個領域，當你想把多個插件的知識合併起來時，它們往往會互相打架。將一個衛星圖像專家插件和一個紋理識別專家插件同時插入同一個模型，兩個插件各自把圖像特徵拉向不同方向，結果往往兩頭落空，誰的任務都沒做好。

這恰恰是GeoStack要解決的核心矛盾：如何讓多個獨立訓練的專家插件，在合併之後依然各司其職、互不破壞？

**二、樂高積木式的知識疊加——GeoStack的核心思路**

研究團隊把GeoStack比作一種"幾何變換"的疊加遊戲。為了理解這個比喻，先把CLIP的工作原理想像成一個空間。CLIP把圖片和文字都壓縮成高維空間裡的"坐標點"，同一語義的圖片和文字坐標應該靠近，不同語義的應該遠離。分類的時候，AI就是在這個空間裡量量不同坐標之間的距離，從而判斷一張圖屬於哪個類別。

BiCLIP（雙線性CLIP）是這項工作的前序研究，其核心思想是：與其直接修改CLIP內部的複雜參數，不如在圖像特徵和文字特徵做距離計算之前，先對圖像特徵做一個"空間變換"——就像在地圖上放一塊扭曲的玻璃，讓原本看不清楚的專業領域邊界變得清晰。這個變換用一個矩陣W來表示（矩陣可以理解為一張描述"如何旋轉、縮放、傾斜坐標"的說明書）。

GeoStack在BiCLIP的基礎上更進一步。它的關鍵洞察是：如果每個專家域的變換矩陣W都足夠"溫和"——也就是說，W對空間的扭曲程度很小，接近於"什麼都不變"——那麼把多個W依次相乘，就相當於把多個微小扭曲疊加在一起，而不是讓後一個扭曲把前一個徹底覆蓋掉。這就像幾層輕薄的透明濾鏡疊在一起，每一層都稍微調整一下顏色，疊加後的效果是各層效果的溫和綜合，而不是其中某一層完全遮蔽其他層。

贊助商廣告

為了保證每個變換矩陣W都足夠"溫和"，研究團隊施加了兩個數學約束。第一個約束叫做**上三角約束**：每個W必須是一個上三角矩陣（只有對角線及其上方有數字，下方都是零），這種結構在數學上有一個好性質，就是多個上三角矩陣相乘，結果依然是上三角矩陣，整個疊加過程始終在可控的數學框架內運行。第二個約束叫做**擾動先驗**：每個W在訓練開始時被初始化為單位矩陣（就是"什麼都不變"的恆等變換），然後從這個起點出發，只學習一個"微小偏移"。這樣每個專家W其實是在說"我在原來不變的基礎上，稍微往我的專業領域方向調整了一點"。

**三、數學上為什麼這種疊加能保住舊知識**

研究團隊用嚴格的數學推導證明了這種疊加方式的穩定性，這裡用更通俗的方式還原這個推理過程。

把每個專家W寫成"單位矩陣加上一個小擾動"的形式，即W = I + Δ，其中I代表"什麼都不變"，Δ代表針對該領域學到的那一點點偏移量。兩個專家疊加時，相當於計算（I+Δa）乘以（I+Δb）。展開來看，結果是I + Δa + Δb + Δa×Δb。由於兩個擾動都很小，它們的乘積（Δa×Δb）是一個更小的量，可以忽略不計。於是疊加的最終結果近似於I + Δa + Δb，也就是說，兩個專家的貢獻被近似地"加"在一起，而不是互相覆蓋。

更進一步，這個性質還帶來了一個意外的好處：疊加是近似可交換的。Δa加Δb和Δb加Δa近似相等，因此把專家A疊到專家B上，和把專家B疊到專家A上，效果幾乎相同。研究團隊把這個性質稱為"准阿貝爾性"（Quasi-Abelian）——引用了抽象代數中描述"運算順序不影響結果"的數學概念。這意味著使用者不需要糾結"先加哪個專家、再加哪個專家"的問題，組合順序幾乎無關緊要，省去了大量的排列優化工作。

當然，這種疊加並非無限穩定。隨著疊加的專家數量越來越多，每個新加入的小擾動都會對已有專家的知識邊界產生一點干擾，累積起來最終會讓某些舊領域的分類邊界變得模糊，這就是研究團隊所說的"邊界侵蝕"。這是GeoStack坦然承認的局限性，適用於有限數量的疊加，並非無限可擴展。

贊助商廣告

**四、如何訓練一個"懂得克制"的專家插件——GeoLayer**

GeoStack的疊加能否穩定，關鍵在於每個專家插件（研究團隊稱之為GeoLayer，幾何層）在訓練時就要學會"克制自己的變形幅度"。於是GeoLayer的訓練有兩個同時進行的目標：一方面要學好本領域的分類任務，另一方面要把自己的變形幅度控制到最小。

第一個目標通過資訊論中的對比損失函數（InfoNCE Loss）來實現。簡單理解就是：給定一批圖片和對應的文字描述，GeoLayer要讓正確的圖文對在變換後的空間裡儘可能靠近，錯誤的圖文對儘可能遠離。這個過程就像調整一張地圖的投影方式，讓同屬某專業領域的圖片和文字標籤聚集在一起。

第二個目標通過"正交損失"（Orthogonality Loss）來實現。正交變換在數學上是指"只旋轉不拉伸"的變換，它不會改變各個點之間的距離，對空間的"破壞性"最低。研究團隊要求GeoLayer在訓練時儘量保持正交性，具體方法是最小化 W的轉置乘以W與單位矩陣之差的Frobenius範數（可以理解為衡量W偏離"純旋轉"程度的一個分數，分數越低代表變形越溫和）。

最終的訓練目標是這兩個損失的加權組合，研究團隊稱之為"凸正交對齊損失"（COA Loss）。權重參數λ控制二者的比例：λ越小，模型更專注於學好當前領域；λ越大，模型更注重保持變形的溫和程度以便後續疊加。在實驗中，研究團隊對大多數數據集將λ設為0.95，對特別專業化的數據集提升到0.99。

這種設計的本質，是在訓練時就把"未來要和別人疊加"這件事考慮進去，讓每個專家提前學會如何"與人為善"。

**五、摺疊技巧——零額外開銷的多專家推理**

GeoStack還有一個在工程上極具吸引力的特性，叫做"權重摺疊"。CLIP的視覺編碼器里有一個投影矩陣P，負責把原始圖像特徵壓縮成最終的圖像向量。GeoStack的每個專家層W是一個同維度的方陣。當你把N個專家全部疊加好之後，相當於得到了一個綜合變換矩陣Wg = W1 × W2 × ... × Wn。而這個Wg可以直接乘到原始投影矩陣P上，得到一個新的投影矩陣P_eff = P × Wg。

贊助商廣告

P_eff的維度和結構與原始CLIP的投影矩陣完全相同。也就是說，推理時你根本不需要額外運行N個專家層，只需把P_eff當作普通的CLIP投影矩陣使用即可，推理速度和普通CLIP完全一樣，完全沒有因為多了N個專家而帶來任何額外的計算開銷或內存占用。專家數量從1增加到100，推理代價絲毫不變。研究團隊將這一特性稱為O(1)推理複雜度，這在多任務AI系統的實際部署中是非常寶貴的屬性。

此外，GeoLayer只需要訓練上三角部分的參數，相當於將參數量削減了約一半，對於ViT-B/16骨幹來說大約只需學習13萬個參數，訓練和儲存成本都相當低廉。

**六、多領域適配實驗——六個數據集的大考**

研究團隊在多個視覺分類數據集上對GeoStack進行了系統性測試，數據集覆蓋了差異極大的視覺領域：ImageNet-1K（通用物體）、Caltech-101（通用物體）、Flowers-102（細粒度花卉）、Food-101（細粒度食物）、EuroSAT（衛星遙感圖像）以及DTD（紋理圖像）。每個專家層在各自對應數據集的16張樣本每類（16-shot）協議下獨立訓練，之後按照不同的疊加順序組合成一個四層的"四疊堆"模型。

為了呈現不同難度，他們設計了三種疊加方案。第一種叫做"容易棧"，按照ImageNet → Caltech-101 → Food-101 → EuroSAT的順序疊加，這些領域之間的語義跨度相對平滑。第二種叫做"中等棧"，按照ImageNet → Food-101 → EuroSAT → DTD的順序，領域間的視覺風格差異更大。第三種叫做"困難棧"，按照ImageNet → EuroSAT → DTD → Flowers的順序，從通用物體一路跳到衛星圖像再到紋理再到花卉，跨度最大、干擾最強。

對比實驗包括五種方案：不帶任何適配器的原始CLIP（零樣本基準）、任務算術結合未約束BiCLIP插件、任務算術結合GeoLayer插件、直接疊乘未約束BiCLIP（無正交損失，λ=0）、以及正式的GeoStack（有正交損失約束）。

結果非常清晰地呈現了幾何約束的價值。在容易棧中，GeoStack以84.0%的平均準確率超過了無約束BiCLIP疊乘的83.3%，而兩者對應的正交誤差分別是0.010和0.022，GeoStack更低的正交誤差意味著更溫和的變形，因此知識的保留效果更好。在困難棧中，差距進一步拉大。無約束的BiCLIP疊乘使得ImageNet識別率從原本的66.6%驟降到52.6%，這意味著疊加衛星圖像、紋理和花卉專家之後，模型連基本的通用物體都認不清楚了。而GeoStack則把ImageNet識別率維持在62.8%，總體平均準確率也從72.6%提升到74.4%。這組數字背後反映的是：當疊加的領域跨度越大、積累的正交誤差越高，不加約束的疊加就越快坍塌，而GeoStack的約束越來越顯現出其不可或缺性。

贊助商廣告

**七、增量學習實驗——不忘舊課的連續學習**

除了多領域適配，研究團隊還在CIFAR-100數據集上測試了GeoStack對抗災難性遺忘的能力。CIFAR-100包含100類通用圖像，研究團隊將其切分為4個批次，每批25類，模擬一個AI系統在四個階段依次學習新類別的場景。每個階段獨立訓練一個GeoLayer，然後依次疊加。

關鍵問題有兩個：一是隨著類別越來越多，模型的整體識別率能否保持？二是第一批次學到的25個類別，在後續三個新批次疊加進來之後，還能記得多牢？

結果顯示，未約束的BiCLIP在第一批次學得最好（86.20%），但隨後急劇下滑，到第四批次時跌至60.08%，已經低於不加任何適配器的零樣本CLIP的68.11%——相當于越學越差，原有的知識被徹底衝垮。任務算術方案略好，但也在第三批次附近跌破零樣本基準。GeoStack則在第四批次時仍保持69.47%，高出零樣本基準約1.4%，說明它不僅沒有遺忘舊知識，還通過疊加真正獲得了增益。

在第一批次知識的保留實驗中，BiCLIP經過四個批次的疊加後，對最初那25類的識別率從86.20%跌到72.04%，淨損失14.16個百分點。任務算術損失3.92個百分點。GeoStack只損失了2.12個百分點，從77.92%保持到75.80%。這些數字說明，GeoStack的幾何約束有效地為舊知識建立了一道防火牆，讓新知識的加入不至於燒毀舊有的積累。

研究團隊還進行了一個更極端的10批次實驗，把CIFAR-100切成10個10類的批次。在疊到第10層時，BiCLIP對第一批次的記憶已經崩潰到21.50%，而GeoStack仍保持在56.00%。在維護基礎ImageNet知識方面，GeoStack的最終得分是57.2%，比任務算術結合BiCLIP高出19.4個百分點。這組數字證明了GeoStack的線性退化（隨疊加層數緩慢下降）相比BiCLIP的指數級崩潰有著本質的區別。

**八、准阿貝爾性的驗證——順序不重要是真的**

研究團隊專門設計了一組實驗來驗證疊加順序是否真的不影響結果。他們取出四個領域的專家（ImageNet、Caltech-101、Food-101、EuroSAT），枚舉了多種疊加順序，測量每種順序下每個領域的識別率。

贊助商廣告

結果繪製成蜘蛛圖（即雷達圖），視覺上非常直觀地顯示：不論把哪個專家放在第一位、哪個放在最後，四個領域的準確率幾乎落在同一條輪廓線上。以EuroSAT為例，無論其專家層處於疊加鏈的哪個位置，識別率穩定在84.49% ± 0.42%的範圍內，標準差極小。這個實驗有力地驗證了理論推導出的准阿貝爾性，告訴用戶在實際使用時不必為了找到"最優疊加順序"而耗費大量精力，任意順序都能得到近似相同的結果。

**九、正交誤差閾值的探索——什麼時候疊加會出問題**

研究團隊還系統性地研究了"正交誤差到多大才會導致知識崩潰"這個問題。他們合成了一系列具有不同程度正交誤差的人工專家矩陣，將其疊加到一個EuroSAT專家上，觀察EuroSAT識別率的變化趨勢。

實驗結果揭示了三個清晰的區間。當歸一化正交誤差低於0.015時，模型處於"穩定高原"，識別率幾乎不受干擾，決策邊界的穩健性足以吸收外來擾動。當誤差在0.015到0.06之間時，模型進入"溫和退化區"，識別率開始出現1%到5%的緩慢下滑。當誤差達到0.06以上時，模型越過了"災難性遺忘臨界線"，識別率急劇崩潰。這三個閾值為實際使用者提供了一套簡單的診斷工具：只需計算一下準備疊加的專家矩陣的正交誤差，就能預判疊加是否安全。

值得一提的是，在λ敏感性分析中，研究團隊發現將λ從0.5提升到0.99，正交誤差從0.0332指數式下降到0.0078，而對應的識別率僅損失2.6%。這意味著通過把訓練目標更多傾向於正交約束，可以大幅壓低疊加風險，代價只是略微犧牲一點單領域峰值表現。

**十、六層堆疊的極限測試——邊界在哪裡**

為了探明GeoStack能撐到多少層，研究團隊設計了一個六專家疊加實驗，引入了兩個額外數據集：Stanford Cars（細粒度汽車分類）和Oxford-Pets（細粒度寵物分類），疊加順序為ImageNet → Oxford-Pets → Flowers → Stanford-Cars → EuroSAT → DTD。這個組合涵蓋了通用物體、細粒度動物、花卉、車輛、衛星圖像和紋理，是一個涵蓋極度多樣化語義的六層堆疊。

贊助商廣告

此時，無約束BiCLIP的累積正交誤差飆升到0.1359，遠超災難性遺忘臨界線，ImageNet識別率從66.6%暴跌到39.7%，Oxford-Pets的識別率也跌到72.7%，低於零樣本基準。GeoStack則把累積正交誤差壓在0.0142，仍處於穩定高原區間，ImageNet識別率維持在62.2%，Oxford-Pets保持在86.3%，平均識別率73.4%比BiCLIP的64.0%高出9.4個百分點。這組數據說明，在六層疊加的規模下，GeoStack依然是一個可靠的知識組合框架，而無約束方案已經完全失效。

說到底，GeoStack做的事情，是在AI多任務學習這個領域裡提供了一種真正實用的"樂高式"知識積木方案。它不要求所有專家同時在場，不要求重新訓練，不要求數據共享，不增加推理負擔，只需要在每塊積木的製造階段加入一點"克制自己變形幅度"的訓練約束，就能讓任意數量的專家模組拼合成一個多面手AI，且整體表現明顯優於完全不加約束的疊加方案。這對於那些需要在有限計算資源下、隨著時間推移逐步擴展AI能力的實際場景——比如醫療機構每年需要適配新疾病圖像的篩查系統，或者工業巡檢系統需要不斷適應新設備——具有直接的參考價值。

當然，邊界侵蝕的問題告訴我們，GeoStack並不是萬能藥。專家數量增多、領域差異越大，疊加穩定性就越受考驗，這也為後續研究留下了清晰的改進方向。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.06477找到完整論文和公開代碼，自行進行實驗和驗證。

---

Q&A

Q1：GeoStack和普通的多任務AI訓練有什麼不同？

A：普通的多任務訓練需要把所有領域的數據放在一起同時訓練，數據越多越複雜、越容易互相干擾。GeoStack則是讓每個領域的專家模組各自獨立訓練，訓練時通過正交約束保證變形溫和，之後直接用矩陣乘法疊加起來，既不需要數據共享，也不需要重新訓練，最終還能摺疊成一個和原始模型完全相同結構的推理矩陣，沒有額外計算開銷。

贊助商廣告

Q2：GeoStack里的"正交誤差"是什麼意思？

A：正交誤差是衡量一個GeoLayer專家矩陣"變形有多劇烈"的一個分數。正交變換就是只旋轉不拉伸的變換，分數越低說明這個專家對特徵空間的改動越溫和、越像純旋轉，疊加時對其他專家的干擾越小。研究團隊通過實驗發現，當這個分數低於0.015時疊加非常安全，超過0.06時就會觸發災難性遺忘，中間是一個溫和退化的過渡區。

Q3：GeoStack在CIFAR-100增量學習里的表現比零樣本CLIP好在哪裡？

A：零樣本CLIP沒有經過任何專門訓練，在CIFAR-100 100個類別上的整體準確率約為68.11%。GeoStack通過四個批次的獨立專家疊加，最終在100個類別上達到69.47%，不僅沒有像BiCLIP那樣越學越差（BiCLIP最終跌到60.08%），反而相比零樣本基準還略有提升。而且GeoStack對最初學習的25個類別只損失了2.12個百分點的記憶，遠低於BiCLIP的14.16個百分點的遺忘量。