清華大學的科學家們找到了讓AI「看圖」更快、更聰明的新方法，關鍵秘密藏在一個意想不到的地方

這項由清華大學主導完成的研究以預印本形式發布於2026年5月，論文編號為arXiv:2605.01711 清華大學的科學家們找到了讓AI看圖更快更聰明的新方法關鍵秘密藏在一個意想不到的地方，感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

在現代人工智慧的世界裡，有一種叫做"Transformer"的神經網路架構幾乎統治了所有領域——無論是讓機器讀懂文字、識別圖片，還是生成影片，它都是核心引擎。這種架構成功的秘密，人們一直認為藏在一個叫做"注意力機制"（Attention）的裝置里。然而，清華大學的研究團隊對這個"常識"提出了一個顛覆性的疑問：如果我們對注意力機制的理解本身就錯了呢？

他們的答案不僅重新解釋了注意力機制的工作原理，更在此基礎上設計出一種全新的架構——WeightFormer 清華大學的科學家們找到了讓AI看圖更快更聰明的新方法關鍵秘密藏在一個意想不到的地方，讓AI在處理圖像時速度大幅提升，而準確率幾乎不打折扣。這項研究的意義，或許不亞於發現了一條比高速公路還快、還省油的新路。

一、為什麼原來的"注意力"方法既聰明又笨重

要理解這項研究解決了什麼問題，得先從注意力機制說起。不妨用一個課堂場景來理解：有一位老師在批改一張照片裡的試卷，想知道"這道題和哪道題最相關"。傳統的注意力機制的做法，就是讓老師把照片上的每一道題都兩兩比較一遍——第一題和第二題比，第一題和第三題比，第一題和第四題比……以此類推，把所有可能的組合都過一遍。這個過程叫做"顯式注意力計算"，用數學語言說，就是計算一個N×N的矩陣，其中N是圖片被切成的小塊數量（稱為"token"，可以理解為照片上每一個小格子）。

問題在於，當圖片變大，格子數量增多，這種兩兩比較的工作量會以平方速度爆炸式增長。格子數量翻倍，計算量就變成四倍；格子數量變成十倍，計算量就變成一百倍。這就是所謂的"二次方複雜度清華大學的科學家們找到了讓AI看圖更快更聰明的新方法關鍵秘密藏在一個意想不到的地方 "。處理一張普通圖片還好，一旦碰到高解析度圖像，或者需要同時處理很多圖片，這個開銷就變得極其昂貴，就像要求那位老師在期末考試時把全校所有同學的試卷都兩兩對比一遍。

贊助商廣告

過去十年，無數研究者絞盡腦汁想辦法給這個兩兩比較的過程"減負"——有人讓老師只看部分題目的組合（稀疏注意力），有人讓老師把相似題目歸堆再比較（低秩近似），有人讓老師用更快的近似方法估算相似度（核方法線性注意力）。但所有這些努力，都是在想辦法把那張兩兩比較的大表格算得更快、更省力，而沒有人質疑過：這張大表格本身，真的是必要的嗎？

這正是清華大學研究團隊切入的角度。他們發現，大家一直在優化一道錯誤方向上的難題。

二、一個改變遊戲規則的新視角：注意力其實是一個"動態換裝"的神經網路

研究團隊做了一件數學上非常精巧的事情：他們重新審視了注意力機制的計算公式，發現從另一個角度看，它的結構和另一種完全不同的東西完全吻合。

注意力機制的核心公式是：先把輸入數據分別變換成Q（查詢）、K（鍵）、V（值）三組數據，然後計算Q和K的相似度，再用這個相似度對V進行加權求和，得到最終輸出。大多數人看到這裡，會把它理解為一個"加權投票"的過程：K和V就像一本百科全書，Q是查詢詞，系統根據查詢詞找到最相關的百科條目，把它們加權混合起來給出答案。

但研究團隊換了一個角度：對於輸入數據中的任意一行（也就是一個格子的特徵向量），整個注意力計算過程其實等價於把這個向量送進一個兩層的小神經網路（MLP）里走一遍。這個小神經網路的第一層參數是K（鍵矩陣的轉置），激活函數是Softmax，第二層參數是V（值矩陣）。

這聽起來可能有點繞，打個比方會更直觀。把注意力機制比作一家餐廳的廚房——傳統理解是：顧客（Q）先看菜單（K）找到最喜歡的菜，然後廚房根據點單比例把不同食材（V）混合配給顧客。這是"顯式點單-備菜"的流程。而研究團隊的新理解是：這家餐廳的廚師會先把今天所有顧客的口味喜好（整個輸入序列）統計一遍，然後據此現場配製出一套"今日特供食譜"（K和V），每位顧客進門後直接按照這套食譜加工，不需要再做兩兩的點單比較。K和V不再是讓顧客互相比較喜好的工具，而是把今天整體偏好壓縮進去的"廚房配置"。

贊助商廣告

這個洞察的核心在於：K和V是由整個輸入序列動態生成的，它們本身就攜帶了全局資訊。當你把任意一個格子的特徵向量送進這個"以K和V為參數的小網路"里，輸出結果自然就融入了來自全圖的上下文資訊，而不需要顯式地去計算這個格子和其他所有格子之間的相似度。

用這個廚房比喻繼續延伸：關鍵在於菜譜是根據今天全體顧客的喜好動態定製的，所以即使每位顧客都只是"按菜譜吃飯"，吃到的味道也已經隱含了全體顧客的集體偏好。全局資訊的整合，發生在菜譜制定階段，而不是每位顧客進門時的兩兩比較階段。

三、從理解到行動：如果全局資訊可以藏在參數裡，那何必還要那張大表格？

這個新理解立刻引出了一個激動人心的問題：既然全局資訊可以通過"動態生成參數"的方式隱含地傳遞，那我們能不能徹底拋開那張昂貴的N×N比較表格，單純靠動態參數來完成全局建模？

這正是WeightFormer要驗證的核心假設。研究團隊決定把"動態參數生成清華大學的科學家們找到了讓AI看圖更快更聰明的新方法關鍵秘密藏在一個意想不到的地方 "這個思路移植到另一種更輕量的網路結構——卷積神經網路（CNN）中去。CNN本來是處理圖像的傳統選手，每個卷積操作只看圖片的一小塊區域，沒有天然的全局視野。但如果給CNN的每一層配上"根據整張圖片動態調整參數"的能力，它是否也能獲得全局感知力？

要實現這一點，首先需要解決一個工程問題：如何把整張圖片的資訊壓縮成一套固定大小的參數？注意力機制在原始設計中，K和V的大小是隨圖片格子數N變化的（K是d×N大小，V是N×d大小），所以計算量是N的平方。要把複雜度壓到線性，就必須讓參數生成過程與N無關。

研究團隊探索了兩大類壓縮方案，並圍繞每類設計了多種具體策略，在接下來的實驗中逐一檢驗。這些策略應用於兩類網路層：線性層（負責在不同通道之間混合特徵，不做空間操作）和深度可分離卷積層（負責在空間上捕捉局部紋理和形狀，但原本只看小區域）。

贊助商廣告

四、為線性層動態"換菜譜"的各種方案

先看線性層的動態參數生成。線性層的作用，可以理解為把一張圖片每個格子的特徵向量乘以一個變換矩陣，相當於對每個格子做相同的線性混合。如果這個變換矩陣是靜態的，所有輸入圖片都用同一套"配方"，就缺少了對具體內容的適應性。如果能根據當前圖片的整體內容動態調整這個矩陣，就能實現隱式的全局資訊整合。

最簡單的方案是用全局平均池化（GAP）：把圖片所有格子的特徵向量取平均，壓縮成一個單一的向量，再通過一個小神經網路映射成變換矩陣的調整量。這就好比廚師先嘗一口今天所有食材混在一起的綜合味道，然後據此調整整體的調味策略。這個方法計算極為便宜，但缺點是壓縮得太粗暴，細節資訊可能大量丟失。

更精細的方案利用"相關矩陣"（X的轉置乘以X，即X?X）。這個矩陣的大小是d×d（d是特徵維度），與格子數N完全無關，但它捕捉了所有格子之間的特徵共現統計——可以理解為一份"今天所有顧客口味偏好的二階統計摘要"。從這個矩陣出發，研究團隊依次嘗試了線性映射、加入非線性激活函數的版本、加入低秩分解的深層版本，以及一種被稱為"雙邊激活"的結構——後者把參數預測分成兩個互補分支，分別作用在X和X?上，再組合起來。為了進一步降低計算量，在計算相關矩陣之前，還會先用自適應平均池化把空間解析度縮小一半，過濾掉高頻噪聲。

實驗結果清晰地顯示，這些策略都大幅超越了靜態參數基線。靜態CNN在ImageNet圖像分類任務上的準確率是73.3%，而引入雙邊激活策略後，僅僅讓第一個線性層動態化，準確率就提升到了76.4%，而參數量和計算量的增幅非常有限。進一步把兩個線性層都動態化，能達到76.7%，但吞吐量（每秒處理的圖片數）有所下降，性價比相對較低。

五、為空間卷積層動態"換模具"的各種方案

贊助商廣告

深度可分離卷積層的動態化，則對應著為圖片的空間特徵提取換上"動態模具"。卷積操作的本質，是用一個小小的濾波器（比如3×3大小）在圖片上滑動，檢測局部紋理。這個濾波器如果是固定的，不管什麼圖片都用同一個模具壓；如果能根據圖片內容動態調整，那它就能捕捉到更具適應性的特徵。

研究團隊設計了幾種策略。最基礎的是全局池化方案：把全圖特徵壓成一個向量，再生成卷積核的調整量，但這種方式丟失了空間結構資訊。更聰明的"空間自適應方案"則是先把圖片通過自適應池化縮放到目標卷積核同樣大小的空間解析度（比如3×3），再用一個小網路生成卷積核，這樣既保留了空間結構的方向性，又與原始解析度解耦。此外還有一種"幅度-方向解耦"策略，分別預測卷積核的強度（幅度）和形狀（方向），再組合，靈感來自權重歸一化的思想；以及直接用小型卷積網路處理特徵圖再池化的方案。

實驗表明，空間自適應方案在準確率和效率之間取得了最佳平衡，相比靜態基線提升了約1.5個百分點，同時吞吐量損失最小。而把線性層的雙邊激活和深度卷積的空間自適應策略組合起來，可以在小模型（約740萬參數、1.2G浮點運算量）上達到76.8%的準確率，進一步超越單獨使用任何一種策略。

研究團隊還通過一種叫做"有效感受野"（ERF）的可視化方法驗證了全局建模的真實性。感受野可以理解為：圖片中某個格子的輸出特徵，受到了多大範圍內其他格子的影響。靜態CNN只關注小範圍鄰域，感受野圖像呈現為中心一個亮點，周圍完全黑暗。而所有動態參數策略訓練完成後，感受野圖像都變成了整張圖片均勻發光的狀態，說明每個格子都能感知到來自全圖任意位置的資訊。更有趣的是，在訓練開始前，動態模型的感受野和靜態模型一樣局限；訓練過後才展開為全局覆蓋，說明這種全局感知能力是模型通過學習主動獲得的，而不是結構上的硬編碼。

贊助商廣告

六、WeightFormer：把動態參數策略變成一個完整的視覺模型

驗證了各種動態參數策略的有效性之後，研究團隊把最優策略組合起來，構建了WeightFormer這個完整的視覺架構。架構設計上有一個關鍵考量：並非所有層都需要動態化。

考慮到動態參數生成本身是有計算代價的，如果每一層都動態化，參數量和運算量都會顯著上升，也不利於與其他模型進行公平比較。研究團隊做了一系列消融實驗，系統測試了設置不同數量動態塊（N=4、6、8、11、14、17）時的效果。結果顯示：當所有17個塊全部動態化時，模型竟然出現了訓練不穩定甚至發散的問題，最終準確率只有70.2%；而N=11時準確率最高（76.9%），N=6時在準確率（76.3%）和吞吐量（每秒3515張圖片）之間取得最佳平衡，這對應著每三個塊中插入一個動態塊的"稀疏分布"策略。過多的動態層不僅代價高昂，還會帶來優化困難，這個發現本身就頗耐人尋味。

最終的WeightFormer每隔兩個靜態塊就插入一個動態塊，動態塊內使用空間自適應的動態深度卷積和雙邊激活的動態第一線性層，其餘層保持靜態。整個架構的時間複雜度相對於輸入序列長度是嚴格線性的，從根本上突破了傳統注意力的二次方瓶頸。

七、WeightFormer在各類視覺任務上的表現

研究團隊在多個視覺基準任務上系統評估了WeightFormer，以驗證動態參數策略的通用價值。

在圖像分類任務上，WeightFormer在ImageNet-1K數據集（包含128萬張訓練圖片、覆蓋1000類物體）上與多類主流模型正面交鋒。WeightFormer-T（約700萬參數，1.1G運算量）達到了76.3%的Top-1準確率，相比同等規模的DeiT-T（72.2%）大幅領先，吞吐量從3661張/秒提升到3515張/秒，相差無幾。WeightFormer-S（2700萬參數，4.4G運算量）達到81.3%，超越了DeiT-S（79.8%）和ConvNeXt-S（79.7%），且吞吐量更高。特別值得一提的是WeightFormer-B：它在448×448的高解析度輸入下，以2700萬參數和17.7G運算量達到了83.4%的準確率，完全不弱於使用224×224輸入、參數量高達87M的DeiT-B（81.8%）或ConvNeXt-B（82.0%），而在高解析度下運行時的吞吐量優勢更為突出。

贊助商廣告

在目標檢測和實例分割任務上，基於COCO 2017數據集的測試結果同樣令人鼓舞。以WeightFormer-T作為骨幹網路，配合Cascade Mask R-CNN框架，檢測精度（AP^b）從DeiT-T的44.4%提升到45.0%，分割精度（AP^m）從38.1%提升到38.3%，而總計算量從594G下降到566G，骨幹部分的計算量從106G大幅削減到77G。這意味著用更少的算力獲得了更好的效果。

語義分割任務（ADE20K數據集，使用UperNet框架）的結果也相當一致。WeightFormer-T以12M參數、38G總計算量（骨幹僅7G）達到40.7的mIoU，比同等參數規模的DeiT-T（39.2 mIoU）高出1.5個點，且骨幹計算量僅為DeiT-T的64%。WeightFormer-S以47M參數達到45.6 mIoU，超越DeiT-S的44.0，骨幹計算量同樣更低（27G對35G）。

研究團隊還將WeightFormer應用於圖像生成任務，基於DiT框架進行類條件圖像生成，用FID（Fréchet Inception Distance，數值越低表示生成質量越高）來衡量效果。結果顯示，WeightFormer在所有配置下都一致優於DiT和DiG基線，例如WeightFormer-S/2以5.0G運算量獲得61.39的FID，優於DiT-S/2（68.40）和DiG-S/2（62.06）；WeightFormer-B/2以20.0G運算量獲得38.21的FID，優於DiT-B/2（43.47）和DiG-B/2（39.50），而且計算量更低。這說明動態參數策略在生成類任務上同樣奏效，不局限於分類、檢測等判別性任務。

八、高解析度下的效率優勢有多顯著

WeightFormer最具說服力的優勢體現在高解析度場景下。傳統注意力機制的計算量隨解析度平方增長，當輸入圖片變得很大時，內存和時間開銷會急劇膨脹。研究團隊專門測試了不同解析度（從512×512到1248×1248）下WeightFormer-T和DeiT-T的吞吐量與顯存占用。

在512×512解析度下，兩者差距不大。但隨著解析度上升，差距迅速拉開。到1248×1248（每張圖片被切成6084個格子）時，WeightFormer的吞吐量是DeiT的7.7倍，而每張圖片占用的顯存比DeiT節省了91%。這意味著，用同樣的硬體，WeightFormer可以處理多得多的高解析度圖片，或者用低得多的成本完成同等規模的任務。對於需要處理醫學影像、衛星圖片、高清影片幀等高解析度任務的實際應用場景，這種優勢是極為實用的。

贊助商廣告

九、動態參數的行為規律：越深處越活躍

研究團隊還做了一項頗為有趣的分析：在WeightFormer訓練完成後，檢測每個動態層的"動態強度"——具體來說，是計算動態調整量（ΔW）和靜態基礎權重（W?）的範數之比r。這個比值越大，說明動態部分對最終參數的貢獻越顯著；比值接近1，說明靜態參數仍然主導。

結果顯示了一個清晰的規律：對於動態線性層，各層深度的比值r都在1附近保持穩定，變化幅度較小，說明動態線性層在整個網路深度上都提供了穩定且適度的全局通道混合調整。而對於動態深度卷積層，情況截然不同：淺層的r值接近1，但隨著深度增加，r值急劇攀升，在最深處達到了20-30倍之高。這意味著，越靠近網路末端（語義抽象層次更高的地方），空間自適應卷積的動態調整越激烈，動態參數幾乎完全主導了空間特徵提取。直覺上這很合理：淺層處理的是低級紋理（邊緣、顏色），靜態卷積核就已經夠用；深層處理的是高層語義（物體形狀、場景類型），需要更強的內容自適應能力。

說到底，這項來自清華大學的研究做了一件非常有意思的事情：它沒有試圖把一個已有的東西做得更快，而是從一個新的角度重新理解它，然後發現其實不需要原來那個東西的全部。注意力機制被重新理解為"動態參數生成+前向傳播"的兩步走，而這兩步里，只有第二步（前向傳播）是線性複雜度的，第一步（參數生成）才是二次方開銷的來源。一旦意識到這一點，用別的方式完成"參數生成"步驟就成了合理的工程選擇。

當然，研究團隊也坦誠地指出了目前工作的局限。整個評估都在視覺任務上進行，這套方法是否同樣適用於語言模型、語音識別或其他序列建模任務，目前還不清楚。動態參數生成的表達能力和歸納偏置，在理論層面也缺乏深入分析。更值得關注的是，動態參數的輸入依賴性會使梯度傳播更加複雜，有時會帶來訓練不穩定的挑戰（如所有層都動態化時出現的發散現象）。這些都是未來研究需要面對的課題。

贊助商廣告

不過，這項研究已經提供了一個重要的概念驗證：全局序列建模不是注意力機制的專利，只要能以某種方式把全局上下文壓縮進網路參數裡，再讓輸入數據通過這些參數進行變換，同樣能實現Transformer級別的全局感知能力——而且可以做到線性複雜度。這條路是否能走得更遠，是否能在語言、多模態等領域同樣奏效，或許會是接下來幾年裡頗值得關注的方向。有興趣深入研究的讀者，可以通過arXiv編號2605.01711找到原論文，代碼也已在GitHub的LeapLabTHU/WeightFormer倉庫公開。

Q&A

Q1：WeightFormer和普通Transformer相比，速度到底快多少？

A：在標準224×224解析度圖片下，WeightFormer和DeiT的速度相近。真正的差距在高解析度下體現出來——當圖片解析度提升到1248×1248時，WeightFormer的處理速度是DeiT的7.7倍，顯存占用減少91%。這是因為WeightFormer的計算量隨圖片大小線性增長，而DeiT是平方增長，圖片越大差距越懸殊。

Q2：WeightFormer放棄了注意力機制，會不會在理解圖片內容方面變弱？

A：從實驗數據來看並沒有。WeightFormer-S在ImageNet分類上達到81.3%，超過了同規模的DeiT-S（79.8%），在目標檢測、語義分割和圖像生成任務上也都優於或持平於對比模型。感受野可視化也顯示，訓練後的WeightFormer能感知圖片全局範圍內的資訊，並不比注意力模型差。

Q3：動態參數策略為什麼不把所有層都換成動態的，效果豈不更好？

A：研究發現並非如此。當所有17個塊都換成動態塊時，模型訓練會出現不穩定甚至發散，最終準確率只有70.2%，還不如靜態模型。原因在於動態參數的生成依賴輸入，這會讓梯度傳播變得更複雜，過多動態層會帶來優化困難。每三個塊中放一個動態塊（共6個）是最佳平衡點，性能76.3%，速度也最快。