慕尼黑工業大學的研究者們，為AI注意力機制裝上了「函數眼鏡」

這項由慕尼黑工業大學、牛津大學和德克薩斯大學奧斯汀分校聯合完成的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2605.31559v1，於2026年5月29日公開。

贊助商廣告

當一位廚師需要把一道經典食譜改編給100個人、1000個人、甚至10000個人的宴席時，聰明的做法不是把每一步驟都重複10000遍，而是找到食譜背後的"核心規律"，然後用這個規律批量指導烹飪。研究團隊在這篇論文中想解決的，恰恰是類似的問題——只不過他們的"食譜"是數學上描述自然界規律的方程，而"廚師"是人工智慧。

具體來說，這支團隊面對的挑戰叫做"算子學習"。所謂算子學習，就是訓練AI去掌握一類特殊的映射關係：輸入是一個連續變化的函數（比如某片區域的溫度分布），輸出也是另一個連續變化的函數（比如該區域的氣壓分布）。這類問題廣泛存在於工程計算、物理仿真、材料設計等領域，是科學計算的核心任務。現有的AI做這件事時，大多是把連續函數離散化成一堆點（就像用很多小方格近似一幅畫），然後讓AI處理這些點。這種做法有一個根深蒂固的毛病：處理點的數量一旦增加，計算量會急劇膨脹，而且AI完全不關心這些點背後隱藏的"整體結構"，就好比一個廚師只記住了每一勺鹽的重量，卻不理解"鹹淡平衡"這個更根本的烹飪原則。

研究團隊將他們的方法命名為FUNCATTN（Functional Attention，功能注意力），並圍繞這個核心思想構建了一套完整的理論框架與工程實現。他們的基本主張是：與其讓AI逐點比較數據（就像兩個人互相查看對方身上的每一顆痣），不如讓AI在"函數空間"的層面進行交流（就像兩位語言學家通過比較語言結構來理解彼此，而非逐字對照詞典）。

一、注意力機制的"老毛病"：為什麼逐點比較是個麻煩事

要理解這個研究解決了什麼問題，先得弄清楚現有的主流做法是怎麼運作的，又出了什麼岔子。

贊助商廣告

目前，AI領域最流行的架構叫做Transformer，其核心機制就是"注意力"（Attention）。它的工作方式可以這樣理解：假設你有一段音樂，需要分析其中哪些音符相互呼應。注意力機制會讓每個音符去問其他所有音符："你和我有多大關係？"然後根據這些關係的強弱，綜合出每個音符的"語境含義"。這個過程很強大，但有個致命缺陷——如果這段音樂有1000個音符，就需要計算100萬對關係；如果有10000個音符，就需要計算1億對關係。隨著數據量增長，計算量以"平方倍"爆炸式增長，這在處理高精度的科學計算問題時代價極高。

更深層的問題是，這種逐點比較的方式完全忽視了數據背後的整體結構。在物理仿真中，流體的速度場不是隨機散落的點，而是遵循精確數學規律的連續函數，它有內在的"形狀"和"規律"。把它打碎成離散點再處理，就像把一幅精美的油畫剪成小紙片再重新拼接——不僅效率低，還可能在拼接過程中丟失原畫的神韻。

此外，當你在低解析度網格上訓練好的AI模型，移植到高解析度網格時，由於訓練和測試的"點的數量"不同，模型往往表現大幅下降，需要重新訓練。這就好比一個只在小黑板上學過數學的學生，換到大黑板後就不認識題目了——顯然不夠聰明。

二、幾何學的啟示：從"點對點"到"函數對函數"

研究團隊的靈感來自一個完全不同的領域——三維形狀匹配。

在電腦圖形學中，有個經典難題：如何判斷兩個人體雕塑上的"膝蓋"對應同一個位置？暴力做法是逐點比對，計算量極大。2012年，來自斯坦福大學的數學家Ovsjanikov等人提出了"函數映射"（Functional Maps）框架，提供了一個優雅的解法：不用直接匹配點，而是匹配定義在這些形狀上的"函數空間"。

打個比方，假設你有兩座山，一座是珠穆朗瑪峰，一座是喬戈里峰。你不需要逐一比對每一塊岩石，而是可以先給每座山做一組"特徵描述"（比如高度函數、坡度函數等），然後找到一個線性變換，讓珠峰的特徵描述能夠映射到喬峰的特徵描述。這個線性變換就叫做"函數映射矩陣C"。因為它是線性的，原本複雜的組合問題就轉化成了一個可以用最小二乘法求解的簡單優化問題。更妙的是，只需要用k個"特徵函數"就能表示這個對應關係，而k遠遠小於點的數量n，計算複雜度從O(n?)直接降到O(k?)。

贊助商廣告

研究團隊意識到，注意力機制本質上也是在做類似的事情——它在"查詢空間"和"鍵值空間"之間建立對應關係。那麼，為什麼不把函數映射框架的思想移植過來呢？與其計算一個n×n的逐點相似度矩陣，為什麼不直接學習一個緊湊的k×k的函數空間對應算子？

三、FUNCATTN的核心原理：用"最小二乘擬合"替代"softmax評分"

理解FUNCATTN的工作原理，可以用一個調音台的比喻來貫穿始終。

假設你是一個音樂製作人，手頭有兩個樂團演奏的同一首曲子，你的任務是找到兩個版本之間的對應關係（比如第一個版本的鼓點對應第二個版本的哪些樂器），然後用這個對應關係來混音。

傳統注意力機制的做法是：把所有樂器的每個音符兩兩比較，打出相似度分數，再用softmax歸一化，最後加權求和。這個過程非常精細，但也非常耗時。

FUNCATTN的做法則是：先用一組"頻譜濾波器"（稱為"基函數"，Basis Functions）把兩個版本各自壓縮成緊湊的頻譜係數表示，然後在頻譜層面找到一個線性變換矩陣C，使得第一個版本的頻譜係數經過C變換後，能最好地吻合第二個版本的頻譜係數。找這個最優的C，用的是統計學中的"Tikhonov正則化最小二乘法"——這是一個有閉合解析解的優化問題，既快速又穩健。

在數學上，整個過程如下進行：給定輸入X，分別計算查詢矩陣Q、鍵矩陣K和值矩陣V（這一步和普通注意力機制相同）。接下來，通過兩組可學習的基函數矩陣Φ和Ψ，分別計算Q、K、V在各自函數空間中的頻譜係數，得到Q、K、V。然後求解最優函數映射算子C*，使得C*K能最好地重現Q，正則化項λ‖C‖?防止過擬合。最後，用C*把V映射到查詢空間，再通過Φ"解碼"回原始空間，得到輸出。整個計算複雜度是O(ndk + dk·min(k,d) + min(k,d)?)，對序列長度n是線性的，遠優於普通注意力的O(n?d)。

一個關鍵細節值得解釋：這裡的正則化參數λ不是隨意拍定的，而是通過一個可學習的標量參數α（令λ=sigmoid(α)）在訓練過程中自動調整。研究結果顯示，λ的具體取值對最終精度影響較小（不同初始化下誤差差異小於0.02%），它主要起數值穩定作用，確保矩陣求逆時不會出現數值爆炸。這一點也被理論上的Lipschitz連續性分析所印證——Lipschitz常數正比於1/λ和1/λ?，只要λ嚴格大於零，模型就是穩定且可訓練的。

贊助商廣告

四、"調音台"的旋鈕：如何學習好用的基函數

細心的讀者可能會問：那組"頻譜濾波器"（基函數）是怎麼來的？固定用傅里葉基或者拉普拉斯基不行嗎？

當然可以用固定基，就像你可以給所有樂器都用同一套均衡器預設。但問題是，不同類型的音樂（搖滾、古典、爵士）需要不同的均衡設置。固定基在某些問題上表現很好，但在另一些問題上可能完全不匹配。

FUNCATTN的解決方案是學習一組自適應基函數，其計算方式為：B = Softmax(Linear(X))，即先用一個全連接層把輸入特徵映射到k維，再對k個維度做softmax歸一化。這樣得到的每個基函數都是輸入自適應的，不同的輸入會產生不同的基。

從理論上講，這組基函數有一個優美的性質：它們構成"單位分解"（Partition of Unity），即對任意輸入點，k個基函數的值之和恰好等於1。這個性質保證了權重始終有界，不會出現極端值，防止退化解。更有趣的是，當溫度參數τ趨向於0時，這組基函數會退化為經典的分段常數基（P0 Elements）——每個點只屬於一個"區域"，就像把樂器分門別類地放到不同的房間裡。隨著τ增大，這種硬分配變成軟分配，允許每個點在多個"區域"中同時有所歸屬。這一性質既有數學上的嚴格保證，也有直觀的物理意義。

實驗還發現一個有趣現象：給基函數加上正交性約束（強迫基函數互相垂直，就像正交基底）反而會讓性能變差。原因可能是：在正交約束下，優化變得更難（需要在Stiefel流形上做梯度下降），而自由學習的基函數雖然不正交，但優化器能更容易找到好的局部最小值。這與其他領域（如形狀對應學習）的觀察一致。

五、Transolver與FUNCATTN：相似的外表，不同的靈魂

在讀這篇論文時，很多人可能會聯想到另一個叫做Transolver的工作（2024年），因為兩者在結構上看起來頗為相似，都有"把輸入投影到某個低維空間、在低維空間做計算、再投影回來"的環節。研究團隊專門在論文的附錄中用一張流程圖對比了兩者的本質區別。

贊助商廣告

Transolver的核心思路是：學習一組"物理感知的切片"（Physics-Aware Slices），把輸入數據分成k組物理上相關的標記（tokens），然後在這些標記之間做標準的scaled dot-product attention（帶softmax的那種）。換句話說，Transolver是在"減少token數量"上做文章，但保留了注意力機制的基本形式。

FUNCATTN則不同：它的基函數投影不是為了減少token數量，而是為了把注意力操作完全提升到函數空間層面，用最小二乘線性算子取代了softmax評分機制。這意味著FUNCATTN的注意力權重可以是負數（因為線性回歸的解沒有非負約束），這為模型提供了"對比能力"——某個基函數可以同時被另一個基函數正向強化或負向抑制，這在細粒度分割任務中尤為有用。

簡單說：Transolver是"用物理知識減少工作量，然後照常評分"；FUNCATTN是"從根本上改變評分的方式，直接求最優線性對應"。

六、實驗驗證：從流體仿真到RNA分子的全面考察

研究團隊在五大類任務上對FUNCATTN進行了系統評測，涵蓋回歸、偏微分方程求解、三維分割、分布外泛化和超解析度等多個維度。

第一個測試場景是正弦函數的少樣本回歸。研究團隊模仿元學習領域的經典設置：給AI看4個觀測點，讓它推測整條正弦曲線。這個測試看似簡單，實則很能區分模型的"結構感知能力"。結果顯示，普通的scaled dot-product attention和Transolver在訓練前都輸出一條平線，毫無正弦波形的跡象；而FUNCATTN在訓練前就能輸出具有正弦形狀的曲線，說明其歸納偏置天然適合函數擬合任務。在泛化性能上，隨著觀測點數量從5增加到40，FUNCATTN的誤差始終比普通attention低2-3個數量級，比Transolver低約1個數量級，比另一個強基線Intention也低約1個數量級。具體來說，FUNCATTN用5個觀測點就能達到普通attention用40個觀測點才能達到的精度。

第二個也是最核心的測試場景是偏微分方程（PDE）求解，共涵蓋六個標準基準任務，橫跨流體力學和固體力學兩大領域，包括地下滲流（Darcy）、湍流（Navier-Stokes）、空氣動力學（Airfoil、Pipe）以及彈性變形（Elasticity）和塑性變形（Plasticity）。FUNCATTN在六個基準中的五個上達到最優，在第六個（Pipe）上與最優結果持平。與最接近的競爭者Transolver相比，相對誤差降幅在6%到26.3%之間，例如在Elasticity任務上從0.64%降至0.50%，在Plasticity任務上從0.13%降至0.11%，在Navier-Stokes任務上從9.44%降至8.00%。頻域方法（如FNO系列）在複雜幾何上普遍表現較差，原因是固定的傅里葉基在非規則網格上對齊困難；早期的注意力方法（如Galerkin Transformer）直接在網格點上操作，難以高效捕捉全局物理相關性。

贊助商廣告

第三個測試場景頗為特別：在RNA（核糖核酸）分子的三維點雲上做語義分割，將4096個點分類到259個功能類別。這個任務與PDE求解看似毫無關聯，但本質上都是"函數到函數的映射"。FUNCATTN以89.0%的準確率超越了所有基線，包括專門為三維點雲設計的PointNet++(74.4%)、DiffusionNet(85.1%)和Transolver(87.5%)。研究團隊推測，線性最小二乘求解允許注意力權重取負值，這種"對比能力"在細粒度分割中尤為重要——它能明確區分相近類別，而softmax天生是正權重，只能做"加權混合"，難以做"主動區分"。

第四個測試場景考察的是分布外泛化能力，使用AirfRANS數據集（高精度Reynolds平均Navier-Stokes仿真）的兩個難子集：OOD Reynolds（測試集含訓練時未見過的雷諾數範圍）和OOD Angles（測試集含未見過的攻角範圍）。在OOD Reynolds上，FUNCATTN的升力係數相對誤差為23.4%，而最接近競爭對手為32.2%，領先幅度達8.8個百分點；Spearman排名相關係數為99.4%，高於競爭對手的98.7%。在OOD Angles上，誤差降至13.3%（競爭對手22.8%），排名相關係數達99.7%（競爭對手99.0%）。這說明FUNCATTN學到的是物理場的"內在結構"，而非對特定參數範圍的記憶。

第五個測試場景是在複雜幾何域上的PDE求解，使用帶缺口的三角形域Darcy流問題。缺口頂端會產生尖銳的局部特徵，這對固定基的頻域方法極為不友好（dgFNO+的相對L2誤差高達7.82%）。FUNCATTN達到0.64%，比專為複雜幾何設計的WNO方法（0.92%）低30.9%，顯示出自適應基函數在處理非規則域時的優勢。

第六個測試場景是零樣本超解析度：在2048點的Burgers方程數據上訓練，直接測試到8192點（解析度提高4倍），不做任何微調。FUNCATTN的相對L2誤差為1.081×10??，優於FNO的1.195×10??、Galerkin的1.175×10??和Transolver的1.243×10??。這驗證了FUNCATTN在函數空間層面操作帶來的解析度無關性。

七、效率考量：線性複雜度與實際表現

贊助商廣告

說FUNCATTN好，也得說清楚它的代價。研究團隊提供了詳盡的計算複雜度分析和實驗測速。

理論上，FUNCATTN的總複雜度是O(ndk + dk·min(k,d) + min(k,d)?)。當序列長度n很大時，主導項是O(ndk)，即對n是線性的。相比之下，普通softmax attention是O(n?d)，平方增長。實驗驗證（在NVIDIA A40 GPU上，d=128, k=64，序列長度從128掃到16384）顯示：當序列長度超過約4000時，FUNCATTN的運行時間和內存占用就開始明顯優於普通attention；在序列長度16384時，FUNCATTN是目前所有對比方法（包括Performer、Linformer、Nystromformer、Galerkin）中運行時間最短、內存占用最少的，差距隨序列長度增大而持續擴大。

關於基函數數量k的選擇，研究團隊提供了詳細的消融實驗（在Elasticity、Darcy、Airfoil、Pipe、Navier-Stokes、Plasticity六個任務上測試了k=16到k=512的七個設置）。結論是：k=64在所有任務上都是穩健的默認值，與最優結果相比誤差不超過5%。對於平滑場（Darcy、Pipe），k=32-64已經足夠；對於高頻場（Elasticity、Navier-Stokes），k=128-256能帶來額外收益。繼續增大k（如512）反而略微變差，可能是因為基函數過多導致過擬合，也會增加計算開銷（k=512時推理時間約為k=64的5.5倍）。

關於轉置投影與偽逆投影的選擇（將基矩陣Φ投影到Q/K/V上時，應該用Φ?還是(Φ?Φ)??Φ?？），實驗顯示：未正則化的偽逆會導致梯度爆炸，即使加了Tikhonov正則化的偽逆也會使後續矩陣求逆的條件數在訓練初期飆升到4000以上（而轉置版本始終維持在10以內），最終精度還略低於轉置投影。因此，研究團隊選擇了更簡單穩健的轉置投影，並在附錄中給出了詳細的理論解釋（兩者在Φ正交時等價，在一般情況下轉置投影對應計算內積?Φ_{:,j}, Q?，仍然是合法的函數空間表示）。

八、理論保障：FUNCATTN為什麼不會"失控"

研究團隊不滿足於實驗結果，還花了相當篇幅證明FUNCATTN的理論性質。

贊助商廣告

首先是局部Lipschitz連續性。通俗地說，這個性質保證了"輸入稍微動一下，輸出不會劇烈抖動"——這是神經網路訓練穩定性的基本要求。研究團隊嚴格證明了，當輸入變化量為ΔX時，FUNCATTN的輸出變化量滿足‖?A‖_F ≤ (C?/λ + C?/λ?)·‖ΔX‖_F，其中C?、C?是與輸入範數和各層權重範數多項式相關的正常數。這說明只要λ>0，模型就是Lipschitz連續的，且Lipschitz常數由λ控制——正則化參數不僅是數值穩定性的工具，也是理論穩定性的保障。

其次是與積分算子的等價性。研究團隊通過蒙特卡洛積分近似的論證，證明了FUNCATTN等價於在域Ω上的一個可學習積分算子，積分核為κ(g?, g?) = (ΦCΨ?)??。這意味著FUNCATTN可以被理解為對輸入函數做了一次"核方法回歸"，從而繼承了積分算子框架的良好逼近性質。

第三個重要的理論結果是FUNCATTN與Intention注意力機制之間的關係。Intention是2023年提出的一種基於正則化最小二乘的注意力機制，其公式為Q(K?K + λI)??K?V。研究團隊證明，當FUNCATTN的基函數Φ=Ψ選為任意正交基（滿足Φ?Φ=ΦΦ?=I）時，FUNCATTN退化為Intention。這說明FUNCATTN是Intention的嚴格推廣——Intention是FUNCATTN在特殊基選擇下的特例，而FUNCATTN通過學習自適應基函數獲得了更強的表達能力。

九、可視化洞見：AI到底學到了什麼樣的"基"

論文附錄中有一組直觀的可視化，值得單獨介紹。研究團隊把不同模型學到的基函數（或等效的注意力模式）畫出來進行比較。

FUNCATTN學到的基函數呈現出平滑的、局部化的激活模式，每個基函數對應輸入域中的一個大致連續的區域，就像把一張地圖劃分成若干自然區域，每個區域內的特徵是相似的。這種平滑局部性非常適合表示物理場的區域結構。

Transolver的基函數則呈現出高度稀疏的點狀激活，大量能量集中在少數幾個散落的點上，區域連續性很差。研究團隊認為這可能限制了Transolver表示平滑解場的能力。

贊助商廣告

當給FUNCATTN強制加上正交性約束後，基函數變成了全局支撐的、類似傅里葉模式的振盪函數，與固定傅里葉基非常相似。這印證了正交約束會把模型"推回"到經典譜方法，失去了自適應學習的意義，也解釋了為什麼加約束反而變差。

這些可視化不僅是有趣的補充，也幫助研究者直觀地理解了不同設計選擇的含義。

---

歸根結底，FUNCATTN做的事情可以用一句話概括：把AI注意力機制從"逐點打招呼"升級為"用共同語言對話"。傳統attention像是讓兩個陌生人互相檢查對方的每一根頭髮，而FUNCATTN讓他們先各自翻譯成同一種"數學語言"，再在這種語言層面找到最優的對應關係。這個改變帶來的好處是多方面的：計算量從平方增長降為線性增長，模型對解析度變化更加魯棒，在少樣本情況下泛化更好，在新的參數範圍上推斷更準確。

當然，研究團隊也坦誠地指出了這項工作的局限所在。自適應基函數用的是相對簡單的softmax投影，更複雜的結構化設計或許能進一步提升性能。理論上，FUNCATTN的逼近誤差界（壓縮比k/n與精度之間的權衡）尚未嚴格建立，這是留給後續工作的重要問題。另外，L1正則化（鼓勵稀疏解）或許在某些應用中比Tikhonov正則化更合適，值得進一步探索。最後，把這套思想用到自然語言處理這樣"函數空間解釋不那麼直接"的領域，也是一個有趣但未知的方向。

如果你是一位工程師，在用AI做流體仿真、材料計算或者氣象預測，這項研究或許值得關注——它意味著同樣的計算資源可以處理更精細的網格，或者同樣的網格可以做出更準確的預測。如果你只是對AI如何"理解"世界感到好奇，那麼這項研究提供的視角也很啟發性：AI不必非要把世界打碎成無數個孤立的點才能處理，它可以學著像數學家一樣，在更抽象的"函數層面"思考問題。有興趣深入了解的讀者可以通過編號arXiv:2605.31559v1查詢完整論文。

贊助商廣告

---

Q&A

Q1：FUNCATTN與傳統Transformer注意力機制相比，最核心的區別是什麼？

A：傳統Transformer注意力機制（scaled dot-product attention）需要計算所有token兩兩之間的相似度，計算量隨序列長度平方增長，且完全忽視數據背後的函數結構。FUNCATTN則將注意力提升到函數空間層面：先用可學習的基函數把輸入壓縮為緊湊的頻譜係數，再通過最小二乘線性回歸求解最優的函數空間映射算子C，最後通過逆變換恢復輸出。這樣計算複雜度對序列長度變為線性，且模型能捕捉數據的整體函數結構，對解析度變化也更加魯棒。

Q2：FUNCATTN在PDE求解任務中的表現如何？

A：FUNCATTN在六個標準PDE基準中的五個達到最優，第六個與最優持平。與最接近的競爭對手Transolver相比，相對L2誤差降幅在6%到26.3%之間。例如Elasticity任務誤差從0.64%降至0.50%，Navier-Stokes從9.44%降至8.00%，Plasticity從0.13%降至0.11%。在分布外泛化（AirfRANS）測試中，FUNCATTN在OOD Reynolds和OOD Angles兩個難子集上分別以大幅度領先所有對比方法，顯示出更強的物理規律泛化能力。

Q3：FUNCATTN中基函數的數量k應該怎麼選？

A：根據論文的消融實驗，k=64是適用於大多數任務的穩健默認值，與最優結果相比誤差不超過5%。對於解場較為平滑的問題（如Darcy流、管道流），k=32到64已經足夠；對於含有高頻特徵的問題（如彈性變形、Navier-Stokes湍流），k=128到256能帶來額外的精度提升。繼續增大k（如512）反而可能略微變差（過擬合風險），同時顯著增加計算開銷：k=512時推理時間約為k=64的5.5倍，而精度提升微乎其微。