帝國理工與劍橋聯手：當AI學會「理解」物理規律，流體預測準確率大幅躍升

這項由英國帝國理工學院數學系與劍橋大學應用數學和理論物理系聯合完成的研究，於2026年6月以預印本形式發布，編號為arXiv:2506.05131v1，有興趣深入了解的讀者可通過該編號查閱完整論文。

贊助商廣告

自然界中的很多現象都遵循著某種隱藏的規律。海浪翻湧的方式、氣候系統的演變、神經元放電的節律，背後都有一套內在邏輯在驅動。科學家幾十年來一直在尋找一種"萬能翻譯機"，能把這些看起來混亂複雜的運動，翻譯成可以計算、可以預測的數學語言。這篇論文所做的事情，正是讓這台翻譯機變得更聰明、更忠實於原著。

研究團隊提出了一種名為DeepMDMD的新方法，全稱是深度嵌入乘法動態模式分解。這個名字聽起來很學術，但背後的思想卻非常直白：用神經網路學習一個"壓縮空間"，再在這個空間裡，強制讓數學運算遵守物理世界本來就滿足的乘法規則。結果是，用更少的數據、更小的模型，得到了比傳統方法更準確、更乾淨的預測結果，而且在噪聲嚴重的情況下依然表現穩健。

---

一、非線性世界的"線性翻譯"難題

物理世界幾乎處處都是非線性的。一個簡單的單擺，擺動幅度稍大一點，它的運動方程就不再是簡單的正弦波，而變成了一個複雜的非線性微分方程。更別說湍流、氣候、混沌系統這些複雜場景了。直接分析這些方程往往無從下手。

大約一百年前，數學家科普曼提出了一個極具想像力的解法：與其死磕那些複雜的狀態變量，不如換一個角度，去觀測狀態的"函數"，也就是可觀測量。這些可觀測量在一個叫做科普曼算子的線性算子作用下演化，而線性算子在數學上要好處理得多。用一個不那麼精確但足夠傳神的比喻來說：原來你試圖追蹤每一個水分子的運動，現在你改成追蹤"水溫分布"這個整體屬性，它的演化規律簡單多了。

這個"線性化"的代價是維度——科普曼算子通常是無限維的，因為需要無數個可觀測量才能完整描述系統。於是，計算上的核心挑戰就變成了：如何用有限個精心挑選的可觀測量，來儘可能忠實地近似這個無限維算子？

贊助商廣告

現有的主流工具叫做擴展動態模式分解，英文簡稱EDMD。它的做法是事先選一批基函數（字典），然後用數據擬合一個有限維的矩陣作為科普曼算子的近似。這套方法的瓶頸非常明顯：字典的質量幾乎決定了一切，而對於高維複雜系統，選一批"好"的基函數極其困難。字典維度通常隨狀態空間維度指數增長，這就是所謂的維度詛咒。

---

二、乘法規則：一條被忽視的物理約束

科普曼算子有一條天然滿足的性質，在傳統EDMD框架里往往被忽略：乘法規則。科普曼算子的定義是把函數f作用到下一時刻的狀態上，因此，如果把兩個可觀測量f和g相乘，再經過算子演化，結果等於f和g分別演化後再相乘。數學上寫成K(fg)=(Kf)(Kg)。

這條規則聽起來很抽象，但它有深刻的物理含義。正因為有乘法封閉性，科普曼算子的特徵值在單位圓上構成一個群結構，不同特徵值的整數冪次之間也是特徵值。違背這條規則的近似，就像一個音樂家雖然能演奏出正確的音符，卻把音符之間的和聲關係全弄錯了——聽起來差不多，但內在的結構已經損壞了。

乘法動態模式分解，也就是MDMD，是帝國理工與劍橋團隊此前提出的方法，它通過把狀態空間劃分成若干個小區域，用每個區域的指示函數作為字典基，精確地滿足了乘法規則。因為這些指示函數互相不重疊，兩個不同區域的指示函數相乘結果為零，與同一區域的指示函數相乘結果還是自己，乘法封閉性天然成立。

在滿足這條約束的前提下，MDMD給出的近似算子只能是一個從區域到區域的跳轉圖：每個區域在下一時刻要麼跳到另一個區域，要麼消失，沒有中間狀態。這個強約束帶來了一個很好的性質：算子的非零特徵值全部落在單位圓上，不會出現模大於一的虛假特徵值，預測不會無緣無故地爆炸增長。

但MDMD也有自己的局限。如何劃分狀態空間？通常的做法是用k均值聚類，把數據分成幾何上緊湊的小組。這是一種純粹基於距離的劃分，完全忽視了時間演化的方向。結果就是，劃分出來的區域邊界經常橫跨系統軌跡，而不是順著軌跡走。這就好比你想用圍欄圈出一條河流的不同"水文區"，卻把圍欄築得橫跨河道，而不是沿著河道走勢劃分——最終每個圍欄里的水都在混著來自不同源頭的流，沒有辦法乾淨地描述每段河流的特性。

贊助商廣告

在高維系統里，這個問題更嚴重。158,624維的流場數據，用k均值直接聚類幾乎沒有意義，通常的補救是先用本徵正交分解降維，再聚類，但這是線性降維，丟掉了非線性結構。

---

三、把"壓縮"和"規則"結合在一起

DeepMDMD的核心想法是：不要在原始高維狀態空間裡劃分區域，而是先用神經網路學一個低維的"壓縮表示"，在這個壓縮空間裡劃分區域，然後在這個壓縮空間裡強制執行乘法規則。

具體來說，整個框架分成三個相互咬合的部分。第一部分是自動編碼器，它由一個編碼器和一個解碼器組成。編碼器把高維狀態壓縮成幾維的潛空間表示，解碼器再從潛空間把資訊還原回高維狀態。這和圖像壓縮的直覺一樣——一張高清照片可以壓縮成幾十KB的文件，關鍵資訊被保留，冗餘被丟棄。

第二部分是潛空間分區。在這個壓縮後的低維空間裡，用k均值初始化若干個聚類中心，劃定各自的區域邊界，構建指示函數字典。

第三部分是MDMD求解器。給定當前的潛空間分區，用標準的MDMD算法精確求出滿足乘法約束的轉移矩陣K。這個矩陣告訴我們每個區域的狀態在下一時刻會跳到哪個區域，是一個精確的硬約束，不是近似。

這三部分單獨拿出來都不新鮮，但把它們結合在一起並讓它們協同優化，就產生了新的效果。自動編碼器的壓縮方式會影響區域劃分的質量，區域劃分的質量影響乘法算子的準確性，而整個系統的目標是讓乘法算子在壓縮空間裡儘可能準確地預測動態。於是訓練過程變成了一個"兩步交替優化"：固定分區，更新算子；固定算子，更新編碼器和分區。

---

四、軟分配：讓梯度能夠"流動"

這裡有一個技術上的障礙。在訓練神經網路時，需要對損失函數求梯度，才能通過反向傳播更新參數。但指示函數是離散的——一個點要麼在某個區域裡，要麼不在，沒有連續的過渡，所以沒有梯度可以計算。

贊助商廣告

解決這個問題的方式是引入"軟分配"。在做分區更新這一步時，不再用硬性的"在區域裡/不在區域裡"來判斷，而是用一個叫做Student t核的平滑函數，給每個潛空間裡的點分配它屬於各個區域的"概率權重"。這個核函數的尾巴比高斯分布更厚，能有效避免聚類時把密集區域的點都擠到一起、而稀疏區域的點拉得很遠的問題。

有了軟分配，損失函數就變得光滑可微了，可以用梯度下降來優化編碼器參數和聚類中心的位置。完成一輪梯度更新之後，下一次做算子更新時再把軟分配恢復成硬分配，保證乘法約束是精確滿足的，而不是近似的。

整個訓練循環可以理解為一種持續的"問答對話"：算子問分區，現在的劃分方式能讓我準確預測下一步嗎？分區反問編碼器，你把狀態壓縮成這個樣子，讓我能劃出有意義的區域嗎？編碼器再問算子，我這樣壓縮對你的預測有幫助嗎？三方反覆協商，直到找到一個彼此都滿意的均衡。

訓練完成後，預測完全在潛空間裡進行。把初始狀態壓縮成潛空間表示，然後用科普曼矩陣的特徵分解不斷推進時間，每一步都在三維的潛空間裡完成，只在需要輸出物理空間結果的時候才調用解碼器還原。這比在158,624維的狀態空間裡直接推進快得多，也對噪聲更魯棒，因為編碼器天然過濾了不在學習到的低維流形上的分量。

---

五、從單擺到湍流：四個實驗的驗證

研究團隊在四個差異顯著的系統上測試了DeepMDMD，從最簡單的二維單擺到維度高達158,624的流場，覆蓋了從哈密頓系統到混沌再到高Reynolds數湍流的寬廣範圍。

第一個測試對象是非線性單擺。單擺的狀態只有兩個變量：角度和角速度，是一個二維問題，不需要降維。在這裡，DeepMDMD要展示的不是降維能力，而是分區質量的提升。單擺有一條守恆量——哈密頓量，也就是系統的總能量，在運動中保持不變。這意味著所有軌跡都沿著等能量的曲線（橢圓形的閉合軌跡）運動，這些閉合曲線就是系統的"地形等高線"。

贊助商廣告

在圖3中可以看到，用k均值初始化的MDMD分區，其區域邊界像網格一樣橫切這些等高線，每個區域裡混著來自不同能量層的軌跡點，完全沒有尊重系統的內在幾何。而DeepMDMD學出來的分區，區域邊界順著等高線排布，每個區域大致對應一個能量層，這樣的指示函數在科普曼算子作用下才有好的封閉性。

這個差異直接反映在預測誤差上。在圖4中，兩種方法的相對誤差隨字典大小N增加的曲線表明，DeepMDMD用大約100個基函數就能達到MDMD用1000個基函數才能達到的誤差水平，也就是說，用大約十分之一的字典規模實現了相近的精度。

此外，研究團隊還比較了三種方法的特徵值分布：DeepMDMD、MDMD、以及用DeepMDMD字典但不加乘法約束的EDMD。EDMD即便用了DeepMDMD學到的好字典，依然在單位圓內部產生了大量虛假特徵值，這些特徵值對應指數衰減的模式，會讓預測結果無故衰減。MDMD雖然把特徵值釘在了單位圓上，但只分辨出了少數幾個低階的離散頻率，對連續譜幾乎沒有分辨能力。DeepMDMD則在單位圓上覆蓋了更密集、更高階的頻率點，對單擺連續譜的近似要豐富得多。

為了量化這種差異，研究團隊還提出了一個衡量"有效獨立本徵函數數量"的方法。科普曼算子的乘法性質意味著，特徵函數的乘積仍然是特徵函數，因此很多特徵函數其實是少數"主"特徵函數的組合，並不獨立。通過構造一個以每個特徵函數的對數模為列的矩陣，分析它的奇異值，就能估計獨立方向的數量。DeepMDMD的這個矩陣奇異值下降明顯慢於MDMD，說明它真正分辨出了更多的獨立譜結構。

第二個測試是九維的Lorenz-96系統，這是一個在氣候科學中廣泛使用的模型混沌系統，通過改變外部強迫參數f，系統會經歷從周期運動到擬周期運動再到混沌運動的一系列相變。研究團隊分別在f=2.0（周期）、f=3.5（擬周期）、f=4.2（混沌）三種狀態下訓練DeepMDMD，將九維狀態壓縮到三維潛空間。

贊助商廣告

圖7展示了三個狀態下學到的潛空間幾何和特徵函數。周期狀態下，所有軌跡在潛空間裡形成一條閉合曲線，擬周期狀態下擴展成一個環面狀結構，混沌狀態下則鋪展成一個複雜的奇怪吸引子形態。這些幾何結構與Lorenz-96系統在各參數下已知的數學性質高度吻合，說明DeepMDMD學到的潛空間表示確實捕捉到了動力學的本質結構，而不只是對數據的幾何壓縮。

第三個測試是一個經典的流體力學案例：雷諾數Re=100時的圓柱繞流。流過圓柱的流體在圓柱後方形成著名的卡門渦街，周期性地交替脫落漩渦，整個流場是一個在吸引子上的周期運動。狀態維度是一個800×200的渦量網格，共158,624維，而DeepMDMD只用三維潛空間和80個字典基函數。

為了測試魯棒性，研究團隊在訓練完成後，對輸入快照疊加不同比例的高斯噪聲，最高到40%，模擬實驗測量中常見的傳感器噪聲。圖9左側展示了不同噪聲水平下DeepMDMD在潛空間裡的預測軌跡：即使噪聲達到40%，軌跡依然緊緊貼著低維流形，而沒有被噪聲推離。這是因為編碼器把噪聲中不屬於低維流形的成分過濾掉了，預測在一個"乾淨"的空間裡進行。

相比之下，MDMD直接在158,624維的狀態空間裡工作，輸入的每一個噪聲擾動都全部傳入計算，沒有任何過濾機制。圖9右側的誤差曲線顯示，隨著噪聲增大，MDMD的誤差急劇攀升，而DeepMDMD的誤差上升幅度要平緩得多。在40%噪聲水平下，圖10的視覺對比更是一目了然：DeepMDMD的預測渦量場依然清晰地呈現出卡門渦街的結構，而MDMD的預測已經被噪聲淹沒得幾乎看不出流場形態。

第四個測試是雷諾數Re=20,000的二維方腔流，這是一個更具挑戰性的湍流場景，科普曼譜中同時包含離散和連續成分。數據取自文獻中的基準算例，狀態維度為4,225維，訓練集是500個加了40%高斯噪聲的快照，測試集是之後1,000個乾淨快照。

在這個例子裡，研究團隊的主要關注點是流場統計特性的捕捉能力，具體用渦量場的自相關函數來衡量：對於每個空間點的渦量時間序列，計算它與自身在不同時間滯後下的相關性，這個相關函數的傅里葉變換給出了該空間點的頻譜，是科普曼譜的一個可觀測指紋。

贊助商廣告

圖11的結果顯示，DeepMDMD給出的自相關結構與真實流場的自相關結構高度一致，在750個時間步的滯後範圍內都能追蹤真實值。MDMD則無法重現正確的自相關結構，說明它對這個複雜譜系統的統計特性基本沒有捕捉能力。

---

六、方法背後的訓練細節

整套方法的訓練在工程上也有若干值得關注的選擇。自動編碼器在正式訓練前先做一個純重建預訓練，目的是讓編碼器先學會一個基本合理的低維表示，而不是從隨機初始化出發直接優化動力學相關的損失。

潛空間分區的聚類中心用k均值++算法初始化，這是一種比隨機初始化更聰明的初始化策略，能避免聚類中心扎堆。

在高維實驗中，訓練目標函數是兩項的加權和：一項是科普曼預測誤差，衡量當前的編碼器和分區是否讓轉移矩陣準確預測動態；另一項是重建誤差，衡量編碼-解碼往返的保真度。重建誤差的權重λ在高維實驗中設為0.25，這個正則化項防止編碼器為了迎合動力學而把資訊壓縮得太狠，導致解碼器無法從潛空間恢復可用的物理場預測。低維實驗（比如單擺）不需要重建，λ設為零。

算子更新每20步梯度更新做一次，讓編碼器有足夠的時間在做下一次精確MDMD求解之前先調整好幾何，避免更新太頻繁導致軟硬分配之間的不一致過大。從圖8的訓練曲線來看，這套交替優化方案收斂穩定，科普曼聚類損失和重建損失都平穩下降。

---

歸根結底，DeepMDMD做的事情可以用一句話來概括：先讓神經網路把複雜系統"摺疊"進一個合適的低維空間，再在這個空間裡精確地執行科普曼算子本來就應該滿足的數學規則。兩者缺一不可——光有好的壓縮，沒有規則約束，預測可能失去物理意義；光有規則約束，但壓縮得很差，字典需要極大才能湊合。

這個工作提醒我們，深度學習和結構化數學方法並不是非此即彼的對立，而是可以相互補充的工具。神經網路擅長從數據中發現複雜的低維結構，而數學約束負責保證這個結構滿足物理世界早就知道的對稱性和守恆律。在這種組合下，從158,000維的流場數據里，用三維潛空間和80個基函數，就能在強噪聲下追蹤出清晰的渦街結構，這本身就說明了這條路的可行性。

贊助商廣告

當然，這套方法目前也有一些尚未解決的問題。潛空間的維度需要人為指定，如何從數據中自動估計合適的維度是一個開放方向。此外，理論上對交替優化方案的收斂性證明目前還沒有完成，只有實驗上的觀察。有興趣深入了解技術細節的讀者，可以通過arXiv編號2506.05131查閱原論文，代碼也在GitHub上公開。

---

Q&A

Q1：DeepMDMD和普通深度學習預測方法有什麼本質區別？

A：普通深度學習預測方法（比如LSTM或Transformer）直接擬合輸入輸出映射，不強制滿足任何物理約束，預測結果可能隨時間發散或產生不符合物理規律的特徵值。DeepMDMD的核心區別在於，它在神經網路學到的壓縮空間裡強制執行科普曼算子的乘法規則，這條規則保證算子的非零特徵值全部落在單位圓上，從根本上排除了預測指數爆炸增長的可能性，同時使特徵值結構更忠實地反映系統真實的頻率內容，減少虛假譜污染。

Q2：乘法動態模式分解對字典規模的要求為什麼比普通方法低那麼多？

A：科普曼算子的乘法性質意味著特徵函數之間不是獨立的，已有的特徵函數相乘可以生成新的特徵函數。如果字典與系統的動力學結構對齊，少數幾個"主"基函數就能通過乘法組合生成所需的所有譜資訊，不需要用很多基函數去"強行"擬合。DeepMDMD通過學習對齊動力學的壓縮空間，使得區域劃分順著軌跡走，每個區域內部的動力學更均勻，基函數的封閉性更好，因此用更少的基函數就能捕捉到等量甚至更豐富的譜結構。

Q3：DeepMDMD在噪聲環境下表現更好的原理是什麼？

A：DeepMDMD的預測全程在低維潛空間內進行，編碼器把高維輸入映射到學習到的低維流形上，這一步天然過濾了不在流形上的噪聲分量。具體來說，如果系統真實動力學只需要三維來描述，編碼器就會把輸入投影到一個三維空間，測量噪聲中正交於這個空間的成分會被抹掉，不會傳播到預測過程中。傳統MDMD直接在原始高維空間工作，每一個噪聲維度都完整地參與計算，沒有任何類似的過濾機制，因此對噪聲高度敏感。

贊助商廣告