神經網路如何「悟出」群論密碼？來自耶魯大學的研究揭開了深度學習的隱秘數學骨架

這項由耶魯大學統計與數據科學系研究團隊發表的工作，於2026年6月提交至預印本平台arXiv，論文編號為arXiv:2606.02993。有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

深度學習中有一個令人著迷卻又令人困惑的現象：我們把一堆數字餵給神經網路，訓練結束後，網路內部悄悄長出了某種"規律"。這種規律不是人為設計的，而是梯度下降這把"雕刻刀"從高維參數空間裡自然刻出來的。問題是，這把刀到底刻出了什麼形狀？為什麼刻出的是這個形狀而不是別的？

耶魯大學的研究團隊為了回答這個問題，選擇了一個極度乾淨的實驗場地——有限群的運算。群，用最樸素的話說，就是一套帶有某種對稱結構的運算規則。鐘錶上的12個小時加減法、魔方的旋轉組合、偶數加偶數還是偶數，這些都是群的例子。研究團隊訓練了一個兩層神經網路，讓它學會預測兩個群元素的"積"：給你a和b，告訴我a乘以b等於什麼。這個任務聽起來簡單，卻蘊藏著深刻的代數結構。研究的核心發現是：神經網路在訓練過程中，自發地發現並編碼了群的"不可約表示神經網路如何悟出群論密碼來自耶魯大學的研究揭開了深度學習的隱秘數學骨架 "——這是數學家花了幾百年才系統整理出來的、描述群結構最基本的"頻譜成分"。更驚人的是，每個神經元只專注於一種表示，不同神經元之間的分工極其整潔，就像管弦樂團里每個樂手只演奏自己的聲部，合奏出完整的樂曲。

這項研究不僅揭示了神經網路學習代數任務的內在機制，還為理解"為什麼神經網路總能找到低維、低秩的解"提供了一個具體而清晰的數學框架。

一、群運算：神經網路的"數學練功房"

要理解這項研究，先得搞清楚研究團隊選擇的訓練任務是什麼。鐘錶是一個很好的出發點。假設鐘面上只有0到11共12個小時，你問：現在是9點，再過5小時是幾點？答案是2點，因為9加5等於14，減去一圈12，剩下2。這種"繞圈加法"就是數學裡的模運算，也是最簡單的群——循環群的運算規則。

贊助商廣告

但研究團隊野心更大。他們不只研究循環群，而是研究任意有限群，包括那些"乘法不滿足交換律"的非阿貝爾群。舉個例子，魔方的操作就不滿足交換律：先轉頂面再轉右面，和先轉右面再轉頂面，結果完全不同。研究團隊用的一個具體非阿貝爾群叫做弗羅貝尼烏斯群神經網路如何悟出群論密碼來自耶魯大學的研究揭開了深度學習的隱秘數學骨架 C??C?，它有21個元素，其運算規則涉及一種特殊的"翻倍"關係——用群論語言說，就是共軛關係yxy??=x?。這個群有五種不可約表示：三個一維的和兩個三維的。三維表示意味著每個群元素對應一個3×3的複數矩陣，而不是一個簡單的數字。

神經網路的架構也很清晰。每個輸入是一對群元素(g?, g?)，用獨熱編碼表示；輸出是對所有可能答案的概率預測，對應群元素g?*g?；中間是一個兩層網路，每個神經元有兩套輸入嵌入參數θ?和θ?（分別處理左右兩個輸入），一套輸出嵌入參數ξ，以及一個幅度縮放參數a。激活函數選擇的是平方函數σ(x)=x?，這個選擇不是隨意的——平方激活能讓傅里葉分析的代數結構保持乾淨，便於理論推導。網路對輸入做內積、求和、平方、再用輸出嵌入映射，這個簡單的計算圖背後隱藏著豐富的數學結構。

訓練過程被刻意分成兩個階段。第一階段，把幅度參數a固定在一個很小的值，只訓練方向參數（θ?, θ?, ξ）——它們被約束在單位球面上，通過投影梯度流來更新。第二階段，把方向參數凍住，只放開幅度參數a讓它自由增長。這種分離並非任意設計，而是因為研究團隊發現這兩個階段在數學上有本質不同的角色：第一階段負責"學會看什麼"，第二階段負責"看得更清楚"。

二、傅里葉變換：換一副眼鏡看參數

接下來是這項研究最關鍵的技術轉換。研究團隊把神經網路的參數θ?、θ?、ξ從"直接看每個群元素上的取值"轉換到"看其傅里葉頻譜上的成分"。

對於循環群Zn，這就是普通的離散傅里葉變換——把一個信號分解成不同頻率的正弦波疊加。對於一般的有限群，這個變換的推廣叫做"群傅里葉變換神經網路如何悟出群論密碼來自耶魯大學的研究揭開了深度學習的隱秘數學骨架 "，原理相同，但每個"頻率成分"不再是一個數，而是一個矩陣。具體來說，對每個不可約表示ρ（可以理解為一種"頻率通道"），參數ν的傅里葉係數是一個dρ×dρ的複數矩陣，其中dρ是這個表示的維數。對於循環群，所有表示都是一維的，所以傅里葉係數就是普通複數；對於非阿貝爾群，某些表示是高維的，對應的傅里葉係數就是矩陣。

贊助商廣告

把參數從"元素域"換到"頻譜域"，就像把一段音樂從時間軸上的聲波波形，換成頻率-響度圖。波形看起來複雜，頻率圖卻一目了然——哪些音符在響，響多大。研究團隊發現，當神經網路訓練收斂後，每個神經元的參數在頻譜域裡呈現出極度稀疏的模式：絕大多數"頻率通道"上的係數趨近於零，只有一個通道（加上它的共軛通道）上有非零值。這就是"單一表示"現象——每個神經元只專注於一種不可約表示。

更深層的結構藏在那個非零的矩陣里。研究團隊發現，即使是高維表示對應的矩陣，經過訓練後都變成了秩為1的矩陣。秩1意味著這個矩陣可以寫成兩個向量的外積：A=uv*。一個dρ×dρ的矩陣本來有dρ?個自由度，但秩1約束把它壓縮到只有2dρ個自由度。這種極端的壓縮是自發發生的，不是任何正則化或架構約束強制的——純粹是梯度下降"選擇"了低秩解。

三、主定理：神經網路學到了什麼

現在可以完整陳述研究團隊證明的核心定理了。在小幅度初始化（讓網路輸出接近零）和隨機球面初始化下，對於任意有限群G，第一階段訓練結束後，每個神經元m幾乎必然收斂到以下狀態。

其一，"單一表示"：存在一個非平凡不可約表示ρ?，使得除了ρ?和它的共軛ρ??之外，所有表示的傅里葉係數都趨近於零矩陣。參數在元素域的表達式因此簡化為：只依賴於ρ?在群元素上的矩陣值的實部跡。

其二，"秩一旋轉對齊"：在存活的表示ρ?上，三套參數的傅里葉係數θ??[ρ]、θ??[ρ]、ξ?[ρ]都是秩1矩陣，並且三者之間滿足一種"旋轉對齊"的比例關係：ξ?[ρ] ∝? θ??[ρ]θ??[ρ]，θ??[ρ] ∝? (θ??[ρ])* ξ?[ρ]，θ??[ρ] ∝? ξ?[ρ](θ??[ρ])*。三個等式用正實數比例係數相互約束，形成一個閉合的"三角關係"。

這裡的"∝?"表示"以正實數為比例係數成正比"。在阿貝爾群的特例下，所有表示都是一維的，矩陣乘法退化為數字乘法，旋轉對齊退化為相位加法關係arg(ξ)=arg(θ?)+arg(θ?)，這正是此前針對模運算加法的研究已經觀察到的"相位對齊神經網路如何悟出群論密碼來自耶魯大學的研究揭開了深度學習的隱秘數學骨架 "現象。非阿貝爾群的新鮮之處在於：矩陣乘法不滿足交換律，所以三個關係式不再自動等價，需要分別證明；同時，秩一壓縮是非阿貝爾情況獨有的新現象，在一維情況下根本不存在這個概念。

贊助商廣告

用音樂類比來說：每個神經元就像一個只會演奏一種樂器（一種不可約表示）的演奏家，而且在這種樂器的頻率空間裡，他們只撥動一根弦（秩1），三個參數組合的方式就像三部樂譜（輸入1、輸入2、輸出）互相"對齊"——你聽了第一部就能推測出第三部的主旋律。

四、證明路徑：如何從梯度流推出這一切

要把以上現象從"觀察"變成"定理"，研究團隊走了一條精心設計的數學路徑，分四步完成。

第一步是把梯度流"提升"到頻譜流形上。通過對交叉熵損失在小輸出幅度下做泰勒展開近似，可以得到一個更簡潔的近似損失函數Rap。研究團隊嚴格證明了，在足夠小的幅度a下，近似損失的梯度流和真實損失的梯度流在任意有限時間區間內的軌跡誤差以O(a?|G|^(1/2)/M)的速率積累——這個誤差可以通過選取足夠小的a控制到任意精度。在近似損失下，把參數替換為它們的傅里葉係數表達，梯度流等價於在傅里葉係數構成的流形上做一種叫做"黎曼梯度上升"的優化。被上升的目標函數叫做Ω?，它是三套傅里葉係數之間矩陣乘積跡的實部求和。這是整個證明的支點：把參數空間的優化轉化為一個有明確能量函數的幾何流。

第二步是對臨界點做窮舉分類。黎曼梯度上升的臨界點就是梯度為零的狀態，即Ω?不再變化的"靜止點"。研究團隊把所有可能的臨界點按能量符號和支撐結構分成五類。能量為負的臨界點和能量為零但只有平凡表示支撐的臨界點被歸入前兩類，研究團隊證明這兩類只能從一個"測度為零"的初始化集合出發才能到達——換句話說，隨機初始化幾乎必然繞開它們。能量為零但有非平凡表示支撐的臨界點和能量為正但總秩大於等於2的臨界點被歸入中間兩類，研究團隊通過分析黎曼海森矩陣，證明這兩類臨界點都是"嚴格鞍點"：黎曼海森矩陣在某個切向量方向上有正特徵值，意味著沿這個方向能繼續上升，這個點不是真正的"極大值"。只剩下最後一類：能量為正且總秩恰好等於1的臨界點——這正是單一表示加秩一對齊的狀態。

贊助商廣告

第三步是證明隨機初始化下梯度流幾乎必然繞開所有鞍點。研究團隊把這個問題歸結為一個關於黎曼流形上連續梯度流的一般定理——研究團隊將其稱為"鞍點迴避定理"。核心工具是"中心穩定流形定理"：對於嚴格鞍點p，其切空間可以分解為對應負或零特徵值的"中心穩定子空間"和對應正特徵值的"不穩定子空間"。中心穩定流形定理保證了存在一個局部的"中心穩定流形"，維數嚴格小於流形總維數，因此測度為零。任何從隨機點出發且最終收斂到鞍點p的軌跡，其初始點必須落在這個測度零集內。把所有鞍點的穩定集取可數並，仍然是測度零集。由此，絕對連續的隨機初始化幾乎必然不落在任何鞍點的穩定集裡。

第四步是把前三步拼裝起來，完成定理證明：梯度流必然收斂到某個臨界點（因為流形是緊緻的），前兩類被測度零初始化排除，中間兩類被鞍點迴避排除，於是幾乎必然收斂到最後一類。證畢。

五、阿貝爾群的完整畫像：多數投票與"殘次指示函數"

對於結構更簡單的阿貝爾群（乘法滿足交換律的群，比如各種模運算加法），研究團隊能給出更精細的描述，不只說"每個神經元學一種表示"，還能說清楚整個神經元集合的分布。

核心定理說的是：在球面均勻隨機初始化下，當神經元數量趨於無窮時，神經元集合的經驗分布收斂到一個極限分布μ。這個μ是某個乘積測度的"反傅里葉推前"：每個神經元以均勻概率獨立地從所有非平凡不可約表示中選一個，再從單位圓上按哈爾測度（即均勻分布）獨立地選一個"絕對相位"。用符號寫就是μ=T_idft#(Unif(Irr(G)≠1)?Haar(D))，其中T_idft是把"表示-相位對"轉換回參數向量的映射。

這個結論背後有兩層獨立的論證。相位的均勻性來自於：梯度流中相位的演化方程顯示，絕對相位θ[ρ]的幅角只是以確定性的方式旋轉了一個角度，初始相位的均勻性在旋轉下保持不變。表示的均勻性來自於：梯度流關於非平凡表示的重新標記具有對稱性，初始化的球面均勻分布也具有這種對稱性，所以"哪個表示最終勝出"的概率對所有表示都相等。兩者的獨立性則來自於：決定哪個表示勝出的資訊全部包含在"幅度和相對相位"的初始值中，而絕對相位獨立於這些資訊。

贊助商廣告

有了μ的明確形式，就可以計算平均場預測器的輸出logit。對於輸入(g?,g?)和輸出標籤j，logit正比於2·1(j=g?*g?)+1(j=g??)+1(j=g??)–4/|G|。正確答案j=g?*g?獲得係數2，兩個"幽靈"標籤g??和g??（分別是兩個輸入各自與自身的群積）各獲得係數1，其餘標籤獲得負的基準值–4/|G|。正確答案始終是係數最大的，因此分類正確。研究團隊把這個預測器形象地稱為"殘次指示函數"：它本應該是一個完美的單峰指示，只在正確答案處為1，其餘為0；但由於架構的結構性限制，它在兩個"幽靈"答案處也有額外的小峰。不過，只要幅度參數a足夠大，softmax操作就能把這個"殘次"分布銳化為正確答案上的接近確定性預測。

這裡用選舉打比方很合適。每個神經元像一個選民，投票給某個候選答案。絕大多數選民投給正確答案，少數選民因為"幽靈效應"投給了g??或g??，但正確答案的得票率始終是最高的。當投票人數（神經元數量）足夠多時，噪聲被平均掉，多數投票的結果穩健地指向正確答案。

六、收斂速率：快慢兩個相互纏繞的過程

知道梯度流"最終"會收斂還不夠，研究團隊還進一步分析了"多快收斂"以及"收斂的機制是什麼"。

對於阿貝爾群，整個第一階段的收斂可以分解為兩個相互獨立又相互纏繞的子過程。第一個子過程叫"相位對齊"：輸入嵌入和輸出嵌入的相位關係從任意狀態逐漸鎖定到滿足arg(ξ)=2arg(θ)的對齊狀態（係數2來自平方激活）。第二個子過程叫"表示競爭神經網路如何悟出群論密碼來自耶魯大學的研究揭開了深度學習的隱秘數學骨架 "：所有非平凡表示的傅里葉係數幅度之間展開"軍備競賽"，初始幅度最大的那個表示會指數級擴大自己的優勢，其餘表示則指數級衰減。

研究團隊對這兩個子過程分別給出了精確的收斂速率。相位對齊：如果神經元初始時只有一個表示處於活躍狀態，那麼相位對齊量R(φ)從初始值到達1-ε精度所需時間正比於M/(a|G|^(1/2))乘以對數因子。相位初始越接近對齊狀態，收斂越快；相位初始越偏離，需要的時間越長，但始終是指數收斂。

贊助商廣告

表示競爭：如果初始時所有相位已經對齊，那麼表示幅度之間的比值r?(t)=α?[ρ]/α?[ρ]滿足一個簡單的增長方程，其解是指數增長——初始比值越大，增長越快，但無論初始優勢多小，只要大於1，最終都會無限放大。這就是"彩票機制"：哪個表示在初始化時贏得了幅度上的微弱優勢，它就贏得了這場競賽；訓練的作用是把這個微弱優勢指數級放大，直到其他表示徹底消聲匿跡。因為初始化是球面均勻的，所有表示的初始幅度是可交換的，每個表示贏得彩票的概率相等——這正是宏觀均勻分布的微觀起源。

從訓練速度和所需時間的角度來看，兩個子過程所需的時間尺度是O(M/(a|G|^(1/2)))和O(M/(a|G|))，前者比後者更慢（因為|G|^(1/2)更小），這意味著相位對齊通常是整個第一階段的"瓶頸"。訓練曲線上那段看起來損失停滯不前的平台期，正是相位對齊正在發生的時期。

七、第二階段：幅度爆炸與損失歸零

第一階段結束後，每個神經元已經學好了"看什麼"（哪個表示）以及"如何看"（對齊的相位/秩一結構）。但預測準確率可能仍然不高，因為幅度參數a太小，使得softmax輸出接近均勻分布。第二階段的任務就是讓a生長起來，把softmax從"均勻模糊"銳化為"集中確定"。

研究團隊證明了以下結論：只要平均場預測器已經滿足"完美精度條件"（即對每個輸入對，正確答案的logit嚴格大於所有錯誤答案），那麼a的梯度流滿足a(t)?log(1+|G|·(|G|–1)·t)的下界——即對數增長。交叉熵損失的上界則隨時間呈O(1/T)衰減。幅度的對數增長速度看起來很慢，但對於有限群來說，logit間距的正數下界（來自第一階段學到的結構）保證了最終損失會趨向零。這個動態非常類似於在可線性分離數據上做指數族損失的梯度下降時的隱式偏置——幅度趨於無窮，損失趨於零，但模型的"方向"已經固定。研究團隊還證明了，在足夠寬的網路下（M?log(|G|?/δ)），有限神經元集合的預測器以1-δ的概率繼承了平均場預測器的正確性，從而確保第二階段的幅度生長確實能帶來正確分類。

贊助商廣告

八、實驗驗證：理論預測與實踐結果的精確對應

研究團隊在弗羅貝尼烏斯群C??C?上進行了詳盡的數值驗證，這個群因為同時具有三維不可約表示（讓秩一壓縮現象有意義）和非自共軛表示（讓共軛對結構清晰可見）而成為理想的測試場。

訓練1024個神經元後，研究團隊對每個神經元的參數做群傅里葉變換，得到一個"頻譜熱力圖"，行對應神經元，列對應不同表示的傅里葉係數塊（一維表示貢獻一列，三維表示貢獻一個3×3的塊）。熱力圖清晰地顯示：每個神經元只在一個表示塊（加上它的共軛塊）處有顯著非零值，其餘塊幾乎全為零。這直接驗證了單一表示結論。

研究團隊還定義了兩個量化指標。"對齊度"disal(C?,C?)衡量兩個矩陣之間的餘弦相似度，值為1表示它們是正比關係。"秩一度"distr1(C)衡量第二奇異值與第一奇異值的比值，值為0表示矩陣是完美秩一。訓練過程中，三套參數之間的對齊度穩步趨近1，三套參數各自的秩一度穩步趨近0，兩個指標在訓練後期都非常接近理論極限，方差也趨近於零。與此同時，分類準確率也在第一階段末期穩定在100%，確認了平均場完美精度條件成立，為第二階段打下了基礎。第二階段的幅度增長曲線——無論是"綁定幅度"（所有神經元共享一個幅度參數）還是"獨立幅度"（每個神經元有自己的幅度參數）——都呈現出清晰的對數增長模式，與理論預測高度吻合。

說到底，這項研究揭示的是神經網路內部一種極其精妙的"自我組織"能力。你不需要告訴網路群論，不需要告訴它什麼是不可約表示，不需要告訴它應該用低秩矩陣——只需要給它數據和梯度，它會自己找到這些數學結構。這背後有一個深刻的道理：數據的對稱性（群的結構）會通過損失函數的梯度流，自然地"印刻"進網路的參數形態。數學家發現不可約表示是描述群結構的最緊湊方式，神經網路通過梯度下降也"發現"了同樣的結論——不是因為它懂數學，而是因為梯度下降在這類有對稱性的數據上，本質上就是在尋找最緊湊的表示方式。

贊助商廣告

這項工作目前仍有一些懸而未決的問題。對於具有高維不可約表示的非阿貝爾群，神經元集合的極限分布是什麼樣的？具有自共軛表示的阿貝爾群如何處理相位變成實數符號的情況？從全量數據訓練到部分數據訓練的泛化間隙，以及那個著名的"grokking"（先過擬合後突然泛化）現象，理論上如何解釋？這些問題都是未來研究的方向，而這篇論文已經建立了一個足夠堅實的框架，讓這些問題變得可以被精確地提出和追問。歸根結底，這項研究給我們的最大啟示不是某個具體的算法改進，而是一種觀察神經網路的新角度：當數據有代數結構時，去頻譜域看——你很可能會看到比你預期更乾淨、更美麗的東西。有興趣進一步探索的讀者，可以通過arXiv編號2606.02993找到完整論文，研究團隊也在GitHub上公開了完整代碼。

Q&A

Q1：神經網路學習群運算時自發發現的"不可約表示"是什麼意思？

A：不可約表示是描述一個群結構最基本的"積木塊"，類似於把白光分解成七色光譜。每個有限群都有有限種不可約表示，它們無法再被分解。神經網路在訓練後，每個神經元的參數在傅里葉頻譜上只對應其中一種表示，就像每位樂手只演奏一種樂器，這種自發的專門化現象正是"學到了不可約表示"的含義。

Q2：弗羅貝尼烏斯群C??C?是什麼，為什麼要用它做實驗？

A：弗羅貝尼烏斯群C??C?是一個有21個元素的非阿貝爾群，意思是群里的運算不滿足交換律，a乘以b不等於b乘以a。它被選來做實驗是因為它同時具備三維不可約表示（讓秩一壓縮現象有實質意義）和非自共軛表示（共軛結構清晰），是驗證理論的理想"最小複雜案例"，比對稱群簡單但又比循環群複雜。

Q3：論文中的"grokking"現象指的是什麼？

A：Grokking（頓悟）是深度學習中一個奇特現象：模型在訓練數據上早已過擬合（記住答案但不理解規律），卻在很久之後突然在測試數據上也獲得了高泛化能力，損失曲線上出現明顯的延遲跳變。這項論文的兩階段訓練框架和幅度對數增長描述了相關機制的一部分，但從部分數據訓練到完整泛化的精確理論分析，作者承認仍是未解問題。

贊助商廣告