普林斯頓大學團隊如何讓AI專家模型訓練速度翻倍

這篇由普林斯頓大學郭文濤、程新樂，加州大學伯克利分校米什拉、斯托伊察，以及Together AI的趙天分別在2025年12月17日發表的最新研究報告，介紹了一項名為SonicMoE的突破性技術。這項研究針對目前人工智慧領域最重要的"專家混合模型"(Mixture of Experts，簡稱MoE)在訓練過程中遇到的瓶頸，提出了一套完整的解決方案。有興趣深入了解的讀者可以通過論文編號arXiv:2512.14080查詢完整論文。

贊助商廣告

要理解這項研究的重要性，我們首先要明白什麼是專家混合模型。這種模型就像一個擁有眾多專業老師的學校，每個老師只專精某一個科目，當學生有特定問題時，會被引導到最合適的老師那裡獲得幫助。這種設計讓AI模型在不大幅增加計算成本的前提下，顯著擴展了知識儲備和處理能力。

然而，隨著AI技術的發展，研究人員發現一個有趣的現象：讓每個"專家老師"更加專業化（也就是處理更細分的領域），以及增加專家數量同時保持激活專家數量不變（提高稀疏性），確實能讓模型表現得更好。這就好比把一個通用數學老師拆分成代數專家、幾何專家、微積分專家等，每個專家只負責自己最擅長的部分，學生學習效果會更好。

不過，這種做法也帶來了問題。當專家變得越來越專業化時，系統需要記住更多資訊來協調這些專家之間的工作，這就像學校需要更大的檔案室來存放每個老師的課程資料。同時，由於每個專家處理的內容變少了，計算資源的利用效率也下降了，就好比讓一個專業的心臟外科醫生去處理簡單的感冒，既浪費了專家的時間，也增加了系統的複雜性。

一、重新設計大腦的記憶系統

研究團隊首先解決的是內存占用問題。傳統的專家混合模型在訓練過程中需要保存大量中間結果，這些資訊在後續的學習過程中要用到。隨著專家變得更加專業化，需要保存的資訊量呈直線上升，就像一個圖書館隨著藏書分類越來越細，需要的目錄卡片也越來越多。

贊助商廣告

研究團隊通過仔細分析整個計算過程，發現了一個巧妙的解決方案。他們重新設計了計算路徑，避免保存某些中間結果，而是在需要時重新計算。這種做法類似於一個聰明的圖書管理員，不再存儲所有可能用到的索引卡片，而是建立了一套高效的即時查找系統。

具體來說，傳統方法需要保存每個專家的輸出結果Y和相應的梯度資訊dY，用於後續的參數更新。SonicMoE通過數學推導，找到了一條不需要這些資訊的計算路徑。他們將路由器評分的梯度計算重新表述為dS = ?dA', A?的形式，而不是傳統的dS = ?dO, Y?。這種改變看似微小，實際上消除了對大量中間結果的依賴。

這種優化的效果非常明顯。對於一個7B參數的精細化專家混合模型，SonicMoE將每層的激活內存使用量減少了45%。更重要的是，無論專家變得多麼專業化，內存使用量都保持恆定，這為訓練更大更複雜的模型提供了可能。

二、讓計算和數據傳輸並行進行

第二個創新點是充分利用現代GPU硬體的異步處理能力。這就好比一個餐廳廚房，傳統做法是廚師完成一道菜的全部步驟後再開始下一道，而SonicMoE的方法是讓廚師在炒菜的同時，助手已經開始準備下一道菜的食材，實現真正的流水線作業。

在現代GPU（特別是NVIDIA的Hopper和Blackwell架構普林斯頓大學團隊如何讓AI專家模型訓練速度翻倍）中，矩陣乘法運算和內存讀寫操作可以同時進行。SonicMoE巧妙地利用了這一特性，設計了一種被稱為"桌球調度"的機制。在這種機制下，當一個計算單元在執行矩陣乘法時，另一個單元同時在加載下一批數據，兩者交替進行，充分利用了硬體資源。

這種設計特別適合精細化的專家混合模型，因為這類模型的計算強度相對較低，傳統方法往往被內存訪問速度限制。通過重疊計算和數據傳輸，SonicMoE能夠在相同硬體上實現更高的整體吞吐量。

研究團隊還在內存管理上做了進一步優化。他們避免了傳統方法中的同步寫入操作，而是使用異步的張量內存訪問（TMA）指令。這類似於快遞員不再等待每個包裹的簽收確認，而是將包裹放在指定位置後立即前往下一個目的地，大大提高了整體配送效率。

贊助商廣告

三、消除計算資源浪費的智能路由

第三個重要創新是"令牌捨入路由"方法。要理解這個概念，我們需要知道GPU在處理矩陣運算時，為了效率考慮，通常將數據分成固定大小的"瓦片"進行處理，比如每次處理128個數據點。但在實際應用中，分配給某個專家的數據量可能是任意數字，比如145個，這就需要補齊到256個才能充分利用兩個瓦片，剩餘的111個位置就被浪費了。

SonicMoE的令牌捨入方法就像一個聰明的班車調度員，會調整每趟班車的乘客數量，確保每輛車都能坐滿或接近坐滿。具體做法是，對於每個專家接收到的令牌數量，自動調整到最接近的瓦片大小倍數。如果某個專家原本應該處理145個令牌，系統會智能地決定是調整到128個（捨棄17個）還是256個（增加111個），選擇偏差最小的方案。

這種方法的巧妙之處在於，它在保持原始令牌選擇邏輯基本不變的前提下，消除了GPU計算中的填充浪費。實驗結果顯示，在高度稀疏的專家混合模型中，這種方法能夠帶來額外16%的速度提升，而且對模型的最終性能沒有負面影響。

研究團隊通過大量實驗驗證了令牌捨入方法的有效性。他們訓練了多個不同規模的模型（從5億到14億參數），測試結果表明，使用令牌捨入訓練的模型在各種下游任務上的表現與傳統方法相當，有時甚至略好。這證明了這種優化方法不會損害模型的學習能力。

四、全面的性能評估與驗證

為了驗證SonicMoE的整體效果，研究團隊進行了全面的性能測試。他們使用了從1.4B到120B參數的各種模型配置，在NVIDIA H100 GPU上進行了詳細的基準測試。結果顯示，SonicMoE在各種配置下都能顯著超越現有的最先進方法。

在實際應用測試中，SonicMoE在64張H100 GPU上訓練7B專家混合模型的速度達到每天2130億令牌，這個速度相當於使用96張H100 GPU運行傳統ScatterMoE方法的每天2250億令牌。換句話說，SonicMoE用更少的硬體資源實現了幾乎相同的訓練速度，硬體利用效率提升了約50%。

贊助商廣告

更令人印象深刻的是，在極端稀疏的配置下（比如DeepSeek-V3.2-Exp這樣的685B參數模型），SonicMoE是唯一能夠在單張H100 GPU上成功運行的方法，其他基準方法都因為內存不足或其他限制而無法工作。

研究團隊還測試了SonicMoE在不同硬體配置下的表現。除了H100，他們還驗證了在最新的Blackwell架構GPU上的性能。SonicMoE充分利用了新硬體的特性，比如張量內存（TMEM）和統一矩陣乘法累加（UMMA）指令，在新硬體上表現出更好的性能。

五、對業界的深遠影響

這項研究的意義遠遠超出了技術優化本身。隨著AI模型規模的不斷增長，訓練效率已經成為制約技術發展的關鍵瓶頸。SonicMoE提供的解決方案不僅能夠降低訓練成本，還能讓研究機構用更少的資源訓練出更強大的模型。

從行業發展角度看，這種效率提升對於推動AI技術的普及具有重要意義。降低訓練成本意味著更多的研究團隊和公司能夠參與到大規模AI模型的開發中，這將加速整個領域的創新步伐。同時，更高效的訓練方法也減少了能源消耗，符合當前對環境友好技術的需求。

SonicMoE的另一個重要貢獻是它的開源特性。研究團隊將所有核心組件以開放許可證發布，這意味著整個AI社區都能從這些優化中受益。這種開放合作的精神對於推動技術進步至關重要，也體現了學術研究回饋社會的價值。

展望未來，SonicMoE的設計理念和優化策略很可能會被廣泛採用，成為訓練大規模專家混合模型的標準方法。研究團隊也指出了一些未來的發展方向，包括支持更多的數值精度格式（如FP8、MXFP8）以及在分布式訓練環境中進一步優化通信與計算的重疊。

說到底，這項研究展示了在AI快速發展的今天，系統優化和算法創新同樣重要。SonicMoE不是通過改變模型結構或訓練算法來提升性能，而是通過深度理解硬體特性和精心設計計算流程，在不損失任何功能的前提下大幅提升了效率。這種"軟硬結合"的優化思路為未來的AI系統設計提供了重要參考，也證明了在追求更強大AI能力的同時，我們同樣需要關注如何更好地利用現有資源。

贊助商廣告

這項研究的成功還說明了跨領域合作的價值。普林斯頓大學、加州大學伯克利分校和Together AI的聯合團隊結合了理論研究、系統設計和工程實現的專長，這種多元化的合作模式正是解決複雜技術挑戰所需要的。對於有志於AI研究的讀者來說，這也提示了掌握多方面技能的重要性，從算法設計到系統優化，每個環節都可能成為突破的關鍵點。

Q&A

Q1：SonicMoE是什麼？

A：SonicMoE是普林斯頓大學等機構聯合開發的專家混合模型訓練優化技術，主要解決精細化和稀疏化MoE模型訓練中的內存占用過大和計算效率低下問題，能夠將訓練速度提升近一倍。

Q2：令牌捨入路由方法如何提升訓練效率？

A：令牌捨入路由通過調整每個專家接收的令牌數量到GPU瓦片大小的整數倍，消除了計算中的填充浪費。這種方法在保持模型性能不變的前提下，能夠額外提升16%的訓練速度。

Q3：為什麼專家混合模型訓練會遇到內存瓶頸？

A：隨著專家變得更加專業化，模型需要保存更多中間結果用於後續計算，內存使用量呈線性增長。SonicMoE通過重新設計計算路徑，避免保存某些中間結果，將內存使用量減少45%且保持恆定。