宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

普林斯頓大學團隊如何讓AI專家模型訓練速度翻倍

2025年12月22日 首頁 » 熱門科技

這篇由普林斯頓大學郭文濤、程新樂,加州大學伯克利分校米什拉、斯托伊察,以及Together AI的趙天分別在2025年12月17日發表的最新研究報告,介紹了一項名為SonicMoE的突破性技術。這項研究針對目前人工智慧領域最重要的"專家混合模型"(Mixture of Experts,簡稱MoE)在訓練過程中遇到的瓶頸,提出了一套完整的解決方案。有興趣深入了解的讀者可以通過論文編號arXiv:2512.14080查詢完整論文。

要理解這項研究的重要性,我們首先要明白什麼是專家混合模型。這種模型就像一個擁有眾多專業老師的學校,每個老師只專精某一個科目,當學生有特定問題時,會被引導到最合適的老師那裡獲得幫助。這種設計讓AI模型在不大幅增加計算成本的前提下,顯著擴展了知識儲備和處理能力。

然而,隨著AI技術的發展,研究人員發現一個有趣的現象:讓每個"專家老師"更加專業化(也就是處理更細分的領域),以及增加專家數量同時保持激活專家數量不變(提高稀疏性),確實能讓模型表現得更好。這就好比把一個通用數學老師拆分成代數專家、幾何專家、微積分專家等,每個專家只負責自己最擅長的部分,學生學習效果會更好。

不過,這種做法也帶來了問題。當專家變得越來越專業化時,系統需要記住更多資訊來協調這些專家之間的工作,這就像學校需要更大的檔案室來存放每個老師的課程資料。同時,由於每個專家處理的內容變少了,計算資源的利用效率也下降了,就好比讓一個專業的心臟外科醫生去處理簡單的感冒,既浪費了專家的時間,也增加了系統的複雜性。

一、重新設計大腦的記憶系統

研究團隊首先解決的是內存占用問題。傳統的專家混合模型在訓練過程中需要保存大量中間結果,這些資訊在後續的學習過程中要用到。隨著專家變得更加專業化,需要保存的資訊量呈直線上升,就像一個圖書館隨著藏書分類越來越細,需要的目錄卡片也越來越多。

研究團隊通過仔細分析整個計算過程,發現了一個巧妙的解決方案。他們重新設計了計算路徑,避免保存某些中間結果,而是在需要時重新計算。這種做法類似於一個聰明的圖書管理員,不再存儲所有可能用到的索引卡片,而是建立了一套高效的即時查找系統。

具體來說,傳統方法需要保存每個專家的輸出結果Y和相應的梯度資訊dY,用於後續的參數更新。SonicMoE通過數學推導,找到了一條不需要這些資訊的計算路徑。他們將路由器評分的梯度計算重新表述為dS = ?dA', A?的形式,而不是傳統的dS = ?dO, Y?。這種改變看似微小,實際上消除了對大量中間結果的依賴。

這種優化的效果非常明顯。對於一個7B參數的精細化專家混合模型,SonicMoE將每層的激活內存使用量減少了45%。更重要的是,無論專家變得多麼專業化,內存使用量都保持恆定,這為訓練更大更複雜的模型提供了可能。

二、讓計算和數據傳輸並行進行

第二個創新點是充分利用現代GPU硬體的異步處理能力。這就好比一個餐廳廚房,傳統做法是廚師完成一道菜的全部步驟後再開始下一道,而SonicMoE的方法是讓廚師在炒菜的同時,助手已經開始準備下一道菜的食材,實現真正的流水線作業。

在現代GPU(特別是NVIDIA的Hopper和Blackwell架構普林斯頓大學團隊如何讓AI專家模型訓練速度翻倍)中,矩陣乘法運算和內存讀寫操作可以同時進行。SonicMoE巧妙地利用了這一特性,設計了一種被稱為"桌球調度"的機制。在這種機制下,當一個計算單元在執行矩陣乘法時,另一個單元同時在加載下一批數據,兩者交替進行,充分利用了硬體資源。

這種設計特別適合精細化的專家混合模型,因為這類模型的計算強度相對較低,傳統方法往往被內存訪問速度限制。通過重疊計算和數據傳輸,SonicMoE能夠在相同硬體上實現更高的整體吞吐量。

研究團隊還在內存管理上做了進一步優化。他們避免了傳統方法中的同步寫入操作,而是使用異步的張量內存訪問(TMA)指令。這類似於快遞員不再等待每個包裹的簽收確認,而是將包裹放在指定位置後立即前往下一個目的地,大大提高了整體配送效率。

三、消除計算資源浪費的智能路由

第三個重要創新是"令牌捨入路由"方法。要理解這個概念,我們需要知道GPU在處理矩陣運算時,為了效率考慮,通常將數據分成固定大小的"瓦片"進行處理,比如每次處理128個數據點。但在實際應用中,分配給某個專家的數據量可能是任意數字,比如145個,這就需要補齊到256個才能充分利用兩個瓦片,剩餘的111個位置就被浪費了。

SonicMoE的令牌捨入方法就像一個聰明的班車調度員,會調整每趟班車的乘客數量,確保每輛車都能坐滿或接近坐滿。具體做法是,對於每個專家接收到的令牌數量,自動調整到最接近的瓦片大小倍數。如果某個專家原本應該處理145個令牌,系統會智能地決定是調整到128個(捨棄17個)還是256個(增加111個),選擇偏差最小的方案。

這種方法的巧妙之處在於,它在保持原始令牌選擇邏輯基本不變的前提下,消除了GPU計算中的填充浪費。實驗結果顯示,在高度稀疏的專家混合模型中,這種方法能夠帶來額外16%的速度提升,而且對模型的最終性能沒有負面影響。

研究團隊通過大量實驗驗證了令牌捨入方法的有效性。他們訓練了多個不同規模的模型(從5億到14億參數),測試結果表明,使用令牌捨入訓練的模型在各種下游任務上的表現與傳統方法相當,有時甚至略好。這證明了這種優化方法不會損害模型的學習能力。

四、全面的性能評估與驗證

為了驗證SonicMoE的整體效果,研究團隊進行了全面的性能測試。他們使用了從1.4B到120B參數的各種模型配置,在NVIDIA H100 GPU上進行了詳細的基準測試。結果顯示,SonicMoE在各種配置下都能顯著超越現有的最先進方法。

在實際應用測試中,SonicMoE在64張H100 GPU上訓練7B專家混合模型的速度達到每天2130億令牌,這個速度相當於使用96張H100 GPU運行傳統ScatterMoE方法的每天2250億令牌。換句話說,SonicMoE用更少的硬體資源實現了幾乎相同的訓練速度,硬體利用效率提升了約50%。

更令人印象深刻的是,在極端稀疏的配置下(比如DeepSeek-V3.2-Exp這樣的685B參數模型),SonicMoE是唯一能夠在單張H100 GPU上成功運行的方法,其他基準方法都因為內存不足或其他限制而無法工作。

研究團隊還測試了SonicMoE在不同硬體配置下的表現。除了H100,他們還驗證了在最新的Blackwell架構GPU上的性能。SonicMoE充分利用了新硬體的特性,比如張量內存(TMEM)和統一矩陣乘法累加(UMMA)指令,在新硬體上表現出更好的性能。

五、對業界的深遠影響

這項研究的意義遠遠超出了技術優化本身。隨著AI模型規模的不斷增長,訓練效率已經成為制約技術發展的關鍵瓶頸。SonicMoE提供的解決方案不僅能夠降低訓練成本,還能讓研究機構用更少的資源訓練出更強大的模型。

從行業發展角度看,這種效率提升對於推動AI技術的普及具有重要意義。降低訓練成本意味著更多的研究團隊和公司能夠參與到大規模AI模型的開發中,這將加速整個領域的創新步伐。同時,更高效的訓練方法也減少了能源消耗,符合當前對環境友好技術的需求。

SonicMoE的另一個重要貢獻是它的開源特性。研究團隊將所有核心組件以開放許可證發布,這意味著整個AI社區都能從這些優化中受益。這種開放合作的精神對於推動技術進步至關重要,也體現了學術研究回饋社會的價值。

展望未來,SonicMoE的設計理念和優化策略很可能會被廣泛採用,成為訓練大規模專家混合模型的標準方法。研究團隊也指出了一些未來的發展方向,包括支持更多的數值精度格式(如FP8、MXFP8)以及在分布式訓練環境中進一步優化通信與計算的重疊。

說到底,這項研究展示了在AI快速發展的今天,系統優化和算法創新同樣重要。SonicMoE不是通過改變模型結構或訓練算法來提升性能,而是通過深度理解硬體特性和精心設計計算流程,在不損失任何功能的前提下大幅提升了效率。這種"軟硬結合"的優化思路為未來的AI系統設計提供了重要參考,也證明了在追求更強大AI能力的同時,我們同樣需要關注如何更好地利用現有資源。

這項研究的成功還說明了跨領域合作的價值。普林斯頓大學、加州大學伯克利分校和Together AI的聯合團隊結合了理論研究、系統設計和工程實現的專長,這種多元化的合作模式正是解決複雜技術挑戰所需要的。對於有志於AI研究的讀者來說,這也提示了掌握多方面技能的重要性,從算法設計到系統優化,每個環節都可能成為突破的關鍵點。

Q&A

Q1:SonicMoE是什麼?

A:SonicMoE是普林斯頓大學等機構聯合開發的專家混合模型訓練優化技術,主要解決精細化和稀疏化MoE模型訓練中的內存占用過大和計算效率低下問題,能夠將訓練速度提升近一倍。

Q2:令牌捨入路由方法如何提升訓練效率?

A:令牌捨入路由通過調整每個專家接收的令牌數量到GPU瓦片大小的整數倍,消除了計算中的填充浪費。這種方法在保持模型性能不變的前提下,能夠額外提升16%的訓練速度。

Q3:為什麼專家混合模型訓練會遇到內存瓶頸?

A:隨著專家變得更加專業化,模型需要保存更多中間結果用於後續計算,內存使用量呈線性增長。SonicMoE通過重新設計計算路徑,避免保存某些中間結果,將內存使用量減少45%且保持恆定。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新