今天 DeepSeek 帶來了 DeepEP,一個專為混合專家系統(MoE)和專家並行(EP)定製的通信庫。
它的設計靈感來自 DeepSeek-V3 論文裡的群組限制門控算法(group-limited gating),這個算法能幫助大模型更高效地分配任務給不同的「專家」,降本增效從未如此簡單。

DeepEP 的亮點頗多:
高效優化的全員協作通道
專為訓練和推理預填充設計的高吞吐核心
專為推理解碼設計的低延遲核心
原生支持FP8智能壓縮傳輸
靈活調控GPU資源,實現邊計算邊傳輸
DeepEP 在 Mixture-of-Experts (MoE) 模型的通信技術上有所突破,特別是在 GPU 核心優化方面。它顯著提升 MoE 模型的性能和效率,適用於大規模 AI 訓練和推理。

算資源分配能力再上一層樓
隨著 AI 模型規模的不斷擴大,從數十億參數到數萬億參數,高效的通信將成為關鍵瓶頸。DeepSeek 這次帶來的 DeepEP ,主打低延遲核心,其支持 FP8 的特性特別適合資源受限或實時性要求高的場景。
特別是在處理 MoE 分派和組合的通信模式上,DeepEP 針對高吞吐量和低延遲的 GPU 核心,專門優化了 MoE 模型中數據路由和輸出的整合過程。

優化之後的 MoE 模型的通信性能,支持低精度操作(如 FP8),並提供了針對非對稱域帶寬轉發的核心。這使得在分布式 GPU 環境中,MoE 模型的訓練和推理更加高效和可擴展,尤其是在多節點集群中,能夠顯著降低通信開銷並提高整體性能。

MoE 「混合專家」,就是讓 AI 模型里匯聚了不同的專家,負責不同的任務。更形象點說,一個超大型 AI 模型就像班級大掃除時的值日團隊,每個同學要乾的活不同,有人擦玻璃,有人掃地,有人搬桌子,等等等等。
但現實中總有人動作快,有人動作慢。桌子沒搬好,去幫忙拖地;玻璃先擦了,又會有灰塵落在地上。互相協調的過程不通暢,會導致效率低下。
為了解決這種協作卡頓的問題,就需要有一個高效智能的分工計劃。就像班主任把值日生分成不同小組,讓擦玻璃快的同學專注擦玻璃,掃地的同學專注掃地,大家各司其職不互相拖後腿,並且及時觀察誰的活兒提前幹完了,誰的工作量超了。
這就是「專家小組分工」group-limited gating:不讓擦玻璃的同學被迫掃地,從根源上減少人力資源浪費。

而在大模型里,這就是不讓計算資源浪費。DeepEP 能根據任務量動態調節 GPU 的計算資源(SM 數量控制)。任務多的時候,就讓 GPU 里更多計算單元一起工作;任務少的時候自動減少功耗,既省電又不耽誤效率,特別適合需要快速處理海量數據的場景。
「降本增效」,是這次 DeepEP 送出的一份大禮。
高速通道 無縫換乘,數據秒達
除了資源分配,AI 模型里的「專家」,也就是電腦里的 GPU 晶片,需要頻繁傳遞數據。數據傳遞慢會導致 GPU 算完一波任務後「乾瞪眼」。
DeepEP 的跨域帶寬優化,相當於給 GPU 配了專屬直升機送貨,把等待時間進一步壓縮,自然能榨出更多算力。
還是回到剛才班級大掃除的例子,普通的 GPU 之間傳輸數據慢、互相等,就好像擦玻璃的同學需要水桶,但桶在掃地的同學手裡,只能等對方用完再傳,中間浪費時間。甚至要去隔壁班借,得穿過走廊、爬樓梯,還可能被其他班級的人堵住。
在數據傳輸上,也會出現類似的問題。而 DeepEP 的核心,優化了非對稱域帶寬轉發(如 NVLink 到 RDMA),這使得它特別適合現代高性能計算(HPC)環境中的多節點分布式訓練。
同一伺服器內 GPU 用 NVLink,傳輸速度 150GB/s,幾乎零等待。跨伺服器用 RDMA 網路,速度蹭蹭加快。還有無縫帶寬轉發,避免數據堆積或丟失。

如果說傳統的 AI 訓練中,GPU 跑了 10 個小時,4 個小時在等數據、等同步,實際工作時間只有 6 小時。那麼 DeepEP,能夠把等待時間壓縮到 1 小時,GPU 幹活 9 小時,相當於多了 3 小時算力,真正「榨乾」每一塊 GPU。
這對於很多應用場景,尤其是依賴 MoE 架構的大型語言模型,都有非常大的價值。DeepEP 可以顯著提升這些模型的訓練和推理效率,適用於自然語言處理任務,如翻譯、摘要生成和問答系統。

在代碼生成領域也有應用,DeepEP 的高效通信可以加速這些模型的開發和部署,特別是在處理複雜編程任務時。
甚至是在推薦系統中,MoE 可以讓不同專家處理不同用戶偏好,DeepEP 的優化可以提高系統在分布式環境中的性能,適用於電商平台或媒體流媒體服務。
「降本增效」的關鍵大招,DeepSeek都傾囊相授了,真· open ai。
