
Nvidia 表示,其融合 InfiniBand 技術的 Spectrum-X 以太網可將存儲網路的讀取帶寬提升近 50%。
Spectrum-X 是基於 Spectrum-4 ASIC 的以太網交換機產品與 InfiniBand 產品的結合。它支持 RoCE v2 (用於融合以太網上的遠程直接內存訪問) 和 BlueField-3 SuperNIC。Nvidia 的 InfiniBand 產品具有自適應路由功能,當初始選擇的路由繁忙或鏈路中斷時,可以通過最不擁塞的網路路由發送數據包。Spectrum-4 SN5000 交換機提供高達 51.2 Tbps 帶寬,配備 64 個 800 Gbps 以太網埠。它具有用於自適應路由和擁塞控制的 RoCE 擴展功能,這些功能可與 BlueField-3 產品協同工作。
自適應路由的數據包可能會亂序到達目的地,而 Nvidia 的 BlueField-3 產品能夠正確重組這些數據包,"將它們按順序放入主機內存,使自適應路由對應用程序透明。"
Nvidia 的一篇博客解釋說,由於 Spectrum-X 自適應路由能夠減輕流量衝突並提高有效帶寬,其有效存儲性能遠高於 RoCE v2,而"RoCE v2 是大多數數據中心用於 AI 計算和存儲網路的以太網協議。"
博客討論了大語言模型 (LLM) 訓練過程中的檢查點操作,這種訓練可能持續數天、數周甚至數月。系統會定期保存作業狀態,這樣如果訓練運行失敗,可以從保存的檢查點狀態重啟,而不是從頭開始。博客指出:"對於擁有數十億和萬億參數的模型,這些檢查點狀態變得非常大 - 當今最大的 LLM 可達數 TB 數據 - 保存或恢復它們會產生'大象流量'...可能會使交換機緩衝區和鏈路不堪重負。"
這裡假設檢查點數據是通過網路發送到共享存儲(例如存儲陣列),而不是發送到 GPU 伺服器的本地存儲,後者是 Microsoft LLM 訓練中使用的技術。
Nvidia 還表示,在 LLM 推理操作中,當從存儲 RAG (檢索增強生成) 數據的網路存儲源向 LLM 發送數據時,也會出現這種網路流量峰值。它解釋說:"向量資料庫是多維的,可能會非常大,特別是在包含圖像和影片的知識庫的情況下。"
RAG 數據需要以最小的延遲發送到 LLM,這在"多租戶生成式 AI 工廠中變得更為重要,因為每秒查詢量是巨大的。"
Nvidia 表示已在其 Israel-1 AI 超級電腦上測試了這些 Spectrum-4 功能。測試過程測量了 Nvidia HGX H100 GPU 伺服器客戶端訪問存儲時產生的讀寫帶寬,分別在標準 RoCE v2 網路配置下和啟用 Spectrum-X 的自適應路由和擁塞控制功能的情況下進行測試。
測試使用不同數量的 GPU 伺服器作為客戶端,範圍從 40 個到 800 個 GPU。在每種情況下,Spectrum-X 都表現更好,讀取帶寬提升 20% 到 48%,寫入帶寬提升 9% 到 41%。
Nvidia 表示 Spectrum-X 與其他產品配合良好,可加速存儲到 GPU 的數據路徑:
- AIR 雲端網路模擬工具,用於對交換機、SuperNIC 和存儲建模 - Cumulus Linux 網路作業系統,圍繞自動化和 API 構建,"確保大規模運營和管理的順暢" - 用於 SuperNIC 和 DPU 的 DOCA SDK,為存儲、安全等提供可編程性和性能 - 與交換機遙測集成的 NetQ 網路驗證工具集 - GPUDirect Storage,用於存儲和 GPU 內存之間的直接數據路徑,提高數據傳輸效率
我們可以期待 Nvidia 的合作夥伴如 DDN、Dell、HPE、Lenovo、VAST Data 和 WEKA 將支持這些 Spectrum-X 功能。