宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

這才是AI時代需要的數據中心網路!

2023年06月19日 首頁 » 熱門科技

從Open AI的ChatGPT的興起,到Google的Bard,生成式AI產業正在穩步前行。「生成式人工智慧市場報告」預測表明,到2031年,該市場將達到驚人的1265億美元,從2022年到2031年的複合年增長率為32%。

這其中,生成式AI所需的基礎設施——數據中心正發揮著至關重要的作用。加速計算和生成式AI的需求正在推動數據中心的根本性變革。

AI時代 數據中心如何破解複雜的網路挑戰?

人工智慧應用導致的大規模算力環境下的網路問題是當今數據中心所面臨的「緊箍咒」之一。大模型AI場景下海量的參數分布於多個個伺服器的多個GPU之上,需要用到成千上萬個GPU來訓練數十TB級甚至更大的數據集,大量的GPU之間的通信容易出現由於網路HASH負載分擔不均而導致的網路吞吐下降,從而引發AI訓練性能整體下降等問題。

IDC報告顯示,當前主流數據中心以太網占比超過95%,但傳統以太網在AI算力訓練等應用下,吞吐量、時延及避免丟包等方面的表現並不出色。

眾所周知,由於人工智慧應用程序的通信方式會對網路造成很大負擔,這給 CPU 和 GPU 伺服器以及將這些系統連接到一起的現有底層網路基礎設施帶來了新的挑戰。在如今的AI時代,AI訓練過程中不能出現任何數據的丟失,而標準以太網路具有「天然丟包」的特性,採用軟體的方式來解決丟包問題將會極大程度影響訓練結果。因此,傳統以太網已經不適應AI時代數據中心的需求。

那麼,AI時代,數據中心網路面對如此複雜的挑戰,是否有合適的解決之道?

NVIDIA Spectrum-X 網路平台是為了解決傳統以太網網路的局限性而開發的。它是一種全新的以太網網路架構,旨在滿足要求苛刻的人工智慧應用程序的需求,用於滿足緊耦合通信對於網路的需求。這種經過 NVIDIA 認證和測試的端到端解決方案結合了一流的人工智慧優化網路硬體和軟體,可提供人工智慧工作負載所需的可預測的、一致的和毫不妥協的性能水平。

這才是AI時代需要的數據中心網路!
NVIDIA DPU 和 DOCA 技術專家 崔岩

「在加速計算和生成式人工智慧結合的新方式下,我們需要重塑數據中心的計算和通信。」NVIDIA DPU 和 DOCA 技術專家崔岩在如是說。

NVIDIA Spectrum-X 網路平台是一種端到端解決方案,專為滿足人工智慧應用程序的性能需求而全新設計,並針對高速網路性能、低延遲和大規模可擴展進行了優化。

官方發布的參數顯示,具體而言,NVIDIA Spectrum-X 可以在以下用例中顯著提高 AI 集群的性能和效率:

GPT 和 BERT 等大型語言模型

分布式訓練和並行處理

自然語言處理(NLP)

電腦視覺

高性能模擬(NVIDIA Omniverse 和 NVIDIA OVX)

高性能數據分析(Spark)

推理應用程序

「NVIDIA Spectrum-4 NVIDIA BlueField-3 DPU」讓AI性能「更上一層樓」 

Spectrum-X 通過NVIDIA BlueField-3 DPU 和 Spectrum-4 交換機的端到端聯合設計和優化,對於實現AI 網路架構的最高性能和可靠性至關重要。

作為世界上第一款專為 AI 構建的以太網架構,NVIDIA Spectrum-X基於網路創新的新成果而構建——將 NVIDIA Spectrum-4以太網交換機與NVIDIA BlueField-3 DPU緊密結合,取得了1.7倍的整體AI性能和能效提升,同時可在多租戶環境中提供一致、可預測的性能。

這才是AI時代需要的數據中心網路!

具體而言,NVIDIA Spectrum-4以太網交換機專為人工智慧工作負載而設計,將專用的高性能架構與標準以太網連接相結合,為基於標準的以太網構建的AI集群提供了前所未有的應用程序性能。要充分發揮 NVIDIA Spectrum-4 的潛力,需要端到端的、專門構建的網路架構。而NVIDIA Spectrum-X 平台能提供支持大規模人工智慧計算所需的硬體加速和卸載引擎。

這才是AI時代需要的數據中心網路!

崔岩介紹道,NVIDIA Spectrum-X以太網網路平台擁有四個主要特性——優化的無損網路、動態路由、流量擁塞控制、性能隔離。與傳統的以太網不同,採用這種方式以後在雲上部署人工智慧或者生成式人工智慧的工作負載,完全可以滿足對網路性能的要求。

在面對網路層面的擁塞時,Spectrum-4 交換機提供代表實時擁塞狀況的網路遙測資訊。這些遙測資訊被傳遞到主機的 BlueField-3 DPU 進行處理,從而管理和控制數據發送方的數據發送速率,實現網路共享的最大效率。

在談及無損網路方面時,NVIDIA網路亞太區高級總監宋慶春表示,Spectrum-X 實現了端到端的高性能無損以太網RDMA傳輸,從網路的物理層、鏈路層和傳輸層對數據進行多重保護,在最極端的數據丟失情況下,依舊能做到很快發現數據丟失,並予以修正措施,讓應用得到正確的數據。

這才是AI時代需要的數據中心網路!
NVIDIA網路亞太區高級總監 宋慶春

「無損網路對生成式AI非常重要。」宋慶春說。

重視性能提升 更重視降低能耗

由於Spectrum-X 平台面向數據中心,NVIDIA在設計時自然也考慮到了其功耗對PUE的影響。

Spectrum-X 通過端到端的聯合設計,實現了更低的功耗,儘管Spcectrum-4交換機晶片中集成了上千億顆電晶體,卻仍比上一代晶片節約了百分之四十的能耗BuleField-3 DPU的強大基礎設施卸載功能被應用於主機後,不僅可以卸載CPU工作負載,釋放CPU的核心用於其它的業務,從而降低整個伺服器的工作負載。同時,由於主機性能提升,使其可以承載更多業務應用。

這意味著,更少的伺服器完成了更多的工作量,從而使能耗大幅下降。

「買的越多,省的越多。」崔岩引用英偉達CEO黃仁勛的觀點說道。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新