宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

超級以太網聯盟希望為人工智慧和高性能計算優化網路

2023年07月21日 首頁 » 熱門科技

超級以太網聯盟希望為人工智慧和高性能計算優化網路

超級以太網聯盟(UEC)旨在創建一個「基於以太網的完整通信堆棧架構」,該架構將像以太網一樣普及且具有成本效益,同時提供超級計算互連的性能。該聯盟的創始成員包括在HPC和網路領域深度參與的公司,包括英特爾、AMD、惠普企業、Arista、Broadcom、思科、Meta和微軟,項目本身託管在Linux基金會中。

UEC主席J·梅茨博士表明,該項目的目標不是改變以太網,而是對其進行調整,以更好地適應人工智慧和HPC工作負載的更高要求特性。

他說:「以太網是我們構建之上的基本技術,因為它是行業內持久、靈活且適應性強的基本網路技術的最佳例子。」

「UEC的目標是專注於如何在以太網之上最好地傳輸人工智慧和HPC工作負載流量。當然,以前已經嘗試過這樣做,但沒有一個項目從頭開始專為高要求的人工智慧和HPC工作負載設計,也沒有一個項目是開放、易於使用並獲得廣泛採用的。」

該項目針對網路堆棧的多個層級,工作組負責制定「增強物理層和鏈路層性能、延遲和管理」的規範,以及制定傳輸層和軟體層的規範。

網路對於訓練規模不斷增長的人工智慧模型變得越來越關鍵;有些模型參數達到了數萬億個,需要在大型計算集群上進行訓練,而網路需要儘可能高效,以保持這些集群的繁忙狀態。

雖然人工智慧(AI)工作負載往往對帶寬需求很高,但高性能計算(HPC)也包括對延遲更敏感的工作負載,這兩種要求都需要滿足。

為了滿足這些需求,UEC確定了以下理想特性:靈活的傳輸順序;現代擁塞控制機制;多路徑和分組噴射;以及更大的可擴展性和端到端遙測。

舊技術使用的剛性分組排序限制了效率,因為它阻止了亂序數據直接從網路傳遞到應用程序。支持放寬分組排序要求的現代API對於減少「尾延遲」至關重要。

多路徑和分組噴射是同時沿源和目標之間的所有可用網路路徑發送數據包,以實現最佳性能。

在AI和HPC中,網路擁塞主要是在多個發送方都針對同一節點時,交換機和接收節點之間的鏈路上出現的問題。而,UEC聲稱,目前的擁塞管理算法不能滿足針對AI優化的網路的所有需求。

主要來說,UEC似乎旨在用一種新的傳輸層協議取代基於以太網的RDMA over Converged Ethernet(RoCE)協議,以提供所需的特性。這種Ultra Ethernet Transport將支持多路徑、分組噴射傳輸、高效的速率控制算法,並向AI和HPC工作負載提供簡單的API。

HPE參與UEC的原因值得注意,因它已經有一個基於以太網的H互連。Cray Slingshot技術是以網的「超集」,如我們在The Next Platform的同事詳細描述的那樣,同時保持與標準以太網幀的兼容性在HPE近年來參與的許多超級電腦項目中得到應用,例如Frontier超級計算系統。

HPE高性能互連總理Mike Vildibill告訴我們,支持UEC的動機是為了確保Slingshot在一個開放的生態系統中運行。

他說:「我們希望UEC兼容的網卡能夠體驗到Slingshot互連的一些性能和可擴展性優勢。」

Vildibill確認,HPE將繼續開發Slingshot,但他認為總會有一些第三方網卡或智能網卡可能具有Slingshot網卡上未實現的功能。

他說:「因此,UEC提供了建立強大的第三方網卡生態系統的機制,以確保我們能夠滿足廣泛的客戶需求,同時提供一些Slingshot獨特的功能。」

UEC目前處於早期開發階段,關鍵技術概念仍在確定和研究中。Metz博士表示,第一個正式的草案可能會在2023年底或2024年初準備好,同時也預計明年會有第一個基於標準的產品問世。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新