宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

思科推出Silicon One G200 吹響進軍InfiniBand的號角

2023年06月26日 首頁 » 熱門科技

機器學習發生轉折時,英偉達(Nvidia)已經在開發大規模並行GPU計算引擎,用於在高性能計算(HPC)模擬和在模型中進行計算,這可以說是一個偶然的巧合。同樣, InfiniBand也是個幸運兒,在同一時刻擁有高帶寬、低延遲和跨GPU遠程直接內存訪問的優勢。

InfiniBand網路也搭上了GPU計算的順風車。GPU計算本來是用於人工智慧訓練,有時也用於人工智慧推理。說搭順風車倒不僅僅是因為英偉達在2020年4月以69億美元的價格收購了Mellanox Technologies,該公司是數據中心中InfiniBand交換的標準載體。InfiniBand擁有RDMA的低延遲和高資訊傳輸率以及內置的擁堵控制和自適應路由,已經進入了一些也想運行傳統HPC應用的超大規模企業和雲計算構建商的視野。許多人認為,InfiniBand成為大規模人工智慧訓練集群的核心已成定論,因為InfiniBand對比各種類型的以太網有很多優勢。

但別搞錯了。事實上,別一錯再錯。

首先,超大規模者和雲構建商與世界上的一些HPC中心不同,超大規模者和雲構建商勉強採用InfiniBand,即便是不可避免地要用InfiniBand。他們想要一個以太網及許多不同的供應商,而不是兩種網路,而且其中的一種網路還是來自單一源。其次,其他所有的以太網交換機ASIC供應商(包括博通、思科系統和Marvell)都在向InfiniBand發起衝擊。即使英偉達也在試圖迴避InfiniBand的這個問題。英偉達不會在旗下的Spectrum-4以太網和BlueField-3 DPU中為那些不會部署InfiniBand或根據我們的推測不再想部署的商家打造一個適合人工智慧工作負載的「無損以太網」。我們一個月前在英偉達的Spectrum-X發布前報道過有關Spectrum-X的工作。

上面提到有些商家不再想部署,證據是博通公司(Broadcom)推出的「Jericho3-AI」晶片。Jericho3-AI晶片是在4月底被媒體報道的。Jericho3-AI對「Dune」系列的深度緩衝器交換機ASIC進行了一些調整,因此Jericho3-AI比博通公司最新的「Trident」和「Tomahawk」系列的以太網ASIC更適合運行人工智慧訓練工作負載。我們本周看到思科推出Silicon One G200 ASIC也走出了正確的一步,這些ASIC的設計從一開始就考慮了人工智慧訓練工作負載。

思科推出Silicon One G200 吹響進軍InfiniBand的號角

筆者正在對Spectrum-X架構做更詳細的調研,Spectrum-X也是主打人工智慧,看起來用了類似的方法但是以完全不同的方式實現。請期待。但如果我們現在一定要總結一下的話,Spectrum-X架構採用51.2Tb/秒的Spectrum-4 ASIC,驅動400Gb/秒和800Gb/秒的埠,配置了相當大的緩衝區及RoCE RDMA支持,在伺服器端點用BlueField-3 DPU作為前端,可提供更好的自適應路由和擁堵控制。

思科多年來都無視博通和其他少數商家交換機ASIC製造商的威脅,但八年前思科自己開始走上了成為商家交換機ASIC製造商的道路,結果是在2019年12月推出Q100路由晶片並在2020年10月擴大路由晶片的陣容,將交換機ASIC添加到Silicon One系列裡。我們在2021年3月開始認真了解Silicon One項目,思科在這八年中已經在旗下商業晶片上投資了超過10億美元,思科很樂意將這些晶片出售給任何交換機或路由器製造商以及在自己的交換機或路由器內使用這些晶片。

思科最新的Silicon One ASICs也是在做類似的事情,但Silicon One ASICs不是用DPU去分流 GPU節點和Spectrum-4交換機的模型。世界上最大的交換機製造商思科正以預定結構嵌入到模塊化交換機的靈感為契機,在具有不同程度性能和數據包行為的主幹/葉子(Spine/leaf)網路上將這些交換機進行虛擬化。模塊化交換機指的是那些服務提供商和一些超大規模公司和雲構建商購買的大塊頭。

與Jericho3-AI方法一樣,Silicon OneASIC系列中新的51.2 Tb/秒 G200和25.6 Tb/秒 G202可以實現所謂的數據包噴灑,進而提供一個全預定以太網結構。標準以太網中常用等成本多路徑(ECMP)負載平衡技術尋找在端點集群之間傳遞數據包的最佳方式,這些端點可以進行最佳路徑的計算。全預定以太網結構與之相比具有明顯的性能優勢。

思科推出Silicon One G200 吹響進軍InfiniBand的號角

這其實與在以太網上支持人工智慧工作負載的擴展和架構無關,但Silicon One G200和G202有一點很重要,值得指出來,而且還表明思科對從事商業晶片業務以及身為基於Silicon One的交換機和路由器本身的供應商是多麼認真。思科第一次成立了工程師團隊設計自己的SerDes通信電路,工程師團隊已經能夠設計出具有43分貝的信噪比的100Gb/秒的PAM4 SerDes(和其他PAM4一樣在扣除編碼開銷之前的運行速度為112Gb/秒)。思科院士、Silicon One ASIC系列架構師Rakesh Chopra告訴記者,這意味著PAM4 SerDes能夠驅動超過2倍於IEEE標準的無源數模轉換器(DAC)。這意味著PAM4 SerDes可以通過4米長的電纜傳輸信號。

思科推出Silicon One G200 吹響進軍InfiniBand的號角

G200和G202晶片和博通的Tomahawk5及Jericho3-AI開關晶片中使用的「Peregrine」SerDes類似。G200和G202晶片像兩款博通晶片一樣可以用於交換機與相應終端或網路其他節點之間的各種銅纜和光纜的連接,包括共封裝光模塊(CPO),博通表示這可以推動旗下交換機的最佳價格和熱效率。業界對CPO用於交換持懷疑態度,但對CPO用於系統中更多的通用I/O則少一些懷疑,但我們認為CPO用於網路是不可避免的,因為技術在不斷發展,隨著每一代的帶寬翻倍,交換機內部的電線不斷減少。

很難相信思科以前沒有做自己的SerDes,但思科顯然要跟上博通,先別說打敗博通,這意味著要像博通那樣完全控制IP棧。

看看G200內部

與博通的Tomahawk5和英偉達的Spectrum-4一樣,G200 ASIC的總吞吐量為51.2 Tb/秒。G200及其搭檔G202的額定吞吐量為25.6Tb/秒,刻蝕採用台灣半導體製造有限公司的5納米工藝,比之前的Silicon One交換機和路由器ASIC使用的7納米工藝減了一個節點。目前還沒有同等級的P200路由晶片,但有理由期待很快就會有。P200的額定速度為19.2Tb/秒或25.6Tb/秒。現在,每個人都熱衷於展示他們的以太網或InfiniBand如何用於人工智慧工作負載,人工智慧訓練或推理尚無真正的路由用例,所以可以等一陣。

G200配有512個100Gb/秒的SerDes,SerDes配有PAM4信號系統,可以將原生的50Gb/秒的I/O通道加倍。與一些256個MAC地址的51.2Tb/秒架構不同的是, Chopra稱思科能夠在G200上放置512個MAC,從而保持與SerDes之間的1:1比例,可以保持所有的平衡,並允許在晶片上實現基數排序的最大規模化,100Gb/秒,512個埠以及任何較低的速度,如50Gb/秒、40Gb/秒、25Gb/秒和10Gb/秒傳統模式。

思科推出Silicon One G200 吹響進軍InfiniBand的號角

雖然許多交換機ASIC設計的數據包緩衝器是以輸出隊列為前端,以輸入隊列為後端,因此緩衝器的大小是基於埠容量,但G200的所有SerDes通道和埠都有一個完全共享的數據包緩衝器,這有助於增加通過設備的流量控制,提高人工智慧應用性能。G200配有一個可編程數據包處理器,可以使用由谷歌支持並被許多其他公司(AMD的Pensando和英特爾的前Barefoot Networks,僅舉兩例)採用的P4語言進行編程。

Chopra表示,「我們在所有的Silicon One設備中都配有一個P4可編程NPU,在這裡也是如此。但為了追求低延遲,我們已經提出了推出該數據包處理器的演進版本,演進版在本質上是完全確定的,具有非常低的延遲,但仍然每秒發出大量的查詢,準確地說,每秒4350億次查詢,這就是該設備在做的轉發。這使我們能夠實現一些高級功能,如SRv6 Micro SID。因此,演進版並不是精簡版、不是不能做數據包處理器之類的。我們可以實現一些功能,我們也可以做到非常低的延遲,可以做到高度的確定性。」

人工智慧性能和集群規模

現在來看看性能和規模,性能和規模在分布式計算中顯然是相互關聯的,如今的人工智慧訓練全都是分布式計算,我們可以補充一句,高性能計算(HPC)也是如此,而且許多對人工智慧有利的東西對HPC也是有利的。籠統地說,HPC的交換ASIC往往需要非常高的資訊速率,大量的小塊數據移動,而人工智慧則需要處理大量的龐大數據流。而且兩者都不是像傳統的微服務網路應用那樣的網路模式。Chopra在下面用一個用於人工智慧訓練的全對全集體流量模式做了說明:

思科推出Silicon One G200 吹響進軍InfiniBand的號角

左邊的網路應用里東西向流量的隨機模式幾乎在所有時間都趨於平均化後達到穩定狀態的負載。但在右邊的人工智慧訓練中,流量數目要少得多,而且需要更高的帶寬,在人工智慧集群中的幾百、幾千甚至幾萬台計算設備之間進行同步,意味著延遲會瘋狂地上下跳動,因為每一步所有的GPU必須等待所有其他的GPU完成訓練。上面的圖顯示了網路的一個次優路徑可以在多個GPU上拖延人工智慧工作負載。

尾部延遲在大型HPC工作負載中很重要,HPC工作負載中的任務在一個分布式系統上運行,但尾部延遲在人工智慧工作負載中更重要,許多不同的並發工作負載在同一時間運行,會導致爭用,任務完成時間(JCT)由網路的尾部延遲決定。我們還可以補充一點,一個共享的HPC能力集群比一個單個作業的HPC_能力集群表現得更像一個人工智慧集群。所以全是取決於各種因素。

思科和其他一些以太網ASIC供應商用到三個級別(下表里的綠黃紅)的性能,可以對照InfiniBand及相互衡量一下。思科公司列出了幾種網路,如下表:

思科推出Silicon One G200 吹響進軍InfiniBand的號角

思科在表里說InfiniBand的好話不多(表的第一列),只是說InfiniBand在集群上有出色的單項任務性能。帶ECMP負載平衡的以太網對各項指標都有幫助(表的第二列),但在多任務共享網路時存在一些問題。增強型以太網從網路中收集的遙測數據改善負載平衡,但以太網的單項任務性能並沒有真正改善(表的第三列),而且以太網網路的成本也沒有真正改善。

然後是全預定以太網(表的第四列),全預定以太網用到分切流量並儘可能均勻地噴灑在整個結構上的方法,使用所有可用的路徑和帶寬,試圖將所有的流量平均分配並為同時運行的多個任務提供更均勻的性能。下面的基準顯示了帶有ECMP的普通以太網與全預定以太網的性能:

思科推出Silicon One G200 吹響進軍InfiniBand的號角

這個特定的測試用的是共有192個GPU的系統(左:ECMP的普通以太網;右:全預定以太網)。直方圖顯示了GPU停滯不前等待數據的比率(由於網路擁堵導致的同步問題),圖表中心的兩個條形圖顯示了對混合人工智慧工作負載的任務完成時間的總體影響。這些數字(1.62和1.01)是相對於峰值的比例,假定沒有爭用的情況下理想化互連性能。

全預定以太網(可能在某個時候應該有自己的縮寫)的人工智慧工作負載完成速度快了1.33倍。如果InfiniBand在人工智慧工作上的性能比普通以太網高了20%(像英偉達自己所說的那樣),那麼思科的全預定以太網在實現人工智慧工作負載時的性能大概在同一範圍內。

我們希望看到一些真正的基準測試,保持計算不變,改變網路進行測試,包括 InfiniBand、Jericho3-AI、FSE思科G200,同時顯示不同規模的GPU的人工智慧性能,或許在一個包含8到4000個單元不等的集群上進行。這是大家需要了解的範圍。我們也想分出快慢來…….

下圖顯示了隨著並發的人工智慧任務(都占用網路容量)數量的增加對任務完成情況的影響:

思科推出Silicon One G200 吹響進軍InfiniBand的號角

很明顯,隨著並發人工智慧任務數量的增加,全預定以太網並沒有受到很大的影響,但ECMP以太網就則跟不上。在思科給出的最密集測試中,完成所有16個任務需要1.9倍的時間。

現在我們來談談規模。超大規模廠商和雲計算構建商正在試圖將數以萬計的GPU連接在一起,用於運行大型語言模型和推薦引擎。下圖是思科利用旗下51.2Tb/秒交換機(我們在前面提過)在基數排序上的優勢而制定的方案,該交換機可以100Gb/秒的速度跑512個埠運行,競爭對手只能以200Gb/秒的速度跑256個埠,因為他們的ASIC上的MAC地址只有256個:

思科推出Silicon One G200 吹響進軍InfiniBand的號角

G200交換機方案含512個葉子交換機,每個交換機有64個埠,以400Gb/秒的速度接伺服器運行,每個GPU有一個埠,鏈接到總共32,768個GPU。每個交換機還有256個上行鏈路,以100Gb/秒的速度運行。G200設備兩層網路的主幹層由256個交換機組成,同時提供多個路徑將葉子交換機相互連接起來。

右邊大致是一個使用Tomahawk5或Spectrum-4 ASIC的以太網網路,需要一個三層網路,因為這些交換機的基數排序是一半。網路的第一層需要512個交換機,在第二層需要另外512個交換機,另外在第三層需要256個與第二層交叉耦合的交換機。思科公司使用G200的方法需要的交換機減少40%,需要的光纜減少50%,而且還減少了一層網路,因此交叉連接相同的32,768個GPU的鏈接跳數也減少了。順便提一下,InfiniBand兩層網路中的最多端點數最多比48,000稍多一點,超過這個數則需要擴展到三層。

我們想知道每個GPU從來自伺服器的400Gb/秒的埠下調、然後在葉子交換機和第二層骨幹交換機的上行鏈路上逐步下調到100Gb/秒的埠對人工智慧工作負載性能的影響。這個網路中的鏈接跳數較少,但鏈路上的帶寬也較少。

不管怎麼樣,這就是思科就用於人工智慧工作負載的G200 ASIC給出的說法。

最後一點:G200 ASIC比之前的G100的東西多了一倍,由於設計中的這種平衡,G200 ASIC在同樣的熱包絡中具有兩倍的性能和兩倍的功率效率,這就是從7納米縮減到5納米所提供的。G202 ASIC的SerDes數量是G200的一半,其額定總帶寬為25.6Tb/秒,可提供256個100Gb/秒埠、128個200Gb/秒埠、64個400Gb/秒埠,或32個800Gb/秒埠。

我們所處的時代和讀者中許多人一樣,在我們的時代,以800Gb/秒的速度運行的32個埠似乎是非常神奇了。現在想想,單個CPU上的128個核心或單個驅動盤上的20TB也是如此。我們身處未來世界裡。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新