在本周二的阿姆斯特丹的思科全球網路會議(Cisco Live)上,企業網路巨頭思科宣布與英偉達( Nvidia)合作推出一系列專為時下最受關注的熱門詞(AI/ML:人工智慧/機器學習)量身定製的硬體和軟體平台。
兩家合作的一個重點是使得用標準以太網部署和管理人工智慧系統更加容易一些,相信那些費盡周折考 CCNA 和/或 CCNP 證書的人對此會深有體會。
GPU為人工智慧集群提供動力,也往往是討論的焦點,但支持人工智慧集群所需的高性能、低延遲網路可能相當複雜。現代 GPU 節點確實在很大程度上受益於 200Gb/s、400Gb/s 以及即將到來的 800Gb/s 高速網路,但這只是部分因素,尤其是在訓練模型時。因為這些工作負載通常需要分布在包含四個或八個 GPU 的多台伺服器上,任何額外的延遲都會導致訓練時間的延長。
因此,Nvidia 的 InfiniBand 仍然在人工智慧網路部署中占據主導地位。Dell'Oro Group 的企業分析師 Sameh Boujelbene 最近在接受採訪時估計,約 90% 的部署使用的是 Nvidia/Mellanox 的 InfiniBand,而不是以太網。
這並不是說以太網沒有受到重視。一些新興技術(例如帶有深度數據包緩衝區的智能網卡(smartNIC)和人工智慧優化交換機專用集成電路(ASIC)有助於抑制數據包丟失)使以太網至少可以更像 InfiniBand 一樣運行。
例如,我們去年夏天談到過的思科 Silicon One G200 交換機 ASIC 就具有許多有利於人工智慧網路的功能,包括高級擁塞管理、數據包噴灑技術和鏈路故障轉移。但需要注意的是,這些功能並非思科獨有,Nvidia 和博通(Broadcom)近年來也推出了類似功能的交換機。
Dell'Oro 預測,到 2027 年,以太網在人工智慧網路中的作用將占據約 20% 的收入份額。其中一個原因是業界熟悉以太網。人工智慧部署可能仍然需要做一些特定的調整,但企業已經知道如何部署和管理以太網基礎設施。
對 Nvidia 來說僅這一點就使得與思科等網路廠商的合作是一個有吸引力的前景。雖然這可能會減少 Nvidia 自家 InfiniBand 或 Spectrum 以太網交換機的銷售額,但回報是能夠將更多 GPU 交付到本來可能對部署完全獨立的網路堆棧持懷疑態度的企業。
思科的企業人工智慧視角
為了支持這些努力,思科和 Nvidia 推出了參考設計和系統,旨在確保兼容性,並幫助解決部署網路、存儲和計算基礎設施方面的知識差距,以支持其人工智慧部署。
這些參考設計以企業可能已經投資的平台為目標,包括來自 Pure Storage、NetApp 和 Red Hat 的套件。參考設計還有助於推動思科的 GPU 加速系統。其中包括將旗下的 FlexPod 和 FlashStack 框架應用於人工智慧推理工作負載的參考設計和自動化腳本。許多人預計推理(尤其是小型特定領域模型的推理)將成為企業人工智慧部署的主要部分,因為其運行和訓練成本相對較低。
FlashStack AI Cisco Verified Design (CVD) 是一個將思科的網路和 GPU 加速 UCS 系統與 Pure Storage 的閃存陣列一起部署的指南。而 FlexPod AI(CVD)似乎也遵循了類似的模式,只是將 Pure 換成了 NetApp 的存儲平台。思科表示,這些產品將於本月晚些時候推出,未來還將推出更多由 Nvidia 支持的 CVD。
提一下思科的 UCS 計算平台,該網路方案還推出了一款專注於邊緣的X系列刀片系統,可配備Nvidia的最新GPU。
X Direct機箱有8個插槽,可配置雙插槽或四插槽計算刀片組合,或用於GPU計算的PCIe擴展節點。額外的 X-Fabric 模塊也可用於擴展系統的 GPU 容量。
不過,值得注意的是,與Supermicro、Dell、HPE和其他廠商所採用的Nvidia最強大的SXM模塊不同,思科的UCS X Direct系統似乎只支持功耗較低的基於PCIe的GPU。
根據UCS X Direct數據表,每台伺服器最多可配備六個緊湊型 GPU,或最多兩個雙插槽、全長、全高 GPU。
這對那些希望運行消耗數百千兆字節 GPU 內存的大型語言模型的用戶來說可能是個限制。不過,在運行較小的推理工作負載時,如邊緣數據預處理,這可能已經足夠了。
思科該平台的定位是製造業、醫療保健業和運行小型數據中心的企業。