IBM的Vela AI超級電腦功能已經不足以滿足IBM研究院的AI訓練需求。於是2023年開始研發的Blue Vela旨在滿足GPU計算能力方面的重大擴展,用以支持AI模型訓練需求。截至目前,Blue Vela正被積極用於運行Granite模型訓練作業。

IBM Blue Vela示意圖。
Blue Vela基於英偉達的SuperPod概念打造,並採用IBM自家的Storage Scale設備。
Vela被託管在IBM Cloud之上,但Blue Vela集群則託管在IBM研究院的本地數據中心當中。這意味著IBM研究院擁有全部系統組件的所有權及責任,涵蓋從基礎設施層到軟體技術棧的整個體系。

Blue Vela系統中的各層。
隨著訓練體量更大、連接更緊密的模型所需要的GPU數量的增長,通信延遲成為影響結果的關鍵瓶頸。因此,Blue Vela的設計從網路起步,圍繞四種不同專用網路構建而成。
計算InfiniBand結構,促進GPU到GPU之間的通信,如下所示;
存儲InfiniBand結構,提供對各存儲子系統的訪問,如下所示;
帶內以太網主機網路,用於計算結構外部各節點間的通信;
帶外網路(也稱管理網路),提供對伺服器和交換機上的管理接口的訪問。
Blue Vela基於英偉達的SuperPod參考架構。其採用128節點計算Pod,其中包含4個可擴展單元,每單元又包含32個節點。這些節點均採用英偉達H100 GPU。英偉達的Unified Fabric Manager統一結構管理器(FCM)則用於管理由計算和存儲結構組成的InfiniBand網路。該管理器有助於識別並解決單個GPU限流或者不可用問題,而且無法兼容以太網網路。


各計算節點基於戴爾PowerEdge XE9680伺服器,具體組成包括:
雙48核第四代Gen英特爾至強Scalable處理器;
八英偉達H100 GPU加80 GB高帶寬內存(HBM);
2 TB RAM;
十英偉達ConnectX-7 NDR 400 Gbps InfiniBand主機通信適配器(HCA);
-其中八個專用於計算結構;
-兩個專用於存儲結構
八塊4 TB Enterprise NVMe U.2 Gen4 SSD;
雙25G以太網主機鏈路;
1G管理以太網埠。
IBM「修改了標準存儲結構配置,旨在集成IBM新的Storage Scale System(SSS)6000,我們自己也成為首家部署該系統的公司。」
這些SSS設備屬於集成化的縱向/橫向擴展存儲系統,可容納1000台設備,且安裝有Storage Scale。其支持自動、透明的數據緩存以加快查詢速度。
每個SSS 6000設備均可通過其InfiniBand和PCI Gen 5互連提供高達310 GBps的讀取吞吐量及155 GBps的寫入吞吐量。Blue Vela最初擁有兩個滿配SSS 6000機箱,每機箱配備48 x 30 TB U.2 G4 NVMe驅動器,可提供近3 PB的原始存儲容量。每台SSS設備最多可額外再容納七個外部JBOD機箱,每機箱最多可提供22 TB的容量擴展。此外,Blue Vela結構最多可容納32台SSS 6000設備。

IBM表示,基於FCM驅動器及3:1壓縮比率,其最大有效容量可高達5.4 PB,具體取決於存儲在FCM當中的數據特性。
Blue Vela使用戴爾PowerEdge R760XS伺服器以建立單獨的管理節點,可用於運行身份驗證與授權、工作負載調度、可觀察性及安全性等服務。
在性能方面,論文作者表示「從一開始,這套基礎設施也表現出了良好的吞吐量潛力。與同等配置的其他環境相比,其開箱即用性能提高了5%。」
「集群的當前性能顯示出良好的吞吐量水平(每天90至321B,具體取決於訓練設置與實際訓練的模型)。」
Blue Vela性能統計。