AIST聯手HPE與英偉達，合作開發下一代AI雲計算設備

日本國家先進工業科學與技術研究所（AIST）計劃安裝其第三代AI橋接雲基礎設施3.0（AI Bridging Cloud Infrastructure 3.0）超級電腦。而且正如大家所想像，這套系統將包含數千張英偉達最新一代「Hopper」H200 GPU加速器。

贊助商廣告

但有趣的是，拿下ABCI 3.0系統交易訂單的是HPE，而非日本自己的富士通公司。之所以這一點非常重要，是因為自2018年ABCI設施系列首次部署以來，AIST一直選擇NEC和富士通作為其高端系統的本地設備供應商。

日本伺服器製造商NEC於2017年3月交付了第一台ABCI原型，其功能定位是幫助AIST為人工智慧和數據分析類工作負載提供對計算及存儲容量的雲訪問能力，從而解決在雲環境下實現AI大規模應用的需求。但當時的初代設備體量相當普通，只有50台雙插槽「Broadwell」至強E5伺服器以及每伺服器8張「Pascal」P100 GPU加速器。該原型機配備來自DataDirect Networks的4 PB集群磁盤存儲，運行有IBM的GPFS文件系統，並採用100 Gb/秒EDR InfiniBand導向器交換機將這些硬體連接在一起。

2017年秋季，富士通拿下了生產級ABCI 1.0系統的合同，實際成品由1088個富士通Primergy CX2570伺服器節點組成。這些節點採用半寬伺服器托架，可滑入Primergy CX400 2U機櫃。每個托架可容納2個英特爾「Skylake」至強SP處理器加4張更加強大的英偉達「Volta」GPU加速器。

這套ABCI 1.0設備擁有2176個CPU插槽加4352個GPU插槽，總計提供476 TB內存與4.19 PB/秒傳輸帶寬，可實現37.2千萬億次的64位雙精度浮點（FP64）性能與550千萬億次的16位FP16半精度性能。節點還配備有內部閃存驅動器，可以訪問20 PB GPFS文件系統。整個系統依靠InfiniBand實現連接。

原型系統成本加ABCI 1.0生產系統的總成本為1.72億美元，其中還包括建造數據中心以容納該套設備的投入。數據中心設施在其中約占1000萬美元，包括72台電腦架以及18個存儲機架。數據中心配備有溫水冷卻系統，可支持最高3.25兆瓦功耗並提供3.2兆瓦的冷卻容量。

贊助商廣告

ABCI設備的核心用途，就是將Linux、Kubernetes容器、AI框架以及AI研究人員可能需要的任何HPC及AI庫加載到該集群當中，以供他們自由運行相關應用程序容器。AIST選擇了Singularity容器系統來管理容器及其軟體鏡像。

2021年5月，ABCI 2.0系統正式誕生，增加了120個基於富士通Primergy GX2570-M6伺服器的新節點。這些伺服器節點採用英特爾「Icelake」至強SP處理器，並使用200 Gb/秒HDR InfiniBand互連將各節點及每節點中的8張「Ampere」A100 GPU相互連接。雖然僅包含區區120個節點，但其在Ampere GPU張量核心的加持下仍可提供19.3千萬億次的FP64性能與151千萬億次的FP16性能；這部分新系統的內存容量為97.5 TB，傳輸帶寬為1.54 PB/秒。ABCI 1.0及ABCI 2.0共同鏈接進同一台設備，具體情況如下圖所示：

ABCI 1.0加上ABCI 2.0擴展的完整複合體通常直接被稱為ABCI 2.0，最高運行功率可達2.3兆瓦。整個系統在FP64精度下可提供56.6千萬億次算力，在FP16精度下則可提供851.5千萬億次算力。

隨著ABCI 3.0系統訂單花落HPE，看起來AIST掌握的性能規模將迎來巨大飛躍，特別是AI性能將超過6百億億次。但至少從目前來看，這一性能數字很可能是採用英偉達GPU中2：1稀疏壓縮之後的結果，畢竟供應商永遠只引用他們拿得出手的最大數字。HPE在公布ABCI系統的新聞稿中表示，其FP16精度下的浮點運算性能「約為6.2百億億次」——請注意，這裡選擇的並不是H100和H200同樣支持的FP8精度。英偉達在關於此次交易的聲明中指出，這套系統在不採用稀疏配置的情況下，擁有「6百億億次AI浮點運算性能」，並補充稱其「雙精度性能為410千萬億次」。

基於以上結論，再加上H100和H200 GPU的理論峰值性能相同這一事實，我們認為ABCI 3.0設備搭載有6144張GPU，分布有768個節點之上，也就是每節點對應8線GPU。如果以這樣的配置進行計算，就能得到在無稀疏性F16精度下的6.08百億億次峰值性能，而在張量核心上則可實現FP64精度下的411.6千萬億次峰值。（H100和H200上的FP64模式不支持稀疏性。）英偉達表示，這些節點擁有200 GB/秒的雙向InfiniBand傳輸帶寬，就是說每個節點對應8個InfiniBand卡（每張GPU對應1個）。

贊助商廣告

2022年3月推出的H100 GPU擁有80 GB HBM3內存與3.35 TB/秒的傳輸帶寬，隨後又被升級為86 GB HBM3內存與3.9 TB/秒傳輸帶寬。而於2023年11月發布並批量出貨的H200則更上一層樓，HBM3E內存容量達到141 GB，傳輸帶寬也來到4.8 TB/秒。如果計算一下，就會發現ABCI 3.0系統將擁有846 TB的HBM3E內存容量與28.8 PB/秒的總傳輸帶寬。

因此與ABCI 1.0加ABCI 2.0兩代系統的加和相比，ABCI 3.0的FP64性能仍可達到其7.3倍，FP16性能則是其7.1倍，內存帶寬是其5倍，GPU內存容量是其1.5倍。於是現代系統架構的老大難問題再次出現——內存容量與內存帶寬的提升跟不上算力增長。

簡單來講，就是增強算力很容易，但擴大內存很困難。

ABCI 3.0系統將於今年晚些時候正式上線。