HPE發布基於Nvidia GPU的生成式AI超級電腦平台

HPE揭開了備受期待的生成式AI超級電腦平台的神秘面紗，該平台旨在幫助企業在自己的數據中心內創建、微調和運行強大的大型語言模型。

贊助商廣告

此次發布之際，HPE及其競爭對手Supermicro都宣布對其用於運行生成AI工作負載的產品組合進行重大更新，其中包括一些功能強大的新伺服器，配備了Nvidia最先進的Blackwell GPU，這些伺服器在近日舉行的GTC 2024大會上進行了發布。

HPE一直與Nvidia密切合作，利用Nvidia在高性能計算方面的專業知識，構建了一套生成式AI超級電腦，為開發人員提供構建高級模型所需的所有軟體和服務，以及強大的計算能力。

HPE表示，去年11月推出的生成式AI超級計算平台現已可供訂購，將為那些需要在自己本地伺服器上運行AI項目的企業提供了一套理想的解決方案。該系統被稱為開發和訓練大型語言模型的全棧解決方案，由Nvidia GH200 Grace Hopper超級晶片提供支持，並具有生成式AI入門所需的一切，包括液冷系統、加速計算、網路、存儲和AI服務。

HPE表示，這個超級電腦平台主要面向大型企業、研究機構和政府機構，可直接購買或通過HPE GreenLake按使用付費模式購買。它針對微調和推理工作負載進行了預先配置，提供了強大的計算、存儲、軟體、網路功能以及諮詢服務，幫助企業開始使用生成式AI。

該系統的底層提供了由HPE ProLiant DL380a Gen11伺服器和Nvidia H100 GPU組合提供支持的高性能AI計算集群，還集成了Nvidia Spectrum-X以太網網路技術及其BlueField-3數據處理單元，用於優化AI工作負載。HPE也將自己的機器學習和分析軟體添加到其中，而Nvidia AI Enterprise 5.0平台則附帶了Nvidia新發布的NIM微服務，有助於簡化AI開發工作。

HPE表示將支持各種大型語言模型，包括專有的大型語言模型和開源版本。HPE表示，該系統非常適合AI模型的輕量級微調、檢索增強生成和橫向擴展推理，並聲稱，這個16節點的系統微調基於Llama 2的700億參數模型只需要六分鐘。

贊助商廣告

該產品還旨在解決AI技能上存在的差距，HPE Service為企業提供了設計、部署和管理本地平台以及實施AI項目所需的專業知識。

HPE總裁兼首席執行官Antonio Neri表示，很多企業需要一種「混合設計型」解決方案以支撐整個AI生命周期。他解釋說：「從在本地、託管設施或公有雲中訓練和調整模型，到邊緣推理，AI是一種混合雲工作負載。」

AI軟體堆棧

在對生成式AI超級計算平台進行最後潤色的同時，HPE還與Nvidia合作開發了利用該平台所需的各種軟體系統，其中包括從今天起作為技術預覽版對外提供的HPE Machine Learning Inference Software，該軟體將幫助客戶在他們的基礎設施上快速且安全地部署AI模型，同時集成了Nvidia新的NIM微服務，提供對預構建軟體容器中託管的優化基礎模型的訪問路徑。

此外HPE表示，已經開發了RAG的參考架構，該技術使大型語言模型能夠利用專有的數據集來增強知識。HPE還發布了HPE Machine Learning Data Management Software、Machine Learning Development Environment Software和Machine Learning Inference Software以支持生成式AI開發工作。

最後HPE還透露了一些即將推出的新伺服器，這些伺服器將基於Nvidia新發布的Blackwell GPU架構，包括Nvidia GB200 Grace Blackwell Superchip、HDX B200和HGXB100 GPU。

Supermicro推出首款基於Blackwell GPU的伺服器

儘管HPE將在未來幾周內公布基於Grace的伺服器的更多細節，但Supermicro似乎已經領先一步了。Supermicro在此次GTC 2024大會上推出了一系列新伺服器，新系統採用GB200 Grace Blackwell Superchip，以及基於Blackwell的B200和B100 Tensor Core GPU。此外Supermicro公司表示，現有基於Nvidia HGX H100和H200的系統正在為新GPU「做好準備」，這意味著客戶只需要購買晶片就可以對現有的數據中心投資進行增強。

Supermicro表示，Supermicro將成為第一家在今年晚些時候推出Nvidia HGX B200 8-GPU和HGX B100 8-GPU系統的伺服器公司。新系統將配備8個Nvidia新型Blackwell GPU，通過第五代NBLink互連技術進行連接，可提供每秒1.8 TB的帶寬。而且Supermicro承諾，與基於Nvidia舊Hopper架構的系統相比，新系統的大型語言模型訓練性能將提高3倍。

贊助商廣告

Nvidia GPU產品管理副總裁Kaustubh Sanghani表示：「Supermicro持續向市場推出一系列令人驚嘆的加速計算平台伺服器，這些伺服器針對AI訓練和推理進行了調優，可以滿足當今市場的任何需求。」

為了滿足本地大型語言模型工作負載的需求，Supermicro構建了一系列新型MGX伺服器，這些伺服器將採用GB200 Grace Blackwell Superchip，該晶片比標準GPU晶片更為強大。新款Superchip配備了2個Blackwell GPU，加上多個CPU，將為AI推理負載提供顯著提升，Supermicro聲稱與上一代Superchip相比性能提升了30倍。

對於最先進的大型語言模型工作負載，Supermicro詳細介紹了一款基於Nvidia GB200 NVL72的、即將推出的機架級伺服器，將在單個機架中連接36個Nvidia Grace CPU和72個Blackwell GPU，此配置中的每個GPU都將採用最新的Nvidia NVLink技術，GPU到GPU的通信速度高達每秒1.8太比特。