Nvidia本周一早些時候宣布,Nvidia迄今為止最強大的人工智慧晶片GH200 Grace Hopper Superchip現已全面投產。
Nvidia GH200 Superchip(如圖)旨在為那些運行最複雜AI工作負載的系統提供動力,包括訓練下一代生成式AI模型。
Nvidia公司首席執行官黃仁勛在台灣舉行的COMPUTEX 2023活動上宣布了這一消息,他還透露首批將由這種超級晶片提供動力的電腦系統。黃仁勛解釋說,GH200使用Nvidia的NVLink-C2C互連技術,將Nvidia基於Arm的Grace CPU和Hopper GPU架構融合到一個晶片中。
這款新的晶片總帶寬達每秒900 GB,比當今最先進的加速計算系統中採用的標準PCIe Gen5通道高出7倍。Nvidia表示,Superchip的功耗也降低了5倍,使其能夠更有效地處理那些要求苛刻的AI和高性能計算應用。
特別是,Nvidia GH200 Superchip有望用於以OpenAI ChatGPT為代表的生成式AI工作負載中,這種生成式AI從提示中生成新內容的能力近乎人類,目前已經席捲了整個科技行業。
Nvidia公司加速計算副總裁Ian Buck表示:「生成式AI正在迅速改變企業,釋放新的機遇,加速醫療、金融、商業服務和更多行業的發現。隨著Grace Hopper Superchips的全面投產,全球製造商將很快能夠為企業提供所需的加速基礎設施,以構建和部署採用了他們獨特專有數據的生成式AI應用。」
首批集成GH200超級晶片的系統之一,將是Nvidia自己的下一代大內存AI超級電腦Nvidia DGX GH200(下圖)。據Nvidia稱,這款新的系統採用NVLink Switch System以組合256個GH200超級晶片,使其能夠作為單個GPU運行,提供高達1 exaflops的性能(或每秒1 quintillion浮點運算)以及144 TB的共享內存。
這意味著它的內存是Nvidia於2020年推出的上一代DGX A100超級電腦的近500倍,同時也更加強大,後者僅僅是把8個GPU組合到一個晶片中。
黃仁勛表示:「DGX GH200 AI超級電腦集成了Nvidia最先進的加速計算和網路技術,以擴展AI的前沿。」
Nvidia表示,DGX GH200 AI超級電腦還將配備完整的全棧軟體,用於運行AI和數據分析工作負載,例如,該系統支持Nvidia Base Command軟體,提供AI工作流管理、集群管理、加速計算和存儲庫,以及網路基礎設施和系統軟體。同時,該系統還支持Nvidia AI Enterprise,這是一個包含了100多個AI框架、預訓練模型和開發工具的軟體層,用於簡化生成AI、電腦視覺、語音AI和其他類型模型的生產。
Constellation Research分析師Holger Mueller表示,Nvidia通過將Grace和Hopper架構與NVLink融合,有效地將兩種真正可靠的產品合二為一。他說:「結果就是更高的性能和容量,以及用於構建AI驅動型應用的簡化基礎設施,讓用戶能夠將如此多的GPU及其功能視為一個邏輯GPU,並從中獲益。」
當你以正確的方式將兩件好事結合起來時,好事就會發生,Nvidia就是如此。Grace和Hopper晶片架構與NVLink相結合,不僅帶來了更高的性能和容量,而且因為將所有這些GPU都視為一個邏輯GPU,從而對構建支持AI的下一代應用進行了簡化。」
Nvidia表示,首批採用新型DGX GH200 AI超級電腦的客戶包括Google Cloud、Meta Platforms和微軟,此外對於那些希望針對自身基礎設施進行定製的雲服務提供商來說,Nvidia還將把DGX GH200的設計作為一種藍圖提供給他們。
微軟Azure基礎設施企業副總裁Girish Bablani表示:「傳統上,訓練大型AI模型是一項資源和時間密集型任務,DGX GH200處理TB級數據集的潛力,將使開發人員能夠以更大的規模和更快的速度進行高級研究。」
Nvidia表示,還將為自己內部的研發團隊構建基於DGX GH200的AI超級電腦「Nvidia Helios」,將結合4個DGX GH200系統,使用Nvidia Quantum-2 Infiniband網路技術互連。到今年年底上線時,Helios系統將包含總共1024個GH200超級晶片。
最後,Nvidia的伺服器合作夥伴正計劃基於新的GH200 Superchip打造他們自己的系統,首批推出的系統中包括Quanta Computer的S74G-2U,該系統將於今年晚些時候上市。
其他合作夥伴,包括華碩、安提國際、研揚科技、思科、戴爾、技嘉、HPE、Inventec和Pegatron也將推出GH200驅動的系統。
Nvidia表示,伺服器合作夥伴已經採用了新的Nvidia MGX伺服器規範,該規範也在本周一公布了。據Nvidia稱,MGX是一種模塊化參考架構,讓合作夥伴能夠基於其最新的晶片架構快速輕鬆地構建100多種版本的伺服器,以適應廣泛的AI、高性能計算和其他類型的工作負載。伺服器製造商通過使用NGX有望將開發成本降低多達四分之三,開發時間縮短三分之二,縮短至大約六個月。