在這個星球上,英偉達毫無疑問是如今的AI之王,其推出的H100已經被眾多科技企業搶購,而英偉達的營收和利潤也是節節攀升。但是在這個算力決定效率的今天,英偉達H100計算卡的算力還遠遠不夠,尤其是像Sora這樣的文生影片的模型出來,更是對計算卡的算力提出了更高的要求,於是英偉達也適時地推出了下一代GPU,在AI性能上有著突飛猛進的進步,可以說拉了競爭對手整整一代。
英偉達在今天凌晨舉辦GTC技術大會,在大會上, 英偉達正式宣布了Blackwell架構,同時也表示B200晶片將會是首款基於Blackwell打造的GPU。首先是製程架構,沒想到已經不差錢的英偉達並沒有採用台積電的3nm製程架構,而是繼續採用4nm製程,而B200則是基於兩顆晶片打造而成,總共擁有2080億個電晶體,藉助NVlink 5.0進行數據傳輸,而NVLink 5.0在B200上可以實現1.8TB/s的數據傳輸,是上代的兩倍,而NVLink 5.0的理論速度可以達到10TB/s。
毫無疑問B200晶片最大的特點就在於其強大的AI算力,老黃表示B200晶片的AI算力達到了20PFlops,遠超現在的H100的4PFLOPs,相當於是現在的5倍性能,從而可以讓AI廠商訓練更加複雜的模型,但是算傳統的算力,B200中單個晶片比H100高出25%,也就是說傳統算力B200是H100的2.5倍。
此外老黃還發布了基於兩顆B200晶片以及Grace CPU打造的AI超算GB200,訓練與推理LLM的性能比上代提升了30倍,簡直就是黑科技。英偉達表示按照AI廠商訓練一個1.8萬億參數的大語言模型計算,原本需要8000塊Hooper GPU,同時功耗達到了15兆瓦,而現在廠商僅需2000塊GPU,功耗大約是4兆瓦,而在GPT-3的訓練中,GB200的訓練速度是H100的4倍,而推理速度則是H100的7倍。
這還只是AI超算的一小部分,英偉達針對企業以及高性能計算用戶推出了GB200 NVL72伺服器,最多擁有36個CPU和72個Blackwell GPU,以及專門定製的水冷解決方案,最高提供720PFLOPs的AI訓練性能以及1440FLOPs的推理性能,此外一個機架上還包括18個GB200晶片以及9個NVLink交換機,最高實現27萬億個參數模型的訓練,要知道現在的GPT-4模型訓練參數大約為1.7萬億個,未來將會為AI帶來更大的可能。
當然GB200 NVL72伺服器並不是Blackwell的極限,英偉達還將推出DGX GB200這樣的伺服器集群,共有八個GB200 NVL72伺服器,擁有288個CPU,576個GPU,內存容量達到了240TB,FP4算力更是達到了11.5EFLOPs,實在是太過於恐怖,甚至英偉達還表示如果你覺得算力還不夠,未來英偉達DGX還可以進行不斷地擴展,藉助Quantum-X800 InfiniBand以太網實現數萬顆GPU的互聯互通,讓AI訓練性能達到前所未有的高度。
目前包括微軟、谷歌、亞馬遜已經表示將大量採購英偉達的新一代GB200伺服器用於AI訓練。目前英偉達還沒有公布GB200的具體價格,不過很有可能價格達到了十幾萬,而且現在這種AI神器完全就是買方市場,供不應求,看起來英偉達的營收還將在2024年創下新高,畢竟在AI領域,老黃的領先程度實在是太大了。