英偉達發布GB200計算卡：2080億個電晶體，AI性能提升5倍

在這個星球上，英偉達毫無疑問是如今的AI之王，其推出的H100已經被眾多科技企業搶購，而英偉達的營收和利潤也是節節攀升。但是在這個算力決定效率的今天，英偉達H100計算卡的算力還遠遠不夠，尤其是像Sora這樣的文生影片的模型出來，更是對計算卡的算力提出了更高的要求，於是英偉達也適時地推出了下一代GPU，在AI性能上有著突飛猛進的進步，可以說拉了競爭對手整整一代。

贊助商廣告

英偉達在今天凌晨舉辦GTC技術大會，在大會上，英偉達正式宣布了Blackwell架構，同時也表示B200晶片將會是首款基於Blackwell打造的GPU。首先是製程架構，沒想到已經不差錢的英偉達並沒有採用台積電的3nm製程架構，而是繼續採用4nm製程，而B200則是基於兩顆晶片打造而成，總共擁有2080億個電晶體，藉助NVlink 5.0進行數據傳輸，而NVLink 5.0在B200上可以實現1.8TB/s的數據傳輸，是上代的兩倍，而NVLink 5.0的理論速度可以達到10TB/s。

贊助商廣告

毫無疑問B200晶片最大的特點就在於其強大的AI算力，老黃表示B200晶片的AI算力達到了20PFlops，遠超現在的H100的4PFLOPs，相當於是現在的5倍性能，從而可以讓AI廠商訓練更加複雜的模型，但是算傳統的算力，B200中單個晶片比H100高出25%，也就是說傳統算力B200是H100的2.5倍。

此外老黃還發布了基於兩顆B200晶片以及Grace CPU打造的AI超算GB200，訓練與推理LLM的性能比上代提升了30倍，簡直就是黑科技。英偉達表示按照AI廠商訓練一個1.8萬億參數的大語言模型計算，原本需要8000塊Hooper GPU，同時功耗達到了15兆瓦，而現在廠商僅需2000塊GPU，功耗大約是4兆瓦，而在GPT-3的訓練中，GB200的訓練速度是H100的4倍，而推理速度則是H100的7倍。

這還只是AI超算的一小部分，英偉達針對企業以及高性能計算用戶推出了GB200 NVL72伺服器，最多擁有36個CPU和72個Blackwell GPU，以及專門定製的水冷解決方案，最高提供720PFLOPs的AI訓練性能以及1440FLOPs的推理性能，此外一個機架上還包括18個GB200晶片以及9個NVLink交換機，最高實現27萬億個參數模型的訓練，要知道現在的GPT-4模型訓練參數大約為1.7萬億個，未來將會為AI帶來更大的可能。

贊助商廣告

當然GB200 NVL72伺服器並不是Blackwell的極限，英偉達還將推出DGX GB200這樣的伺服器集群，共有八個GB200 NVL72伺服器，擁有288個CPU，576個GPU，記憶體容量達到了240TB，FP4算力更是達到了11.5EFLOPs，實在是太過於恐怖，甚至英偉達還表示如果你覺得算力還不夠，未來英偉達DGX還可以進行不斷地擴展，藉助Quantum-X800 InfiniBand以太網實現數萬顆GPU的互聯互通，讓AI訓練性能達到前所未有的高度。

目前包括微軟、谷歌、亞馬遜已經表示將大量採購英偉達的新一代GB200伺服器用於AI訓練。目前英偉達還沒有公布GB200的具體價格，不過很有可能價格達到了十幾萬，而且現在這種AI神器完全就是買方市場，供不應求，看起來英偉達的營收還將在2024年創下新高，畢竟在AI領域，老黃的領先程度實在是太大了。