宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

EOS只能半速運行:就連英偉達也無法為自家超級電腦提供充足H100 GPU

2024年02月16日 首頁 » 熱門科技
 

 

EOS只能半速運行:就連英偉達也無法為自家超級電腦提供充足H100 GPU

 

要說當下最困難的挑戰,就是如何為計算系統採購充足的英偉達「Hopper」H100 GPU。哪怕是作為供應商的英偉達自己,也只能在有限的配額之下謹慎規劃、調撥給內部使用。正因為如此,英偉達去年11月用於展示MLPerf基準測試運行能力的Eos超級電腦有半數設備被分配給了其他系統。如今的Eos雖仍是英偉達的當家招牌,但性能儲備相較於峰值水平已遭腰斬。

當下的AI數據中心領域,正經歷一段堪稱荒謬的複雜時期。

首先是英偉達突然發布一篇博文外加一段影片,以頗為詳盡且硬核的方式介紹了Eos系統——整體設備採用黑色、綠色加黃色搭配,頗有幾分兒童故事書中的風格。

Eos設備早在2022年3月就已公開亮相,當時被作為Hopper GPU加速器的宣傳素材,並於當年晚些時候進行了實裝。隨著11月在高性能LINPAKC基準測試中跑出認證成績,Eos系統成功在2023年的Top500超級電腦榜單中名列第九。

用於數據中心訓練和推理性能測試的最新MLPerf機器學習基準也在此時正式揭曉,英偉達對自家Eos同樣信心滿滿——這是一套擁有10752張H100 GPU的滿配系統,全部通過4000 Gb/秒的Quantum-2 NDR InfiniBand實現互連。

援引英偉達當時的介紹,「生成式AI領域又一顆新星伴隨著眾多新記錄和里程碑冉冉升起——這就是英偉達Eos,一台AI超級電腦,擁有多達10752張英偉達H100 Tensor Core GPU並搭配英偉達Quantum-2 InfiniBand網路。在基準訓練測試當中,Eos只需3.9分鐘就能在擁有1750億參數的GPT-3模型上完成10億token的訓練任務。」

 

EOS只能半速運行:就連英偉達也無法為自家超級電腦提供充足H100 GPU

 

這裡透露一點背景資訊:Eos系統的原始設計其實只搭載4608張H100 GPU,也就是目前英偉達實際維持的Eos配置。當初運行LINPACK測試並拿下Top500超算名次的Eos使用的正是這套配備。可短短幾個月過去,MLPerf測試中這6144張H100加速器到底去哪了?

另外:2022年3月公布的Eos原始設計能夠在4608張H100的FP64雙精度運算下提供275千萬億次的理論峰值性能,但在LINPACK性能測試中,該系統的FP64峰值測試性能僅為188.65千萬億次,就是說只有約3160張H100 GPU被用於驅動LINPACK基準測試。為什麼LINPACK測試中不要說10752張GPU滿員配置,就連4608張GPU的基礎配置都沒能保住?這實在令人感到費解。而從MLPerf測試結果來看,在配置上齊裝滿圓的Eos一舉帶來約642千萬億次的峰值性能,持續LINPACK性能則略高於400千萬億次,按這個成績計算Eos完全可以在11月的Top500超算榜單中擠進前五。

有意思,所以真相究竟是什麼?

據我們所知,Eos系統的初始架構如下所示:

 

EOS只能半速運行:就連英偉達也無法為自家超級電腦提供充足H100 GPU

 

2022年3月公布的這台Eos設備建立了一套由32個DGX H100系統組成的SuperPOD,每個系統均包含8張H100 GPU,並通過NVSwitch內存結構為總計256張GPU提供共享內存空間。為了在FP64雙精度運算下獲得275千萬億次的峰值性能,或者在FP8四分之一精度下獲得18百億億次的峰值性能,則需要使用大型Quantum-2 InfiniBand交換機複合體將18個DGX H100 SuperPOD互連起來。

根據我們的計算,DGX伺服器內部使用了2304個NVSwitch 3 ASIC,18個SuperPOD中還各使用360個NVSwitch葉/脊交換機,即總計720個NVSwitch 3 ASIC。雙層InfiniBand網路共包含500個InifniBand交換機,對應著另外500個交換機ASIC。有趣的是,這總計3524個交換機ASIC負責將4608張H100 GPU互連起來。(對於原始FP64運算,Eos設備上DGX節點中1152個至強SP主機CPU所貢獻的算力幾乎沒有統計學意義。)當時就有文章評價稱,這屬於典型的網路密集型配置,跟超大規模基礎設施運營商和雲服務商的主流配置思路大相徑庭。而且據我們所知,還沒有哪家超大規模基礎設施運營商和雲服務商會使用NVSwitch結構建立SuperPOD——雖然這種方法性能更好,但對應的溢價實在過於誇張。

我們還聯繫了英偉達想了解Eos設備的參考架構,希望從細節入手探尋真相。我們不清楚Eos採用的H100擁有80 GB顯存還是96 GB顯存,也不清楚該系統為什麼相較去年11月的MLPerf測試版本在配置上縮水了57.1%。

這裡我們提出一種可能的猜測。目前一張H100 GPU的重量約為3磅(接近1.5公斤),售價則高達3萬美元。截至本文發稿時,黃金的價格約為每克71美元,就是說英偉達旗艦GPU的同質量價格已經逼近黃金的三分之一。更重要的是,H100的實用價值遠高於黃金。面對旺盛的市場需求與雪片般飛來的客戶訂單,把這6144張H100 GPU及時變現對英偉達來說無疑才是正確的選擇。

 
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新