宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

2023年11月14日 首頁 » 熱門科技

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

出於一系列技術和經濟因素的考量,過去幾十年來各類處理器往往存在算力過剩、內存容量/帶寬不足的問題。有時候,甚至會特意針對設備和工作負載規劃內存容量。

Web基礎設施工作負載和相對簡單的分析/資料庫工作負載倒確實能在擁有十幾條DDR內存通道的現代CPU上運行良好,但對於強度更大的HPC模擬/建模以及AI訓練和推理用例,即使是最先進GPU上的內存帶寬和容量也都有點招架不住。換言之,提高這兩項指標有望改善晶片上現有向量與矩陣引擎的利用率,避免GPU把大量時間浪費在等待數據身上。

於是答案就很明顯了:應該在晶片上塞進更多內存!但遺憾的是,高級計算引擎上HBM內存的成本往往比晶片本身還高,所以擴容工作面臨很大阻力。特別是如果添加內存就能讓性能翻倍,那同樣的HPC或AI應用性能將只需要一半的設備即可達成,這樣的主意顯然沒法在董事會那邊得到支持。這種主動壓縮利潤的思路,恐怕只能在市場供過於求,三、四家廠商爭奪客戶預算的時候才會發生。但很明顯,現狀並非如此。

好在理性還是最終占據了上風,所以英特爾才為「Sapphire Rapids」至強SP晶片家族推出了新的變體,配備64 GB的HBM2e內存,雖然每核內存容量剛剛超過1 GB,但綜合內存帶寬卻一舉達到1 TB/秒以上。對於那些內存占用量相對不大,而且性能表現主要受到帶寬影響、而非容量制約的工作負載(也就是大部分HPC應用),只需轉向HBM2e就能瞬間將性能提升1.8到1.9倍。這也讓Sapphire Rapids的HBM版本成為今年1月產品發布會上最有趣、也最具現實意義的內容之一。由此看來,英特爾後續也很有可能在主打MCR DDR5內存的Granite Rapids架構中推出相應的HBM變體。

英偉達在本周于丹佛召開的SC23超級計算大會上,宣布推出新的「Hopper」H200 GPU加速器。另一方面,AMD也將在12月6日推出面向數據中心的「Antares」GPU加速器家族,包括帶有192 GB HBM3內存的Instinct MI300X和帶有128 GB HBM3內存的CPU-GPU混合MI300A。看起來英偉達必須有所行動,至少得想辦法給Hopper GPU加上更大的內存。

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

一個月前,在英偉達通過財務會議放出的技術路線圖中,可以看到GH200 GPU和H200 GPU加速器將作為「Blackwell」GB100 GPU和B100 GPU之前的過渡產品,而Blackwell家族計劃在明年年內推出。大家普遍認為H200套件將擁有更大的內存容量,但當時我們認為英偉達應該花時間提升GPU本身的性能。如今事實證明,通過添加更大的HBM內存和轉向速度更快的HBM3e內存,英偉達完全可以在不改動現有Hopper GPU設計的前提下(即不添加更多CUDA核心或者做GPU超頻)實現顯著的性能提升。

但由此看來,原本這些計算引擎的設計還遠稱不上平衡。批評者可能認為計算引擎廠商一早就清楚問題的癥結所在,只是在故意戲耍消費者。比較中肯的用戶則認為考慮到HBM內存的高昂成本,這些情況也都可以理解。我們的觀點居於兩者之間,畢竟按照目前英偉達GPU的市場售價,塞進幾百GB的最快內存也完全沒有問題。更進一步講,哪怕再引入3D V-Cache和HBM加DDR內存都不會讓產品無利可圖。

如果真是如此,那過去一年間花大價錢採購Hopper H100加速器的用戶恐怕要罵娘了。為了防止這種情況的出現,英偉達恐怕將把141 GB HBM3e內存版本的Hopper價格定為80 GB或96 GB HBM3版產品的1.5到2倍,以此安撫客戶們的暴躁情緒。

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

據我們了解,H200目前還只適用於SXM5插槽,而且在向量和矩陣數學方面的峰值性能也跟2022年3月公布、去年投放市場且直到今年初才大規模出貨的H100加速器完全相同。二者唯一的區別在於,H100配備的是80 GB和96 GB的HBM3內存,初始設備分別提供3.35 TB/秒和3.9 TB/秒的內存帶寬;而H200則搭載141 GB且速度更快的HBM3e內存,總帶寬為4.8 TB/秒。與前代Hopper相比,H200內存容量增加到1.76倍,內存帶寬則為1.43倍,且運行功率繼續維持在700瓦不變。相比之下,AMD的Antares MI300X將提供182 GB的HBM3容量和5.2 TB/秒內存帶寬,而且峰值浮點算力更高(也可能只是有效浮點算力更高)。

如今已經是摩爾定律末期,所以看到計算引擎的性能還在因HBM內存的高成本而受限著實令人震驚。但從英偉達和英特爾Sapphire Rapids至強Max CPU公布的相關數據,情況就是如此。

無論下一代Blackwell B100 GPU加速器將如何設計,相信其推理性能都將有所提升,而且我們強烈懷疑這種提升主要來自內存方面的擴容、而非計算架構有何突破。下圖所示,為各代GPU在GPT-3 175B參數模型上的推理性能變化曲線:

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

就是說從現在到明年夏季,所有花錢採購英偉達Hopper G200的客戶都將毫無性價比可言(但快速發展也是數據中心硬體技術的常態)。

得益於Transformer引擎、浮點運算精度的下降和速度更快的HBM3內存,今年開始全面出貨的H100在GPT-3 175B模型的推理性能方面提升到了11倍。而憑藉更大、更快的HBM3e內存,H200無需硬體和代碼變更,就直接將性能提高到了A100的18倍。從H100到H200,性能增幅為1.64倍,而且所有這一切都是單純通過內存容量和帶寬提升實現的。

設想一下,如果在設備上添加512 GB HBM3內存和10 TB/秒的帶寬,結果又會如何?大家願意為這樣的完全體GPU付多少錢?考慮到目前「殘次」版本、根本無法發揮全部算力的GPU也要3萬美元左右,估計英偉達很可能會報出6萬、甚至9萬美元的恐怖數字。

請注意:我們在這裡並不是在專門針對英偉達,畢竟我們去年也曾抱怨過英特爾和AMD的「Genoa」Epyc CPU應該在部分型號上搭載HBM內存,這完全是中立的評論和建議。畢竟對於大多數HPC和AI工作負載來說,內存容量和內存帶寬已經成為決定實際性能、提升浮點算力的最大瓶頸。所以擺在計算引擎廠商面前的只有兩條路:要麼用更多核心來填平內存結構的短板,要麼至少選擇更大、更快的內存容量。英特爾和英偉達誰能拿出更好的結果,客戶們將會心甘情願用錢投票。

另外補充一點:也許HBM內存廠商也該想點辦法降低堆疊內存的成本,同時加快推進HBM技術路線圖。畢竟這個大麻煩已經成為計算行業資金浪費和效率低下問題的根源。此外,相較於每年發布新的製程工藝,計算引擎廠商也可以考慮出台更激進的HBM升級方案,真正把計算和內存協同起來。換句話說:H100也應該推出HBM3e版本,這顯然是發掘其硬體潛力的唯一方法。

下面,我們通過一組AI推理工作負載對H100和H200的相對性能做出了比較:

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

可以看到,更大、更快的內存帶來的實際性能提升要視工作負載而定,而且效果並不穩定。如圖所示,體量較小的Llama2 13 B模型的性能增幅不及Llama 70B模型,這是因為70B模型在接收提示詞並生成token時所需處理的參數量高達13B模型的5.4倍。

很明顯,如果能在相同的功率區間內實現性能倍增,就相當於把能耗和總體擁有成本降低了50%。所以從理論上講,英偉達完全可以把H200 GPU的售價維持在與H100相同的水平上。

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

通過這幅典型的營銷宣傳圖,我們可以斷言如果英偉達真的讓H200的售價與當初的H100持平,絕對會瞬間引爆市場。

對HPC從業者來說,X86 CPU與GPU之間的性能比較早已司空見慣。下圖所示,為兩塊Sapphire Rapids至強SP-8480和4個H200 GPU在運行MILC晶格量子色動力學負載時的性能比較。由於GPU的數量是CUP的2倍,所以單設備性能增幅實際只有55倍。

為提升GPU性能,英偉達選擇對HOPPER HBM內存擴容

上圖右側則是A100、H100和H200在由六種不同HPC負載組成的混合測試中的性能表現。可以看到,更大的內存容量和帶寬雖然仍有提升作用,但效果不如AI推理工作負載來得明顯。這六種工作負載(CP2K、GROMACS、ICON、MILC、Chroma和Quantum Espresso)在H100到H200的性能差異僅有18%,無疑令人失望。這似乎也解釋了為什麼GPU計算引擎廠商沒有一開始就瘋狂擴大HBM內存容量。

但這樣的結果也有其他解讀方式,即HPC應用開發者很可能習慣於在給定的計算量下以較小的內存占用量做程序設計,因此工作負載本身以及中間件(例如出色的MPI協議)都更善於節約內存資源。相比之下,AI工作負載網路上存在著巨量數據流,總會有某組GPU需要閒置一段時間來保證數據的同步處理和交換。

不過從好的方面看,只要硬體設備擁有更大的HBM內存和傳輸帶寬,相信HPC社群也會像無數AI從業者那樣做出針對性調整。畢竟無論是才智還是技術能力,HPC社區都完全不遜於AI陣營。

最後要說的是,H200 GPU加速器和Grace-Hopper超級晶片都將搭載更新的Hopper GPU,擁有更大、更快的內存,且計劃在明年年中正式上市。由此看來,我們可能需要修訂英偉達的技術路線圖,即Blackwell B100將在明年3月的GTC 2024大會上首次公布,併到2024年年底才投放市場。當然,無論大家更看好哪款產品,最好現在就提交訂單,畢竟英偉達的全線產品如今都是一卡難求。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新