AMD已經不止一次使用「together we advance_」這個前綴作為主題,希望可以在各個層面都可以實現「同超越,共成就_」。
自2017年AMD回歸數據中心處理器,到去年已經提供了第四代AMD EPYC(霄龍)處理器,幫助雲、企業和高性能計算等關鍵應用負載。今年,AMD首席執行官蘇姿豐(Lisa Su)也沒有讓我們失望,搶先帶來了包括CPU和GPU在內的一系列更新。
迎來專注云原生的Bergamo
2022年,AMD發布了Zen 4架構的AMD EPYC處理器「Genoa」,Genoa在市場上一直有良好的表現,雲工作負載中的性能是競品處理器的1.8倍,企業工作負載中的速度是競品處理器的1.9倍。
從2018年開始,亞馬遜雲科技就與AMD展開了合作,這次亞馬遜雲科技不僅展示了AMD實例在成本和性能上的優勢,同時還宣布正在使用AWS Nitro和第四代EPYC Genoa處理器構建新實例Amazon EC2 M7a,目前Amazon EC2 M7a實例已經提供預覽版,性能比M6a實例高出50%。AMD也會使用Amazon EC2 M7a實例處理內部的工作負載,包括晶片設計 EDA軟體等。
今年,AMD在計算基礎設施上又針對數據中心工作負載進行了優化,因為越來越多的應用都是雲原生,AMD也帶來了以吞吐量為導向,擁有最高終端密度和效率的AMD EPYC 97X4處理器「Bergamo」。
如果說Genoa是專注於通用的工作負載,Bergamo則專注於雲伺服器和數據中心,適用於雲原生工作負載。
AMD EPYC Bergamo有高達128個核心,每個插槽有多達256個線程,一個普通的2U 4節點平台將有2048個線程。其是由820億個電晶體組成,在儘可能小的空間內容納儘可能多的計算能力,可提供一致的x86 ISA支持,最高的vCPU密度。AMD預計Bergamo在5年內將占所有數據中心處理器銷售額的25%以上。
此次AMD EPYC Bergamo將Zen 4核心替換為Zen 4c,Zen 4c提供比Zen 4更高的密度,同時保持100%的軟體兼容性。AMD優化了高速緩存層次結構,並進行了其他調整,從而節省了35%的裸片面積。CCD核心數量從8個增加到16個,CCD總數從12個減少到8個。
基於Zen 4c的Bergamo EPYC 9704系列處理器現已上市,目前包括EPYC 9754、EPYC 9754S、EPYC 9734三個型號。戴爾PowerEdge系列伺服器已經實現支持,同時Bergamo處理器正在向大型雲計算客戶批量出貨,Meta就計劃在基礎架構中使用 Bergamo,它的性能比上一代Milan晶片高出2.5倍。
除了Bergamo,AMD還帶來了更針對技術計算的「Genoa-X」,以及針對電信和邊緣計算的「Siena」,預計在下半年上市。
Genoa-X配備了3D V-Cache技術,通過在每個CCD頂部堆疊一個64MB L3 V-Cache晶片增加L3 緩存容量,讓Genoa-X可以提供高達1152MB的總L3緩存。Genoa-X與具有相同核心數的友商處理器比較,在各方面都顯示出了更強的優勢。
目前Genoa-X系列三個型號分別是,96核的EPYC 9684X、32核的EPYC 9384X、16核的EPYC 9184X。
Microsoft Azure也宣布最新高性能計算用虛擬機HBv4與Azure HX使用Genoa-X,內存將是前一代3倍,工作負載的性能提升最高達到5.7倍。
1530億電晶體晶片現世MI300X
對於生成式AI,可能現在每個人、每個企業都在關注。Lisa Su說,AI是目前技術的決定性大趨勢。她概述了由大型語言模型 (LLM) 驅動的AI市場存在著巨大的市場機會,導致數據中心AI加速器的TAM到2027年將會達到1500億美元,CAGR將超過50%。
其實在2023年第一季度,AMD就推出了CPU GPU架構的Instinct MI300正式進軍AI訓練端。MI300結合AMD的Zen 4 CPU與CDNA 3 GPU,通過「統一內存架構」突破GPU與CPU之間的數據傳輸速度限制,滿足未來AI訓練和推理中,海量數據計算和傳輸的需求。
今天萬眾矚目的Instinct MI300系列產品又發布了MI300A和MI300X。
MI300A是全球首個為AI和HPC打造的APU加速卡,目前已出樣。其擁有13個小晶片,總共包含1460億個電晶體,採用了24個Zen 4核心、CDNA3 GPU核心和128GB HBM3內存。與 MI250 相比,其提供了8倍的性能和5倍的效率。
MI300X是AMD針對大語言模型優化的版本,擁有12個5nm的小晶片,電晶體數量達到了1530億個。MI300X沒有集成CPU核心,採用了8 個CDNA3 GPU核心和4個IO內存核心設計。內存達到了192GB,內存帶寬為5.2TB/s,Infinity Fabric帶寬為896GB/s。
MI300X提供的HBM(高帶寬內存)密度約為英偉達H100的2.4倍,HBM帶寬則為1.6倍,這讓運行更大的模型成為可能,從而降低成本。
現在在單個GPU上運行一個400億參數的模型,已經不在是幻想。MI300X可以支持400億個參數的Hugging Face AI模型運行,最多可以運行800億個參數的模型,而且使用多個MI300X疊加可以處理更多的參數。
現場Lisa Su演示了在單個MI300X上運行擁有400億個參數的Falcon-40B大型語言模型,寫了一首關於舊金山的詩。
MI300X將在第三季度出樣,第四季度加大生產,以挑戰英偉達在市場重的領先地位。
AMD還發布了新的Instinct平台,可以加快客戶的上市時間,並降低總體開發成本。其基於OCP開放計算標準,將8塊MI300X加速卡並行,可提供總計多達1.5TB HBM3內存。
而且為了突破CUDA這個護城河,AMD正在不斷發展ROCm,這是一套完整的庫和工具,可以優化AI軟體堆棧。不同於專有的CUDA,ROCm軟體棧可與模型、庫、框架和工具的開放生態系統兼容。AMD總裁Victor Peng也希望,未來在AI軟體生態系統開發中持續採用「開放(軟體方法)、經過驗證(AI能力)、就緒(支持AI模型)」的理念。