宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

2024年04月12日 首頁 » 熱門科技

我們之前已經說過了,在這裡我們再說一遍:如果你能製作一個運行PyTorch框架和Llama大語言模型(兩者都是開源的,都來自Meta Platforms,都被企業廣泛採用)的矩陣數學引擎,那麼你就可以售賣這個矩陣數學引擎了。

近日英特爾在美國菲尼克斯舉行的Vision 2024活動上推出了第三代Gaudi AI加速器,英特爾在錢德勒附近擁有大型代工廠,唯一的問題是英特爾可以生產多少個Gaudi 3加速器,價格是多少,什麼時候可以出貨?

第一個問題只有英特爾知道,英特爾正在與台積電合作蝕刻和封裝Gaudi 3加速器。Habana Labs在2019年12月被英特爾以20億美金收購,並於2019年7月推出了Gaudi 1加速器,當時在小得離譜的AI市場中Nvidia的「Volta」V100是它的競爭對手。希望英特爾能夠比Gaudi 1或者Gaudi 2更積極地製造和銷售Gaudi 3晶片,即使在加速器原始性能方面它很快會遠遠落後於Nvidia。英特爾有機會積極爭取,吸引PyTorch人群,在Hugging Face上提供Llama大型語言模型和看似無數的其他AI模型。

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

這足以為AI加速器業務奠定基礎——前提是客戶相信Gaudi 3與即將在2024年底或2025年初左右發布的「Falcon Shores」的混合CPU/NNP設計之間會有足夠的架構相似性。Falcon Shores將採用HBM3內存的變體,其發布日期具體取決於你怎麼解讀英特爾為Gaudi系列制定的模糊路線圖。我們所知道的是,Falcon Shores將把Gaudi系列和Max系列GPU合併,打造出一個既有Gaudi以太網互連和矩陣數學張量核心、又有Ponte Vecchio GPU的Xe矢量引擎的GPU。

至於Gaudi 3加速器的成本,答案很簡單。英特爾的價格將與它相對應的Nvidia Hopper H100 GPU加速器的性能以及具有96 GB HBM3內存容量和3.9TB/秒帶寬的Hopper H100 GPU的市場價格成正比。隨著具有141 GB HBM3e內存容量和4.8TB/秒帶寬的Hopper H200即將在幾個月內開始出貨,Gaudi 3也將轉向和H200進行比較。當未來Blackwell B100和B200 GPU加速器從今年晚些時候到2025年的時候開始出貨,英特爾就不得不對Gaudi 3的價格進行相應調整了。

第三代更有魅力嗎?

顯然,如果Gaudi 3加速器能在2022年春季與Hopper GPU一起推出,並且數量可觀的話,那對英特爾來說會更好。兩年過去了,市場對Nvidia GPU的需求如此強勁,沒有比現在是售賣這款已經有兩年歷史的技術的更好時機了。現在推出總比不推出好,在這一點上,讓Falcon Shores投入使用宜早不宜遲。

英特爾可以在短期內售賣自己生產的所有Gaudi 3和Falcon Shores,現在是忙碌的時候。Gaudi 3和Falcon Shores的時機本來可以更好,但任何升級上的延遲都意味著數十億美金的系統銷售被延遲,而且因為Nvidia的強勁增長以及AMD也開始憑藉Antares Instinct MI300系列GPU獲得關注而輸掉這場比賽。

Gaudi 3加速器相對Gaudi 2來說是一大進步。但Falcon Shores帶來了重大的架構變化,但很大程度上與使用PyTorch和基於該框架的更高端模型的客戶是相隔離的。如果Meta Platforms選擇這款Gaudi加速器作為AI引擎,這對Habana Labs和英特爾來說都將是一件好事,但顯然這並沒有發生,Meta正在開發自己的MTIA加速器系列用於AI訓練和推理,並且臨時購買了數十萬個Nvidia GPU。

讓我們先了解一下Gaudi 1和Gaudi 2架構,然後看看Gaudi 3加速器、使用它的系統設計、以及英特爾將推向市場的各種Gaudi 3封裝,比較當前Nvidia和AMD GPU、Gaudi 3系列的性價比。

專為數學而生

與其他包含矩陣數學單元和張量核心(一種特殊的矩陣數學單元)的AI加速器一樣,最初的Gaudi 1加速器理論上可用於加速其他類型的工作負載,包括高性能計算模擬和建模,甚至是數據分析,只需為其創建軟體堆棧即可。但在這種情況下,與其他混合精度AI加速器的情況一樣,混合(重要的是低精度)浮點和整數數學最適合於AI訓練和推理了。

Habana Labs整合的Gaudi 1加速器和軟體堆棧迫使英特爾收購了這家公司,儘管英特爾此已經在2016年8月以3.5億美金收購了AI加速器製造商Nervana Systems。(英特爾直到2019年11月才將Nervana NNP產品化,然後一個月之後收購了Habana Labs。想想看。)

這是Gaudi 1的結構圖:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

這個架構中包括了一個通用GEMM Engine矩陣數學引擎,以及8個帶有自己本地內存的TPC。GEMM引擎以16位精度對全連接層、卷積和批量GEMM處理進行數學運算,而TPC是一種特殊的SIMD處理器,用於處理其他機器學習操作。TPC可以處理FP32、BF16、INT32、INT16、INT8、UINT32、UINT16和UINT8格式的數據。

TPC(可能還有GEMM單元)共享的SRAM內存容量為24 MB,帶寬為1TB/秒;據我們所知,TPC上本地內存的大小和帶寬從未對外公布。

Gaudi 2採用台積電的16納米工藝蝕刻,並使用2.5D CoWoS封裝來鏈接4個HBM2內存堆棧,每個堆棧8 GB,總共32 GB內存,聚合帶寬為1TB/秒。該晶片還有10個100 Gb/秒以太網RoCE埠,用於在伺服器節點內以及集群中的伺服器節點之間互連Gaudi處理器,最多有128個完全連接的節點,此外還有一個PCI-Express 4.0 x16控制器來連接主機CPU。

英特爾是在2022年5月推出Gaudi 2的,2023年6月開始在Intel Developer Cloud上批量出貨,英特爾內部的Habana團隊全力以赴,很大程度上要歸功於他們轉向使用了台積電的7納米工藝蝕刻。

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

共享SRAM內存從24 MB增加到48 MB。TPC的數量增加了3倍,達到24個,GEMM單元(現在稱為矩陣數學引擎)的數量也增加了1倍。以太網埠數量增加了2.4倍,達到24個埠,這從根本上提高了Gaudi集群的可擴展性,並添加了媒體解碼器來為AI視覺應用進行預處理。TPC支持FP32、TF32、BF16、FP16和FP8(E4M3和E5M2變體)數據格式。根據文檔顯示,MME單元進行矩陣數學運算並累加為FP32格式(尚不清楚GEMM是否與MME相同。但如果是,它會對16位整數進行矩陣數學計算並累加到32位浮點數)。Gaudi 2具有相同的PCI-Express 4.0 x16 鏈路輸出到主機,但具有6個HBM2E內存控制器和6個HBM2E內存堆棧,每個堆棧為16 GB,6個堆棧總容量為96 GB,帶寬為2.4 TB/秒。

這讓我們想到了Gaudi 3以及轉向台積電的5納米蝕刻。

Gaudi 3加速器如下所示:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

這是規格:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

Gaudi 3更為強大。Habana Labs首席運營官Eitan Medina表示,TPC設計已經是第五代了,他在英特爾內部也擔任同樣的職務。Gaudi 3設備上有64個TPC,比Gaudi 2增加了50%。還有8個MME,是Gaudi 2的4倍。

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

根據Medina的說法,這是一個簡化的圖,但正如你現在期望的那樣,有2個相同的Gaudi 3小晶片,彼此旋轉180度,實現了24個200 Gb/秒以太網埠中的一般,一半的媒體引擎,並且每個圖塊可能有一個PCI-Express 5.0 x8埠,可以組合起來形成簡化結構圖中所示的單個虛擬PCI-Express 5.0 x16埠。

每個Gaudi 3塊上有48 MB的SRAM共享內存,以及2個由16個TPC組成的塊,以及2個由2個MME組成的塊。這個Gaudi 3複合體中有96 MB的SRAM,以及12.8TB/秒的聚合帶寬。有8個HBM2E內存堆棧,總容量為128 GB,帶寬為3.7TB/秒。

據我們所知,Gaudi 3設備中的TPC和Gaudi 2一樣支持FP32、TF32、BF16、FP16和FP8數據格式,但不像Nvidia新推出的Blackwell GPU那樣支持FP4精度。Nvidia現有的Hopper GPU也不具備這種能力。

在節點內和跨集群擴展Gaudi 3

AI加速器的好壞取決於它可以構建的集群,正如從一開始那樣,Gaudi團隊正在將以太網與RDMA以及RoCE協議擴展中的其他無損功能集成在一起,以不使用InfiniBand的情況下做到這一點。

以下是FP8精度集群的速度,FP8有時會被用於AI訓練,並且被越來越多地用於AI推理:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

8路的Gaudi 3節點在FP8精度下的額定速度為14.7 petaflops,8路的Hopper H100節點在FP8精度下的額定速度為15.8 petaflops,無需打開2:1稀疏性支持。鑑於並非所有應用都會支持2:1的稀疏性,所以說這個距離就相當遙遠了。(對於密集矩陣,稀疏支持不會起任何作用。)Nvidia的原始H100也只有80GB的HBM3,但帶寬為3.35TB/秒。英特爾通過堅持使用更便宜的HBM2E獲得了更多的容量和帶寬,這一點很有趣。Nvidia的H200擁有141 GB的HBM3E和4.8TB/秒的帶寬,內存容量增加了10.2%,帶寬增加了29.7%。(但是價格是多少?也許比Grace CPU的成本更高?)

節點內部的Gaudi 3加速器使用了和Gaudi 2設計相同的OSFP鏈路連接到外部世界,但在這種情況下,速度加倍就意味著英特爾必須在Gaudi 3的以太網埠和來自系統板背面的6個800 Gb/秒OSFP埠之間添加重定時器。每個Gaudi 3上有24個埠中,有21個用於構建高帶寬全對全網路,將這些Gaudi 3設備緊密連接在一起。就像這樣:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

當你擴展的時候,你可以構建一個包含了16個8路Gaudi 3節點和3個葉子交換機的子集群,據Medina稱,這種子集群通常基於博通的51.2Tb/秒「Tomahawk 5」StrataXGS交換機ASIC——其中,以800 GB/秒運行的64個埠,有一半的埠向下指向伺服器,另一半埠向上指向主幹網路。你需要3個葉開關來完成此任務:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

為了在512個伺服器節點上獲得4096個Gaudi 3加速器,你需要構建32個子集群,並將96個葉交換機與3組16個主幹交換機交叉鏈接,這將讓你有三種不同的路徑通過雙層網路將任何Gaudi 3連接到任何其他交換機。就像這樣:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

該圖表應該將它們標記為子集群,而不是集群。但你能明白的。

現在讓我們簡單談談性能,然後再更深入地討論。Medina展示的性能結果顯示,Gaudi 3在訓練Llama2 7B和13B以及GPT-3 175B模型方面要比Nvidia H100快1.4倍至1.7倍,在Llama 2 7B和70B以及Falcon 180B上進行推理的性能比H100高出90%至4倍。

追隨功能的外形尺寸

最後是外形尺寸。這是Gaudi 3加速器的OAM版本,理論上應該是微軟和Meta的首選,他們創建了OAM的外形並於2019年3月將其開源。看一下:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

這是通用基板,將其中的8個創建一個主板,其中所有這些Gaudi 3設備都是互連的,還有6個運行速度為800Gb/秒的OSFP埠:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

這個UBB系統大致類似於Nvidia的HGX系統板,後者已經用於Nvidia的A100、H100以及即將推出的B100加速器中。

英特爾還將提供Gaudi 3的PCI-Express 5.0 x16變體,具有被動冷卻功能,因此可以直接插入任何支持雙寬外形插槽的伺服器中:

分析:Gaudi 3讓英特爾可以面向Pytorch群體售賣AI加速器了

風冷式Gaudi 3設備已經提供樣品有幾周時間了,安裝有冷板的液冷式設備將於2024年第二季度提供樣品。風冷式Gaudi 3將在第三季度批量生產,液冷的將在第四季度量產。戴爾、HPE、聯想和超微都將製造基於這些Gaudi 3加速器的OEM系統,Gaudi 3也將通過Intel Developer Cloud提供。Gaudi 2僅出現在超微製造的設備中。因此看來,OEM廠商對Gaudi 3的重視程度要高於Gaudi 2,這與OEM廠商在Hopper GPU推出期間的低分配率有很大關係。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新