宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI晶片對決:英特爾GAUDI與英偉達GPU

2024年06月14日 首頁 » 熱門科技

AI晶片對決:英特爾GAUDI與英偉達GPU

說起AI系統,我們已經不再以相互割裂的方式單獨計算加速器和基礎主板的標價,而開始將主板與一大堆加速器視為統一的共享計算複合體。

但在最近於台灣舉行的Computex IT大會上,迫切希望在AI訓練與推理方面有所表現的英特爾做出了一項英偉達和AMD都未曾做過的嘗試:為其當下及之前幾代AI加速器單獨標價。但請大家先別太興奮,估計英偉達、AMD乃至其他AI加速器與系統初創公司短時間內並不會迅速跟進。

但Gaudi 2與Gaudi 3加速器定價的披露,外加部分基準測試結果以及這些設備的峰值饋送與處理速度,確實讓我們獲得了對幾位競爭對手間真實實力的分析空間。

英特爾公開具體價格的原因並不難理解。晶片巨頭希望自家AI晶片能在市場上有所建樹,從而分擔其計劃在2025年底交付的「Falcon Shores」GPU以及2026年上市的「Falcon Shores 2」GPU的研發成本,因此他們必須展現出良好的性價比與有競爭力的性能水平。

這種自我證明之所以重要,還因為Gaudi 3晶片已經從今年4月開始出貨,也是英特爾2019年12月斥資20億美元收購Habana Labs、進而拿下Gaudi系列加速器產品線之後,推出的最新一代方案。

大家可能都聽說過發熱量和製造成本都相當誇張的「Ponte Vecchio」Max系列GPU,其在阿貢國家實驗室的「Aurora」超級電腦當中充當核心,也被其他幾個項目所採用。但受這兩大劣勢因素的影響,該系列GPU在這些交易之後幾乎立即被封存,英特爾也著實希望從一再推遲的Ponte Vecchio平穩過渡到有望於明年年底準時推出的Falcon Shores。

根據英特爾方面在2023年6月透露的消息,Falcon Shores晶片將採用Gaudi系列的大規模並行以太網結構及矩陣數學單元,並將其與當初為Ponte Vecchio創建的Xe GPU引擎相結合。如此一來,Falcon Shores就能同時進行64位浮點處理以及矩陣數學處理。Ponte Vecchio並不具備矩陣處理能力,而僅支持向量處理,這是為了滿足Argonne提出的FP64算力需求所設計。這當然很好,卻也代表著Ponte Vecchio可能並不太適合AI工作負載,因此限制了其市場吸引力。有鑑於此,英特爾才決定將Gaudi和Xe計算單元合併為統一的Falcon Shores引擎。

我們對Falcon Shores了解不多,但可以肯定的是其運行功率將達到1500瓦,比預計於明年初批量出貨的頂級「Blackwell」B200 GPU的功耗和發熱量高出25%——後者的額定功率為1200瓦,能夠以FP4精度提供20千萬億次算力。Falcon Shores的耗電量比Blackwell高25%,所以假設其浮點精度水平和晶片製程工藝大致相當,那麼其性能最好也要比Blackwell高出25%。而如果想要真正形成優勢,英特爾最好能採用Intel 18A製程工藝(預計於2025年正式投產)來製造Falcon Shores,並且能夠在浮點性能方面更進一步。再往遠說,Falcon Shores 2最好能採用尺寸更小的Intel 14A製程工藝,預計將在2026年投入生產。

英特爾早就應該挽救自己在代工和晶片設計領域犯下的一個個致命錯誤了。台積電的創新步伐堅定且無情,英偉達的GPU路線圖也是滾滾向前。2025年的「Blackwell Ultra」將帶來HBM內存容量提升與GPU算力提升,2026年將推出「Rubin」GPU,而後續產品「Rubin Ultra」則將在2027年與大家見面。

與此同時,英特爾於去年10月表示,其Guaid加速器銷售渠道總價值達20億美元;晶片巨頭又在今年4月補充稱,預計2024年Gaudi加速器的銷售額可達到5億美元。與AMD今年年內40億美元的GPU預期銷售額(我們認為這個數字被低估了,最終很可能達到50億美元)以及英偉達今年在數據中心計算領域可能拿下的1000億美元甚至更高數字相比(這裡僅計算數據中心GPU,不涉及網路和DPU業務),英特爾的這點成績算不了什麼。但考慮到這總值20億美元的渠道未來要成為Falcon Shores和Falcon Shores 2的消費出口,英特爾就表現得非常積極。

因此,英特爾在Computex簡報會上公布了產品的定價與基準測試性能,以期展示Gaudi 3與當前「Hopper」H100 GPU的直接比較結果。

英特爾的第一項比較面向AI訓練,選擇的是擁有1750億參數的GPT-3大語言模型和擁有700億參數的Llama 2模型:

AI晶片對決:英特爾GAUDI與英偉達GPU

以上列出的GPT-3數據基於MLPerf基準測試得出,而Llama 2數據則基於英偉達發布的H100結果與英特爾的估算。此番GPT基準測試運行在擁有8192個加速器的集群之上——其中英特爾Gaudi 3配備128 GB HBM,而英偉達H100採用80 GB HBM。Llama 2測試則對應僅有64個加速器的設備。

在推理方面,英特爾進行了兩輪比較:第一輪是對擁有128 GB HBM的Gaudi 3與擁有80 GB HBM的H100之間開展了一系列測試;第二輪則是將同樣128 GB HBM版Gaudi 3與擁有141 GB HBM的H200進行了比較。英偉達方面的官方性能數據發布在此(https://nvidia.github.io/TensorRT-LLM/performance/perf-overview.html),適用於採用TensorRT推理層的各類模型。而英特爾Gaudi 3的數據則主要基於預測。

首輪比較,H100 80 GB版對陣Gaudi 3 128 GB版:

AI晶片對決:英特爾GAUDI與英偉達GPU

次輪比較,141 GB版H200對陣128 GB版Gaudi 3:

AI晶片對決:英特爾GAUDI與英偉達GPU

面對當前熱辣滾燙的AI浪潮,我們先要做出兩點提醒。首先,用戶們最關心的就是如何挑選最具性價比的AI加速器。其次,只要相關產品能夠以合理的精度組合進行矩陣數學運算,而且可以運行PyTorch框架以及Llama 2或者Llama 3模型,那麼面對英偉達GPU的嚴重供應不足,這些產品就肯定有人願意買。

但英特爾並不滿足於此,而是想打造出真正擁有客戶吸引力的新產品:

AI晶片對決:英特爾GAUDI與英偉達GPU

在訓練方面,英特爾比較了使用Llama 2 7B、Llama 2 13 B以及GPT-3 175B測試時英偉達GPU的真實平均性能,並將結果與英特爾自家Gaudi 3的估算值進行了比較。在推理方面,英特爾則選取了Llama 2 7B、Llama 2 70B以及Falcon 180B的真實英偉達平均數據,同樣與Gaudi 3的估算值進行比較。

只要對這些性能/美元比率以及圖表中所示的相對性能數據進行逆向計算,就能發現英特爾假定英偉達H100加速器的成本為2.35萬美元;而對Gaudi 3 UBB進行同樣的簡單計算,會發現其成本為15625美元。

跟英特爾不同,我們會觀察一段時間之內的趨勢與更廣泛的峰值理論性能,藉此找出每單元對應算力與單位性能對應的售價(二者互逆)。為此,我們整理出一份小表格,將英偉達「Ampere」A100、H100以及Blackwell B100同英特爾Gaudi 2與Gaudi 3加速器進行了比較。雙方均採用帶有8個加速器的基板配置,具體如下:

AI晶片對決:英特爾GAUDI與英偉達GPU

請注意,這些數字是八路主板的數字,而非單設備性能數字。而目前大多數AI客戶仍然選擇單設備作為基本算力單元。

當然,我們也很清楚在對設備及其基板集群的計算、內存和網路進行性能評估時,每種AI模型都有自己的偏好與特點,所以具體性能肯定會因工作負載和環境設置而有所浮動。

我們還喜歡從系統的角度來思考,比如估算使用這些基板並添加雙插槽x86伺服器組合的成本。這套伺服器組合擁有2 TB主內存、400 Gb/秒InfiniBand網卡、兩塊1.9 TB NVM-Express閃存驅動器(用於作業系統)和八塊3.84 TB NVM-Express閃存驅動器(用於將本地數據傳送至UBB)。

我們的表格展示出這五種硬體的相對性價比。另外需要補充幾點,我們選擇了最適合作為性能比較基準的FP16精度來衡量這些設備,而且設備上沒有激活任何稀疏性支持,因為並非所有矩陣和算法都能利用稀疏性實現優化。如果大家想要親自計算,也可以選擇更低的計算精度。

根據黃仁勛在去年主題演講中的介紹,HGX H100基板的售價為20萬美元,這個數字也與我們在市場上看到的完整系統定價相一致。英特爾則告訴我們,帶有8個Gaudi 3加速器的主板售價為12.5萬美元。H100主板的額定算力為8千萬億次,而Gaudi 3主板的額定性能為7.34千萬億次,均是在FP16精度且不激活稀疏性支持的情況下測得。也就是說H100複合體的每千萬億次算力成本為2.5萬美元,而Gaudi 3的每千萬億次成本為17030美元——性價比高出32%,這一輪英特爾勝出。

現在,如果大家打算構建一套系統並添加更多昂貴的CPU、主內存、網路接口卡和本地存儲,那麼這種性價比差距就會開始縮小。按照我們之前概述方式配置的英偉達H100系統總價格可能在37.5萬美元上下。具有相同配置的Gaudi 3系統價格則在30萬美元左右——性價比僅比英偉達系統高出12.8%。

再加上相同的交換、支持、供電、環境以及管理成本,二者之間的差距還將進一步縮小。

所以如果大家對Gaudi 3抱有期待,不妨從系統層面考慮其性價比,並在自己的模型和應用場景內親自跑幾輪基準測試看看。

而最後一項值得探討的因素,就是英特爾公布的Gaudi 3收入和營銷渠道了。如果認真計算一下,就會發現5億美元只對應4000塊基板和3.2萬個Gaudi 3加速器。哪怕拋開僅理論上存在、實際上難以真正兌現的潛在需求空間,把Gaudi渠道中餘下的這15億美元全都算在Gaudi 3設備的銷售額頭上,那對應的也就僅僅是1.2萬塊基板和總計9.6萬個加速器的業務機會。相比之下,英偉達今年年內將售出數百萬張數據中心GPU。雖然不是每張GPU都是H100、H200、B100和B200這種高端乃至旗艦級產品,但必須承認,這些加速器貢獻的銷售額和利潤都不會低。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新