由於英特爾的代工設施在製程工藝和封裝技術方面仍不及競爭對手台積電,因此晶片巨頭的伺服器CPU產品線也必須「將就」代工部門的當前水平,開發出兼具性能與價格競爭力的方案。也只有這樣,英特爾才能在x86領域與CPU老對手AMD以及正在數據中心內開拓CPU業務戰線的Arm陣營正面抗衡。
面對現實挑戰,英特爾決定將其產品線一分為二:其一為傳統至強核心(即所謂性能P核),其二為經過改進的Atom核心(即所謂能效E核)。更準確地講,與其說這是英特爾至強產品線迎來了新分支,倒不如說這是對英特爾十多年來產品開發原則的進一步強化。(「Knights Landing」至強Phi處理器屬於Atom CPU的高性能版本,首次搭載了AVX-512向量數學單元。該單元依託於伺服器核心之上,而此核心幾乎不可能在移動設備等平台上使用。)
但這種產品線劃分也有自己的風險,甚至從極端角度來看,這很可能成為決定英特爾未來命運的重要決策。
這一次,英特爾決定不再像過去那樣依靠Atom核心開發低端伺服器CPU、並嚴格限制主內存與I/O擴展,指望這類便宜產品能夠被企業客戶廣泛接納並大量採購,像過冬的罐頭食品那樣以量取勝。相反,晶片巨頭開始將大量Atom核心整合進真正的伺服器插槽當中,並配備真正的內存與I/O容量,通過標準至強伺服器平台提供出色的性價比與散熱性能,積極迎合標準至強性能P核和超線程技術難以滿足的高吞吐量工作負載的現實需求。
從長遠來看,也就是在未來五年左右,市場將決定這兩種幾乎採用相同指令集,但布局各異且每核心L3緩存大小不同的核心到底誰能勝出。AMD採取的也是類似的策略,而且做出的區分更加微妙:Epyc 9000系列「Genoa」變體中使用的就是其標準Zen 4核心,而「Bergamo」高核心數CPU以及「Siena」低發熱量伺服器CPU採用的則是Zen 4c核心。
另外需要注意的是,蘇姿豐在日前Computex 2024的主題演講中指出,雖然AMD目前在x86伺服器CPU出貨量中已經占據33%份額,但另外67%仍然由英特爾牢牢把控——而這還是在其代工部門不夠給力的條件之下。如今的晶片巨頭正在一步步走出困境。
英特爾預計將在2025年左右收拾好其代工設施方面的爛攤子,繼續憑藉豐富的優秀架構師資源發布出色的CPU設計,甚至可能憑藉其「Falcon Shores」項目推出具有市場競爭力的GPU產品。英特爾還在努力提高其封裝良品率。英特爾的大舉反攻,肯定會讓AMD和Arm陣營的日子越來越不好過。至強6產品線的兩大版本——包括在Computex上首度亮相的「Sierra Forest」能效E核晶片,以及計劃在今年第三季度推出的「Granite Rapids」性能P核晶片——將成為英特爾縮小伺服器CPU差距的第一步。到一年半之後,CPU市場真正的血雨腥風將最終襲來,我們預計在各方拼盡全力之後,x86領域的市場份額將繼續維持目前的比例。而在不久之後,Arm將逐步占據整體伺服器CPU出貨量的20%,RISC-V也將贏得一部分客戶的青睞。
換句話說,數據中心領域的CPU大戰還遠未結束。
一套架構,兩個目標
英特爾長久以來一直在強調能效E核與性能P核戰略,但在著眼於首批Sierra Forest晶片之前,我們不妨了解這項戰略中的一些核心原則。而英特爾之所以沒有一次性發布整個產品線,我們懷疑就是因為其用於製造Sierra Forest晶片的Intel 7與Intel 3製程工藝仍存在產能限制。
上圖所示,為我們根據英特爾公布的兩張圖表整理而成的結果。圖中顯示至強6的性能P核變體將主要面向AI工作負載,同時也適用於高性能計算(HPC)模擬與建模,以及其他一切強調核心處理性能的通用型工作負載。其實AI也只是計算密集型工作負載當中的一種,只是在這波生成式AI浪潮的影響之下,確實有更多企業客戶希望在自己的CPU集群當中本地運行AI工作負載,從而實現對生成式AI模型的預訓練或者配合自有業務數據對模型進行二次訓練。
由於能效E核晶片不具備AVX-512向量單元或者AMX矩陣數學單元,因此在AI和HPC運算方面很難發揮主導性作用。這些產品實際還是為傳統應用程序、列印、文件和Web服務所設計,但在某些情況下,E核的變體版本可能也足以支撐代碼規模相對適中的各類微服務應用程序。英特爾表示,影片流、媒體轉碼及其他類型的數據流處理都是能效E核晶片的理想應用場景。
在E核與P核設計中,內存和I/O控制器乃至用於CPU NUMA共享內存集群的UltraPath Interconnect(UPI)鏈接都與核心彼此分離,各核心共同構成一組、兩組或三組chiplet小晶片。2023年1月發布的「Sapphire Rapids」至強SP v4的每個小晶片上都設計完備,且每四個小晶片對應一個插槽。而隨著2023年12月發布「Emerald Rapids」至強SP v5,英特爾決定退而求其次,只使用兩個小晶片但增加總核心數量,且所有控制器仍與核心位於同一小晶片之上。對於低核心數及中核心數設備,Sapphire Rapids及Emerald Rapids也提供單小晶片的單片版本。
Sierra Forest至強6處理器上的核心複合體則採用7納米製程的Intel 3工藝製造,I/O及內存晶片則採用10納米製程的Intel 7工藝製造,與Sapphire Rapids和Emerald Rapids基本保持一致。
至強6處理器將分為兩個封裝版本,分別為6700和6900,二者又將按能效E核和性能P核做進一步區分。至強6家族暫時不會將E核和P核混合在同一封裝之內,但如果有採購量可觀的客戶表示興趣,英特爾也願意考慮製造。
下面來看6700系列與6900系列的性能規格:
本質上講,6700系列基本分為低核心數(LCC)、高核心數(HCC)和極端核心數(XCC)晶片,這些晶片通過EMIB封裝被整合在一起。但英特爾似乎沒有提供中核心數(MCC)版本。
下圖所示,為至強6 6700系列晶片的封裝樣式:
再來看6900系列晶片的封裝樣式:
至強6系列伺服器CPU將採取「錯峰式」發布節奏,據英特爾稱這是為了迎合客戶提出的需求。低端Sierra Forest E核晶片將率先推出,隨後於今年第三季度推出高端Granite Rapids P核晶片:
明年第一季度,更強大的Sierra Forest晶片將與全球用戶見面,其最多可提供288個核心,與其一道亮相的還有6300、6500和6700系列中的低端Granite Rapids晶片。Granite Rapids晶片還將推出SoC變體,估計大概率用於承載邊緣用例,其中強大的核心及向量/矩陣數學單元能夠從容應對AI推理負載。
英特爾之前從未推出過強大的Atom晶片,因此我們很難將其與現有至強SP及後續至強6高性能晶片直接比較。在演示中,英特爾倒是將Sierra Forest至強6 6700晶片同第二代至強SP處理器進行了比較,也就是代號「Cascade Lake」的那一款,當初是在2019年4月推出。根據英特爾公布的基準測試和我們自己的進一步分析,基本可以認定基於Atom的能效E核晶片每時鐘指令數與Cascade Lake至強SP的整數算力大致相同。如果不相信,大家也自己算算:Sierra Forest中E核的性能約為Emerald Rapids P核的65%,所以對比下來結論基本可信。
我們還將對至強6 6700E系列進行更深入的架構研究。從SKU堆棧來看,這是一套比較中庸的設計方案,只包含七種變體:
2025年第一季度,英特爾將通過雙計算塊加雙I/O及內存控制器塊將Sierra Forest晶片的性能提升一倍,這就是至強6 6900E。英特爾稱其為ZCC封裝,最多可容納288個核心。
很明顯,如果按照核心數量支付軟體費用,那麼能效E核版的晶片肯定得不到市場的認可。但如果大家選擇自主編寫微服務軟體或者按伺服器插槽計費,那麼軟體定價將不再是問題,而E核版本的至強6也將瞬間成為降低發熱量、控制基礎設施成本並實現合理吞吐能力的理想答案。
下面來看我們整理的性能與定價比較表,其中以2009年3月的四核版「Nehalem」至強E5500性能指標為基準。具體列出的則是各代處理器的核心數量、時鐘速率以及每周期指令數(IPC)。
Emerald Rapids至強SP v5處理器的「性能通用」高端版本可提供8至64個核心,對應16至128條線程。根據我們的計算方法,其相對性能範圍在5.85到27.78之間。按英特爾公布的1000托架採購量計算,其價格範圍應該在1099美元到11600美元不等。Sierra Forest晶片不具備超線程設計,核心數量在64個到144個之間(因此只對應64到144條線程),價格則從2749美元到11350美元,相對性能範圍為22.89至47.20——意味著其性價比較至強SP v5要高出19%到43%。換句話說,在功率恆定的情況下,Sierra Forest晶片可提供兩倍的性能;而在性能恆定的情況下,其功率只相當於原本的一半。當然,這都是非常籠統粗糙的表述,僅供參考。
與Cascade Lake至強SP v2伺服器CPU的比較結果同樣有趣。代表2019年最頂尖水平的Cascade Lake擁有56個性能P核和112條線程,運行主頻為2.6 GHz,可提供21.69個相對單元性能,但每單位性能成本超過了946美元。而2024年的低端Sierra Forest CPU則擁有64個能效E核,運行主頻為2.4 GHz,相對性能為22.89,而每單元性能成本僅僅120美元左右。從性價比角度來看,意味著五年時間這款晶片將性價比提升至7.9倍。而且與Sierra Forest系列中的低端至強6 6710E處理器相比,頂級Cascade Lake處理器的功耗更是達到驚人的400瓦。
頂級Sierra Forest 6700E處理器的性能可達低端版本的兩倍有餘,單位性能成本也基本是兩倍,因此與Cascade Lake頂配版本的比較優勢就只剩下一半——但3.95倍同樣是個不錯的成績。
在後續文章中,我們將進一步對Sierra Forest作出深層架構研究,同時對Granite Rapids展開分析和推測。更多內容敬請期待。