英特爾近期一直在討論其「Granite Rapids」至強6處理器,熱度之高致使很多人甚至忘記了該產品尚未正式推出。

但如今,「Granite Rapids」伺服器CPU系列的旗艦產品終於正式亮相,正趕上人們普遍預計AMD公司將在幾周之後發布其「Turin」第五代Epyc處理器。雖然我們相信AMD將繼續擴大其市場份額,但今年6月公布的Granite Rapids以及「Sierra Forest」至強6晶片組合哪怕無法徹底扭轉頹勢,也至少能夠幫助英特爾減緩在數據中心CPU領域的市場份額流失。
老實講,考慮到AMD憑藉與台積電公司的合作繼續在晶片製造工藝方面處於領先地位,再加上英特爾自身在代工業務方面遭遇的困境,這可能已經是晶片巨頭所能期待的最好結果。
之前就曾有報道反覆指出,CPU的勝利可以分為設計勝利和供應勝利兩條路線。前幾代至強處理器明顯只是供應能力上的勝利,但公平地講,Sierra Forest與Granite Rapids已經開始獲得一定程度的設計勝利,只是英特爾目前賴以稱霸市場的仍主要是其供應優勢。
至強6晶片的能效E核與性能P核變體所對應的晶片封裝與架構,早在Hot Chips 2023大會上就已經披露。根據今年夏季我們對Sierra Forest的深入研究來看,英特爾希望以產品線分叉的方式在當前激烈的伺服器CPU競爭中殺出一條血戰,藉此填補至強6技術和戰略中的諸多空白。所以簡單來講,我們將在明年年初正式迎來Granite Rapids的完整陣容,同時也將看到下一步至強6晶片的發展路線圖。
我們後續也將對Granite Rapids架構開展深入研究,在今天的文章中,我們先將關注重點放在英特爾為Granite Rapids選擇的競爭定位,並將Granite Rapids同2022年11月推出的當前第四代「Genoa」Epyc 9004晶片、2023年6月推出的「Gergamo」Epyc 97X4晶片(其核心數量與Sierra Forest一樣迎來了增加)以及即將推出的「Turin」Epycs進行對比。(AMD Advancing AI 2024大會將於10月10日在舊金山舉行,這場活動也大概率將成為Turin處理器的發布舞台。)
Granite Rapids處理器基於「Redwood Cove」性能P核,是對Sapphire Rapids以及Emerald Rapids中所使用的「Golden Cove」核心的更新。與Golden Cove核心相比,Redwood Cove核心在整數工作負載上的每時鐘指令數(IPC)增加了5%到7%,雖然只是名義上的增長同,但畢竟也值得肯定。這裡我們就取6%的IPC增幅,來與之前幾代至強處理器進行比較。英特爾方面曾提醒我們不要過多關注IPC這項常用指標,但必須承認,它在CPU處理器的性能比較方面確實有用。
英特爾高級研究員兼至強6家族首席架構師Ronak Singhal在採訪中解釋稱,「我最近確實做過一場小演講,表示人們對於IPC有點過度關注了。其實我的意思是,如果我的內部團隊找過來,向我提交一個IPC增幅為5%的核心和一個IPC增幅為15%的核心,那我會怎樣判斷哪種更適合至強晶片使用?答案是,這要取決於其他參數,特別是功率。如果5%的IPC增幅根本不需要額外提高運行功率,而15%的IPC增幅要求多耗費30%的功率,那麼在功率受限的場景當中,這兩個選項的基本水平大致相同,反而前者的架構可能沒那麼複雜。因此雖然每個人都喜歡討論IPC,但我覺得功率受限條件下的性能也同樣值得關注。之所以這麼說,是因為Granite Rapids核心在很多方面更注重降低功耗,而不是提高IPC。」
這種說法確實合理,我們表示接受。從這個角度來看,如果使用兩個Emerald Rapids CPU(即四塊晶片)並配合上Intel 7製程(實際上是10納米工藝),就能構建起一個112核的計算複合體,其功率將超過700瓦——也就是常規插槽的兩倍。而如果使用同樣兩個Emerald Rapids CPU(也是四塊晶片)並將其製程縮小至Intel 3(有說法認為類似於常規的5納米工藝,也有人認為更接近3納米工藝),那就能在大致相同的功率之下將性能提高一倍。也就是說單憑製程升級,同樣兩倍於原始晶片的700瓦功率所能實現的IPC將完全不同。
在Granite Rapids這邊,英特爾將核心數量從之前兩款性能P核處理器的56個核心提升至120個核心,增幅達到2.3倍;而頂部bin部分的功率僅增加至500瓦,增幅只為1.4倍。
當然,實際情況要更複雜一些,因為Granite Rapids和Sierra Forest在封裝中的多個晶片之上混合使用了Intel 3與Intel 7製程。在Sapphire Rapids與Emerald Rapids當中,英特爾將I/O和內存控制器同計算核心放在了同一晶片之上。但在Sierra Forest和Granite Rapids當中,I/O控制器與計算核心則彼此分開,並採用不同的製程工藝來實現,具體如下圖所示:

至強6系列處理器中有四種不同的性能P核計算/內存晶片與I/O晶片組合,其中之一就是此番推出的高端超核心數(UCC)變體。
Granite Rapids至強6變體中的計算模塊數量相對較少(兩個用於超核心數XCC變體,一個用於高核心數HCC變體),還有一種具有較小計算模塊以及兩個I/O晶片的變體,被稱為低核心數LCC。它們將在2025年左右推出。
下圖所示,為核心晶片封裝示意:

此次公布的Granite Rapids UCC封裝被稱為至強6 6900P,其中包含運行速率高達6.4 GHz的DDR5內存以及可推高至8.8 GHz的多路復用雙列直插(MRDIMM)內存。由於擁有兩個I/O晶片(這種設計在UCC、XCC、HCC和LCC上是一致的),其插槽允許將任意晶片直接插入任何「Birch Stream」平台。該平台還支持Sierra Forest及其後續產品「Clearwater Forest」,後者計劃於明年年內配合英特爾18A(1.8納米)製程推出。
Granite Rapids封裝支持最多96條PCI-Express 5.0通道,還可以運行CXL 2.0一致性內存協議。這些封裝還擁有高達504 MB的L3緩存,遠遠超過常見的英特爾晶片緩存容量。
據我們所知,此次發布的Granite Rapids晶片並不提供可支持四插槽和八插槽伺服器的變體,著實令人感到遺憾。Sierra Forest至強6(尚未確定,但結合相關用例估計也不支持)和2023年12月推出的上一代「Emerald Rapids」至強SP v5晶片也是如此。後者對應一條更廣泛的至強SP產品線,並且可能具有擴展的NUMA集群。要想讓CPU支持四路和八路NUMA,用戶只能選擇2023年1月推出的「Sapphire Rapids」至強SP v4晶片。
順帶一提,由於六條UltraPath Interconnect NUMA鏈路以24 GT/秒的速度運行,因此英特爾及其OEM/ODM合作夥伴放棄使用Granite Rapids晶片製造擁有兩個以上插槽NUMA設備明顯並非出於技術原因。換句話說,技術標準所能提供的容量和鏈接數是完全夠用的。
英特爾尚未透露Granite Rapids計算模塊的核心數量,但根據目前披露的Intel 3製程產能推斷,我們可以合理認為其將擁有48或者45個核心。至於搭載128核心的UCC變體,則需要布置奇數塊晶片才能使其發揮作用(我們非常討厭無法對稱分布,特別是這種非偶數塊晶片的設計)。每塊計算晶片都對應四個DDR5內存控制器,總計12個,跟當前大多數高端CPU保持一致;同時搭載MRDIMM內存,這使得Granite Rapids的有效帶寬達到了Emerald Rapids的2.3倍。
下面這份摘要圖表非常重要,展示了至強6性能P核與能效E核變體之間的差異:

儘管至強6處理器的性能P核與能效E核變體均使用相同的I/O晶片,但很明顯,能效E核版本這邊有部分功能並沒有激活。細心的朋友可能已經注意到,對於單插槽設計,性能P核6700系列晶片可提供136條PCI-Express 5.0通道,而能效E核晶片上的虛擬內存尋址容量要低得多——這也有其道理,因為E核晶片只用於一到兩個插槽、而非多達八個甚至更多插槽的機器。能效E核使用的向量數學單元也有區別,只有性能P核採用AMX矩陣單元。圖表顯示,能夠支持四插槽與八插槽的性能P核至強6晶片將稍後推出。
這就讓我們對於Granite Rapids的SKU棧有了基本認識,其構成相對適中,只有五種不同變體,具體如下圖所示:

Singhal在發布會前的簡報中表示,谷歌和亞馬遜雲科技正在為其設施採購定製版至強6處理器,相信其他企業客戶也是如此。
為了便於比較,下圖為Sierra Forest至強6 SKU參數表格,同樣只分為7種不同型號:

以下是去年公布的Emeralds Rapids SKU參數表格:

與往常一樣,我們對於任意給定型號至強晶片的相對性能數據,仍然是根據2009年發布的「Nehalem」至強E5540處理器作為基準比較而來。後者擁有4個核心,運行速率為2.53 GHz,配備8 MB L3緩存,運行功率為80瓦。為了計算相對性能,我們將核心數量乘以每種晶片型號的時鐘速率,再乘以每代晶片的IPC累計增量。
由於一直都在根據IPC進行晶片性能計算,這裡就姑且繼續沿用。經過計算,Redwood Cove核心的整數處理性能比15年前的Nehalem核心高出2.42倍,已經是相當不錯的架構增強效果。與Nehalem相比,Granite Rapids的核心數量增加了32倍,但所有核心的時鐘速率都下降了21%,對應功耗則增加了6.25倍。
這就是晶片業務的疊代方式。
大家可能還注意到以上Garnite Rapids表格中的另外一項重要資訊:價格以紅色粗斜體標明。沒錯,英特爾還沒有公布Granite Rapids至強6晶片的價格。我們顯然不贊成這種遮遮掩掩的方式,指導價格可以是一個上限,由客戶們協調議價,而且大家也都知道晶片廠商都有設定好的優惠空間。
正如大自然厭惡真空,我們的讀者朋友也不喜歡開天窗。所以我們根據過往至強SP處理器的定價儘可能估算了Granite Rapids的售價。從結果來看,這可能是英特爾在至強品牌之下推出的最昂貴的數據中心CPU(Itanium不算,那完全是另外性質的產品)。如果大家有關於價格數字的內幕,請與我們還有廣大讀者朋友分享。

最後提醒大家,明年年初還將有更多消息公布,各位不妨參照以上圖表一一核對查驗。