從過去幾周英特爾在各類活動中的表述來看,特別是參考Hot Chips 2023和英特爾Innovation 2023大會上發布的消息,晶片巨頭的製程工藝路線圖及其伺服器處理器設計思路將保持統一,共同為明年發布的至強SP系列CPU提供競爭力支撐。
當然,英特爾與AMD Epyc晶片、Ampere Computing旗下各Arm產品,包括其他超大運作模式基礎設施運營商和雲服務商的原研Arm伺服器CPU之間仍有一定差距。但憑藉著雄厚的渠道資源支持,英特爾仍有望以無所不達的銷售網路和對舊有製程工藝的極限壓榨取得商業上的成功。至少在特定應用負載之上,英特爾家的CPU仍保持著技術與經濟的雙重優勢。
但如今英特爾的地位已然動搖,所以必須設計好多戰線的競爭格局,憑藉明年發布的高性能P核和高能效E核設計帶來更令人眼前一亮的成果。
當然,這已經不是英特爾第一次在伺服器市場上參與多線作戰了,甚至AMD也不是。英特爾和AMD在之前的架構中都曾經歷過性能核與能效核並存的階段,只是這次情況更加特殊。英特爾當初面向客戶端設備的凌動系列晶片擁有出色的512位AVX矢量引擎、ECC內存清理機制、伺服器級虛擬化等功能,並成為2015年針對高性能計算工作負載的「Knights」多核處理器產品線的基礎。而在AMD這邊,2016年1月推出的「Seattle」Opteron A1100處理器希望挽回Opteron家族的頹勢,其上搭載的正是低功耗Arm Cortex-A57核心。此舉希望能將Opteron品牌打造成更強大、更高端的Arm伺服器CPU產品線,甚至在設計上支持用EDA全局替換將Arm轉為X86核心。(雖然最終沒能用上。)
對於英特爾和AMD來說,這次的情況明顯有所不同。因為大型伺服器買家(即超大規模基礎設施運營商和雲服務商)及原始設備製造商(戴爾、HPE、聯想、浪潮、華為及思科等)都已向雙方提出明確要求:請在單一伺服器平台內創新,不要搞跨伺服器平台創新。客戶們的需求很簡單,插槽之內任你怎麼折騰,但千萬別跨架構。
正因如此,AMD才決定在今年推出第四代Epyc處理器。正常來講其代號應該為「Genoa」,但此次卻多出了「Bergamo」和「Siena」等子代號,分別配備Zen 4性能核和Zen 4c能效核(二者最大的區別是核心的L3緩存容量)。英特爾這邊則計劃推出第五代至強SP,各版本同時支持能效E核和性能P核,且無需對插槽或平台做任何調整。英特爾的策略就是維持兩種不同取向的核心,之後在構建SKU棧時靈活組合以覆蓋更多負載需求。AMD和英特爾似乎都不想在單一插槽之內混合搭配不同核心,這也可以理解。畢竟至少對現代數據中心的運行需求來說,在機架層級做性能/能效混合已經足夠,進一步細分純屬勞民傷財。
在Hot Chips大會上,英特爾伺服器晶片架構師Chris Gianos(之前曾參與過安騰晶片和Digital Equipment公司多代處理器產品的研發)談到了下一代至強SP的整體架構,並介紹了「Granite Rapids」性能核至強SP的某些功能特性。曾在惠普研發HP 9000和安騰處理器的現任英特爾晶片設計師Don Soltis則介紹了搭載能效E核的「Sierra Forest」至強SP處理器。
Gianos表示,這些設計中去掉了用於南橋I/O的外部獨立PCH晶片組。但我們也可以合理推測,PCH功能實際上是被加上PCI-Express、以太網和UltraPath互連(UPI),再配合各種控制器和加速器共同塞進了兩個小晶片當中。值得注意的是,英特爾第六代至強SP架構的內存控制器並非位於I/O晶片之上,而是位於核心加緩存複合體之上。
Gianos解釋道,「我們認為把這些要素結合起來非常重要,因為這是個理想的優化方向,在性能和計算密度方面都有積極意義。」
很明顯,為了進一步充實第六代至強SP的SKU棧,英特爾可以向其中添加不同數量的I/O晶片和計算晶片,並根據相應的價格設定和功率水平分別激活對應配置。而且本周Innovation 2023大會也傳出消息,隨著288核Sierra Forest能效核版本的發布,英特爾能夠進一步提升第六代至強SP的規格,將其「Advanced Platform」(AP版)產品的核心數量再增加一倍。整個思路跟2019年4月發布的「Cascade Lake」Advanced Platform至強處理器完全相同,當時這款產品就是為了縮小與AMD在每插槽核心數量上的差距。目前我們還沒有看到Granite Rapids性能核版本的Advanced Platform雙倍核心版本,但只要英特爾願意,相信完全可以做到。
Gianos還特意強調,英特爾打造的是一套模塊化伺服器晶片架構,能夠在插槽內靈活調整不同要素的比例,藉此滿足更廣泛的用例和客戶場景。
英特爾正使用其2.5D嵌入式多晶片互連橋(EMIB)這項多晶片封裝技術將小晶片粘合起來。EMIB是英特爾針對台積電晶圓基板上晶片(CoWoS)2.5D封裝技術的回應之舉,後者已經被廣泛應用於GPU及各類加速器晶片。展望未來,英特爾可以使用其Foveros 3D晶片封裝為至強SP設計添加垂直L3緩存擴展,思路與AMD在其Milan-X和Genoa-X處理器上使用的3D-Vache非常相似。
上圖所示,為英特爾在第六代至強SP晶片中可能提供的不同選項,但我們猜測Granite Rapids和Sierra Forest各自只能使用其中部分選項,因為其SKU棧也是分別針對不同產品線設計而成。Gianos表示,總體來講,英特爾可以使用最右下設計提供低至個位數核心加極高I/O容量的至強SP晶片,也可以根據客戶需求在居左的小晶片設計中將核心數量增加至三位數。
能效核系統將支持單/雙插槽,就是說I/O晶片中的某些UPI鏈路將被禁用;而性能核系統將提供單、雙、四、八插槽,且激活的UPI鏈路數量也相應增加。每個核心小晶片將擁有4個內存控制器,可支持DDR 5或MCR內存(後文將詳細介紹),因此最高規格的第六代至強SP將擁有12個內存控制器為晶片提供服務,每通道可對應單/雙DIMM,具體取決於客戶對容量和帶寬的需求。這兩個I/O晶片可提供144條UPI互連通道(共6個埠,即每I/O晶片3個埠)和136條PCI-Express 5.0互連通道(即每I/O晶片68條通道)。我們推測,這些PCI-Express通道中將有半數能夠支持CXL 2.0內存協議。但英特爾最終也有可能選擇全部兼容CXL 2.0,這就屬於意外驚喜了。
根據Gianos的解釋,英特爾還打算在第六代至強SP上打造所謂「虛擬單體晶片」,將至強E5/E7和至強SP處理器已經使用十餘年的片上網格互連擴展至可跨EMIB互連。Gianos表示,任意小晶片中的任意元件都可以與該擴展網格上的任意其他元件進行通信,類似於經典單體晶片設計。此外,連接晶片組的EMIB邊界將提供超1 TB/秒帶寬,以確保整個網格體系能夠快速、順暢互連互通。
Gianos補充稱,在Granite Rapids設計中,高端SKU將有「超0.5 GB」的末極緩存。英特爾也證實,他們會在小晶片級別上建立sub-NUMA集群,通過這一默認模式跨小晶片分配工作負載並提供內存/計算局部性。
下圖所示,為第六代至強SP的計算晶片架構,這裡以Granite Rapids性能核版本為例:
我們知道,採用三顆小晶片的全尺寸能效核Sierra Forest在單一封裝中最多可提供144個核心。每個核心塊配備3 MB的LLC緩存。根據Soltis的介紹,每個核心塊中容納4個能效核,相當於每個小晶片對應48個核心、折合12個核心塊。此外,每個小晶片擁有36 MB共享L3緩存,因此144核三晶片網格共有108 MB共享L3緩存。包含4個能效核的單一核心塊擁有4 MB L2緩存,每個小晶片都有12個核心塊,因此每個小晶片擁有48 MB L2緩存,每個Sierra Forest整體封裝擁有144 MB L2緩存(不到AP版的2倍)。但從速度測試來看達不到這個水平,所以此處推測可能有誤。
在性能核這邊,計算方式則略有不同。每個核心擁有4 MB L3緩存和專用的2 MB L2緩存。所以Granite Rapids的實質,就相當於把Sierra Forest中的4顆能效核及其緩存取出,再換上相應的性能核及其緩存。憑藉超過512 MB的L3緩存,理論上Granite Rapids的非AP版本在每個插槽上可提供超128個核心。性能核的2個線程都支持HyperThreading超線程功能、擁有1個AVX-512矢量單元和1個AMX矩陣單元。從配置上來看,Granite Rapids版的發熱量無疑會高於Sierra Forest。
順帶一提,128核這個數字跟Soltis在演講中的表述有所出入:「從概念上講,我們就是直接把性能核替換成了能效核。除此之外,其他所有設計都是完全相同的,後續我們還會推出其他基本相同設計的晶片。」
如果真是如此,那麼Granite Rapids最多也只能容納36個核心,這個數量肯定不夠用。所以推測Granite Rapids的最高配能容納3個核心塊,而Sierra Forest最多只能容納2個核心塊。
如果以上判斷正確,那麼每個能效核小晶片可能承載80個核心——也許是在4個核心上採用10 x 2的網格設計。但考慮到該晶片的實際利用率只有90%,那麼活動核心就是72個,對應的是18個活動能效核心塊、54 MB共享L3緩存和72 MB L2緩存。這樣2個小晶片就能容納36個能效核心塊,對應144個核心、108 MB共享L3緩存和144 MB L2緩存。
現在我們取3個這種小晶片,把能效核換成搭載4 MB共享L3緩存和2 MB L2緩存的性能核。這樣考慮單一核心塊上完整搭載20個核心的情況,也就是60個核心。我們假設英特爾用盡了所有針腳、打造出一款全部核心都能正常工作的版本,那其核心數量也仍然有限。除非英特爾能想辦法把這個數字再翻倍至120核,否則我們實在想像不出來哪裡還有設計AP版的空間。
憑著直覺,我們認為普版Granite Rapids對應的可能是72核心加288 MB L3緩存,就是說Granite Rapids的AP版將倍增至144核心加576 MB L3緩存——而且這一切只能分布在3個小晶片上。這倒是符合Gianos在演講中提到的「超過512 GB的LLC」。按這個結果來倒推,就是說英特爾會設計一款能效核小晶片,它的網格中可能容納84個核心;再結合英特爾關於Sierra Forest的介紹,在85%的良品率下,其實際可用核心為72個。如果說Sierra Forest確實只能容納2個計算小晶片,那……
不說了,這裡有太多的假設和猜測,我們至此為止。
Soltis提到,Sierra Forest也將提供多種變體,比如只激活一半的核心。所以有些版本雖然出廠時有72個核心,但卻只能提供72個線程,不過也許其時鐘速率會更高一點、高每個線程都稍強勁些。
在被問及性能核跟能效核該如何比較時,GIanos表示其實二者之間的差異並沒有固定的比例。但基本可以確定,能效核心的時鐘速率應該更低,而且性能核的單線程性能應該在能效核的2倍以上。但具體再高出多少就很難說,估計可能在20%到25%的水平;再考慮到性能核上搭載的AVX-512和AMX單元,其發熱量應該也相應高出20%到25%。但據我們所知,通過剝離掉這些額外單元、並在能效核中使用兩個更小的128位AVX矢量單元,英特爾沒準可以在相同的發熱量之下讓能效核獲得高於性能核的時鐘速率。
但實際情況究竟如何,恐怕只有時間能給出答案。
下面來看性能P核的介紹圖表:
再看能效E核的介紹圖表:
Sierra Forest和Granite Rapids都將採用Intel 3製程工藝,有人說其基本對應台積電的5納米工藝,也有人認為其已經更接近3納米工藝。但最重要的是,Intel 3肯定不是7納米或者10納米工藝,其製程精度已經相當領先,足夠讓英特爾的架構優勢發揮出實際效果。
性能核和能效核都採用64 KB L1指令緩存,這對保持核心的高負荷運轉非常重要。我們認為L1指令緩存越大,就能更好地掩蓋其小晶片、而非單體晶片設計所帶來的延遲。緩存為王,此言非虛……
Soltis還深入介紹了能效核架構。這是一種不同的架構,在英特爾內部的代號為「Sierra Glen」。(這一代性能核的代號為「Redwood Cove」,是對已經上市的第四代「Sapphire Rapids」至強SP處理器中使用的「Golden Cove」性能核的升級產物。)其正面布局如下所示:
再來看指令引擎單元的構成:
執行單元如下所示:
整數和矢量性能間也有合理的平衡點,Soltis表示能效核中的AVX單元(並非AVX-512或者AVX-10)將支持INT8、BF16和FP16格式,但沒有提及是否支持FP32和FP64。
再來看能效核的背面布局,包括32 KB L1數據緩存和4 MB L2緩存,後者由同一核心塊內的雙/四能效核心共享:
Granite Rapids和Sierra Forest的I/O晶片完全相同,因此二者才能共享同樣的設計平台。
英特爾在第六代至強SP上使用的UPI鏈接速度稍慢,但帶寬也略微增大,這明顯比之前的至強SP有了更好的NUMA性能平衡。片上加速器的接口帶寬也迎來倍增,可藉此提高運行效率。