宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

2024年10月14日 首頁 » 熱門科技

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

對於仍在x86服務器CPU市場上占據三分之二出貨量的英特爾來說,其在製程工藝略有不足的情況下仍幾乎與AMD打成平手,這樣的事實簡直令人驚嘆。而在AMD這邊,其剛剛發布的「Turin」Zen 5和Zen 5c擁有著顯著的性能與價格優勢,這意味著儘管英特爾一直在努力優化自家x86服務器CPU,但AMD對於市場份額的蠶食仍在繼續。也就是說在不久的將來,隨著雙方製程工藝和性能的逐漸趨同,也許兩家廠商之一半閃電出手、掀起新一輪價格戰。

但這樣的未來顯然還沒有到來。目前,隨著各大主要超大規模計算廠商都在開發內部原研的Arm架構服務器CPU方案,英特爾和AMD則仍在積極與彼此競爭,就好像Arm浪潮根本就沒有發生。畢竟如果承認Arm替代方案的存在,就意味著x86晶片的價格也必須隨之降低,相當於是把大量收入和相當一部分利潤留給談判對手,而兩家x86廠商顯然都接受不了這樣的結果。所以總結來講,x86服務器CPU成為新的傳統技術層,而各大企業自製的Arm晶片正在重塑性價比曲線。總有一天,也許RISC-V又會以同樣的方式再革一次Arm架構的命。

與往常一樣,本文將帶大家從處理器的基本信息、速度和價格開始了解Turin系列CPU,之後再對架構進行深入探討。最終的收尾部分,則是從AMD的角度分析當前競爭態勢。

AMD在其Epyc處理器的開發旅程中已經取得了長足進步,而且坦率地講,對於這樣一家曾在2010年代放棄過數據中心市場的廠商,要想走出設計失利的陰霾、重新建立市場信譽,AMD也別無選擇。當時英特爾這邊推出了一條極具復興意義的64位至強產品線,其中借鑑了AMD Opterons的許多靈感,而且做得更好。時間快進到當下,這次輪到英特爾步履蹣跚,在製程工藝方面遠遠落後於AMD的代工合作夥伴台積電公司。這種遲遲無法轉向更先進制程工藝的現實,無疑給英特爾的服務器CPU設計師們造成了巨大的痛苦。自2019年以來,英特爾一直無法憑藉「設計優勢」在市場競爭中領先,而只能依靠「供應優勢」來勉強架招。時至今日,晶片巨頭的產品在技術層面仍然達不到AMD一方的高度。

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

在Epyc這幾代產品當中,晶片架構已經發展並改進到單塊Epyc CPU由9個、13個甚至是18個小晶片組成,這些小晶片相互連接並氣概在基板當中,因此在肉眼觀察和軟體調用角度看就像是過去的單片CPU。因此,Epyc晶片的市場占有率越來越高,在希望將儘可能多的核心塞進同一台設備、從而獲得更高每瓦每單元性價比指標(2000年代初我們將這項指標稱為SWaP,即空間、瓦數與性能的縮寫)的超大規模基礎設施運營商和雲服務群體中尤其受到歡迎。

隨著Epyc晶片設計的改進,人們對AMD的成見也逐漸冰釋消解。現如今Epyc產品線已經發展到完成成熟的新階段,沒有人會質疑AMD在服務器CPU領域牢固的市場地位,也沒有人會質疑其能不能打造出針對單插槽和雙插槽服務器的出色處理器。AMD的產品完全能夠與任何一家廠商的出品相媲美,整個市場上再無其需要仰望的對手。

但正如前文提到,我們認為在超大規模基礎設施運營商和雲服務商當中,x86處理器的價格總是高於自主研發的Arm服務器晶片,這是因為英特爾和AMD等廠商必須靠產品價格抵消掉所有管理費用。換句話說,任何不屬於超大規模基礎設施運營商和雲服務商的客戶,都必然需要為服務器計算支付高昂的費用。這是這塊業務的天性使然,根本不可能消除。

世界上大多數國家仍在Windows Server上運行難以被移植到Arm架構的x86應用程序,所以情況倒還不算緊急。可大多數新型應用程序已經開始面向Linux、而非過去的Windows Server所編寫,這類軟體能夠相對輕鬆地被移植到Arm架構,所以處理器廠商必須保持警惕。事實上,這種保持焦慮和緊繃感的習慣似乎才是更健康的經營態度。

鑑於x86服務器市場的現狀,我們很好奇AMD的市場份額到底能上漲到怎樣的水平。

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

這很大程度上取決於超大規模基礎設施運營商和雲服務商的行動速度,畢竟這部分客戶吃掉了服務器CPU出貨量的一半以上。如果他們能用Arm晶片滿足半數CPU需求,而另外一半繼續使用x86來支持傳統x86應用程序(從長遠來看,也就是Windows Server),則意味著CPU市場上仍有四分之三的份額屬於x86,其業務體量同樣相當巨大。但如果超大規模基礎設施運營商和雲服務商最終在服務器CPU出貨總量中占據四分之三,且只在必要時增購x86處理器來支持Windows Server和客戶希望在x86上運行的一部分Linux工作負載(這類用例也有其合理性),那麼英特爾和AMD就必然面臨巨大壓力。其市場份額很可能會上下波動,具體取決於兩家廠商所發起價格戰的激烈程度。這樣的預測還假設兩家廠商的設計和製程工藝水平相同,但從目前英特爾這邊的情況來看,此種推斷很可能並不成立。

Turin Zen 5和Zen 5c核心迎來了大量微架構變化。與Zen 4和Zen 4c核心相比,新一代核心的每時鐘整數指令數(IPC)提高了17%,浮點IPC則提高了37%。

注意:在以上表格中,當我們計算與運行頻率為2.8 GHz的四核「Shanghai」Opetron 2387處理器作為基準的相對性能時,只對整數工作負載進行比較;但在某些情況下,我們也會進一步比較並添加浮點運算的相對性能。

核心設計中的這種整數IPC改進幅度與以往的趨勢基本保持一致——「Rome」Epyc 7002系列比「Naples」Epyc 8001系列高15%;「Mila」Epyc 7003系列比「Rome」系列高出19%;而「Genoa」Epyc 9004系列又比「Mila」系列高出14%。隨著製程工藝的縮小,每個核心對應的L3緩存(「c」核心的L3緩存為2 MB,只有普通核心4 MB L3緩存的一半),這樣的晶片功能和布局使得AMD能夠持續擴展SKU堆棧。而這一次AMD公布的Turin技術棧覆蓋範圍更廣,共囊括27種不同的晶片;相比之下,英特爾的Granite Rapids性能P核與「Sierra Forest」能效E核至強6系列目前僅有十餘款SKU。

這顯然已經不是我們所熟悉的那個英特爾了,只能感嘆一句時代變了。英特爾計劃在2025年第一季度為Granite Rapids和Sierra Forest家族帶來更多低端SKU,而AMD則可能會為Turin以及3D V-Cache Turin-X晶片系列引入部分通信和邊緣計算變體,所以屆時兩方陣營的陣容可能會更趨平衡。

Turin晶片代表著基於Genoa的進化成果,所以這兩款晶片也必然要能夠插入相同的SP5服務器插槽。要想推出任何顛覆性的升級,往往都需要匹配新的插槽,而服務器買家和服務器設計師則希望一種插槽至少要能夠支持兩代產品。

在Turin晶片這邊,AMD採用了台積電的3納米製程工藝核心,I/O和內存晶片採用的則是4納米製程工藝,相較於Genoa核心採用的5納米製程工藝和Genoa I/O與內存晶片的6納米製程工藝有了相當大的進步。

下表所示,為使用標準Zen核心(而非「c」變體)的第五代產品的具體指標變動:

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

常規Turin產品中的核心複合晶片(CCD)有八個核心與32 MB的L2緩存,這些核心共享這32 MB緩存,在設計上延續Milan和Genoa晶片。隨著核心製程工藝的縮小,即從Milan的7納米到Genoa的5納米,再到Turin的3納米,AMD得以將16個核心加上I/O晶片塞進單一封裝之內,因此能夠將頂部核心數量從Milan的64個增加到Turin的128個。

Turin的L3緩存容量按比例增加至512 MB,且該處理器與Genoa一樣擁有十幾條DDR5內存通道。但是,Turin內存運行頻率為6.4 GHz,速度提高了50%,因此每個插槽的內存帶寬也增加了50%。這也恰好匹配了新款處理器相較於Genoa核心數量增加了50%的比例。Genoa和Turin設計均採用128條或160條PCI-Express 5.0 I/O通道,這也是為了適應SP5插槽的固有特性。

此次發布兩款Turin CPU變體不僅擁有不同的核心數量,而且搭配不同的CCD與相應排列,旨在專注於數據中心場景下的不同工作負載。

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

基於Zen 5 CCD的所謂「縱向擴展型」Turin晶片(如上圖左所示)擁有16個CCD,每個CCD對應8個Zen 5核心,總計128個核心和256個線程。「橫向擴展型」Turin晶片(類似於上代與標準Genoa處理器相對應的「Bergamo」系列)只擁有十幾個Zen 5c CCD,但由於去年了每核心2 MB的L2緩存並重新設計了CCD布局,因此每個Zen 5c CCD對應16個核心,遠多於Zen 5 CCD的8個。Zen 5和Zen 5c核心的布局不同,但功能相同。這與英特爾在Granite Rapids和Sierra Forest中的設計實踐形成了鮮明對比:前者只有一個普通的至強核心,即性能P核;後者則採用完全不同的Atom衍生核心,被稱為能效E核。雙方到底哪種設計更能贏得市場青睞,還需要時間來檢驗。

與之前的Epyc CPU系列一樣,AMD會先打造出適用於婦插槽服務器的標準Turin處理器,之後再據此設計面向單插槽服務器的特殊版本(即P版)。這些版本的NUMA電路經過壓縮,因此能夠在合理範圍內下調價格。Turin系列處理器還擁有F版變體,旨在滿足高性能工作負載的需求(F代表主頻增強)。我們猜測未來可能還會出現X版變體——可能會選擇英特爾發布新一波CPU公告的2025年第一季度——這些變體將擁有更大的L3緩存,用以增強高性能計算以及某些對緩存敏感的AI工作負載的性能表現。

我們閒言入敘,馬上來看迄今為止Turin家族旗下的Zen 5 SKU陣容:

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

下圖所示為Turin家族Zen 5c SKU陣容,這些變體擁有更高的核心數量、更大的吞吐量以及更具競爭力的性價比水平:

≈推出「Turin」服務器CPU,再催內力欲扭轉局面

這裡需要特別指出的是,與2009年4月(正值大衰退期間)推出的45納米製程「Shanghai」Opterons相比,AMD取得的進展令人矚目。

Opteron 2387是「Shanghai」系列中定位合理的中端產品,但只對應四款SKU。該晶片搭載4個「Shanghai」核心,運行頻率為2.8 GHz,不支持超頻且匹配6 MB的L3緩存,所有這些都集中在簡潔的75瓦熱功率設計範圍之內。如果以服務器行業的標準1000托盤規模來採購,則每塊晶片售價為873美元(請注意, 873美元為CPU價格,而非托盤價格)。

為了計算相對性能,我們將晶片的時鐘速率乘以核心數量,再乘以與「Shanghai」核心相比的累計IPC改進幅度。

頂級「Naples」Epyc 7601處理器擁有32個核心,運行速率為2.2 GHz,性能提高了10.37倍,按每單位4200美元的價格計算,則同等性能的售價為405美元。倒數第二的是「Rome」Epyc 7742處理器,其標準化程度比Epyc 7H12更高,主要面向高性能計算類工作負載。這款運行速率為2.25 GHz的64核晶片的相對性能躍升至24.40,而每單位性能成本則降低至285美元。接下來搶球怕是主頻2.45 GHz的64核「Milan」Epyc 7763晶片,其相比性能評分為31.61,性能提升主要源自微架構改進與時鐘速率增強,與核心擴展無關。「Milan」晶片的性價比略有下降,每單位性能價格為250美元。之後就是96核心的2.4 GHz Epyc 9654處理器,在我們的相對性能計量表中得分為52.94,晶片價格為11805美元,對應每單元性能223美元。

這裡需要強調一點,提高性能比優化性價比更容易。而且受到熱限制的影響,通過增加核心數量來優化性價比也要比通過提升時鐘速率來增強性能更簡單。

現在來到Turin,目前這款旗艦產品的普版Epyc 9755型號擁有128個核心,運行頻率為2.7 GHz,相對性能為92.93,售價則為12984美元。這相當於每單元性能僅140美元,可以看到AMD在性價比方面取得了很大進步。

更具體來講,與「Shanghai」Opteron 2387相比,Turin Epyc 9755的性能提高至92.93倍,價格上漲至14.9倍,功耗則增加至6.7倍,相當於在短短15年多的時間裡將性價比提高到了6.2倍。

Turin的Zen 5c版本又進一步拉高了性能與性價比。Epyc 9965擁有192個核心,運行頻率為2.25 GHz,相對性能為116.17,價格為14813美元,每單位性能價格折合128美元。與Epyc 9755相比,其峰值理論整數吞吐量性能高出25%,性價比則高出8.7%。

當然,大家也別先急著認為Zen 5c版本就比Zen 5版本更好,究竟如何選擇取決於工作負載對於緩存的敏感程度。大家還必須認真觀察完整的SKU堆棧,思考如何將工作負載與合適的SKU相匹配。如果對高串行性能比較重視,那麼就必須掏出更多越多白銀,以上表格已經清楚表達了這一點。想要更高的吞吐量,也同樣要用成本說話。但這顯然是AMD在晶片產能分配方面必須做出的取捨,可以理解也非常公平。

我們不會在這裡直接拿AMD Turin 5和Turin 5c跟英特爾的Granite Rapids與Sierra Forest進行比較。因為在我們看來,英特爾產品線之內的相對比較就足以說明問題。

首先,也可能是最重要的一點,核心數量更高的英特爾Sierra Forest型號雖然看似占優,但其性能卻明顯低於Granite Rapids系列晶片,只是價格更低且性價比更高。更確切地說,144核至強6780E的吞吐量比128核至強6980P要低24%,但同為頂級型號的前者在性價比方面卻高出16%。相比之下,我們在前文中已經提到,擁有192個核心的Turin 5c Epyc 9965其實要能比128個核心的Turin 5 Epyc 9755多完成25%的工作,且每單位工作成本還低出8.7%。

這明顯就是兩家廠商之間最大的策略差異了。

其次,我們再來看看英特爾在2009年至2024年之間同時期內的相對性能提升幅度。對於英特爾至強處理器家族,我們用來作為相對性能衡量試金石的服務器CPU,是其2009年3月推出的45納米製程「Nehalem」至強E5540,同樣是大衰退時期的產物。這是一款四核處理器,運行頻率為2.53 GHz,擁有8 MB的L3緩存、運行功耗為80瓦,1000托盤採購規模下每塊晶片價格為744美元。與這款經典的至強E5540相比,英特爾如今頂尖至強6 6980P的性能提高至62倍,功耗提高至6.25倍、達到了500瓦,價格則上漲至23.9倍、來到17800美元,性價比則提高至可憐的2.6倍。這裡再回顧一下,AMD在普版Turin處理器上實現了性能提升至92.93倍、功耗提高至6.7倍、價格提高至14.9倍,最終性價比提高至6.25倍的佳績。

在後續報道中,我們還將帶來關於Turin架構的深度剖析與競爭態勢分析,敬請期待!

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新