下一代至強將擁有更多核心、更大的緩存和更簡單的小晶片架構。
本周四,英特爾在紐約召開的AI Everywhere大會期間,公布了擁有更多核心、更大緩存以及機器學習功能的第五代至強Scalable處理器。
這家x86巨頭希望新一代至強晶片能夠吸引那些專用AI加速器的客戶,並宣稱該處理器「毫無疑問將是最佳AI用CPU」。的確,英特爾是少數幾家將AI加速設計(即高級矩陣擴展,即AMX指令)納入數據中心晶片的廠商之一,所以此番宣傳似乎所言不虛。
與Sapphire Rapids相比(這裡多提一句,Sapphire Rapids經歷了一年多的跳票、直到今年1月才正式上市),英特爾表示第五代至強的AI推理速度提升至1.4倍,並可為各類應用提供可接受的延遲表現——當然,僅限於體量較小的機器學習應用。
在深入研究英特爾的CPU加速AI策略之前,我們不妨先來看看這款晶片本身。儘管今年是至強產品家族的正常更新年,但與上一代相比,英特爾確實在幕後做了相當程度的改變,努力提高晶片的性能與效率水平。
更多核心、更大緩存
相較於前代方案,Emerald Rapids確實迎來了一系列顯著改進,而其中的典型表現就是更高的核心數量和更大的L3緩存。
這款新晶片將帶來最多64核心。對於一款2024年初才推出的晶片來說,這樣的數字倒也稱不上驚艷。畢竟AMD在2019年推出的Epyc 2就達到了這個水平,而且大多數晶片製造商、包括幾家雲服務商,目前都在部署72核、96核甚至是128核及以上的晶片。
好消息是,與今年1月上市的Sapphire Rapids不同,這次核心數量最多的型號並非單純面向大型四路或八路平台。也就是說,英特爾主流至強處理器的核心數量上限終於從之前的56個全面提升至96個。但壞消息是,如果大家需要一台大型多插槽伺服器,那暫時仍然只能選擇Sapphire Rapids。因為至少在明年之內,英特爾的第五代至強最多只能支持雙插槽平台。
肯定有朋友覺得英特爾會使用更多小晶片來增加核心數量,類似於去年AMD將其Epyc 4提升至96核的方式。但事實並非如此。
雖然仍須持保留態度,但至少在單一核心的比較中,英特爾宣稱其Emerald Rapids至強的性能最高可達AMD Epyc處理器的2.5倍。
總而言之,英特爾宣稱其64核心版本的第五代至強在各種基準測試中,均比同核心數量的AMD Epyc 4 9554處理器更具競爭優勢。當然,與往常一樣,請對這些說法持保留態度。雖然基準測試確實指出英特爾的單一核心較AMD更加強大,但這裡沒有考慮到AMD Epyc 4平台擁有50%到100%的核心數量優勢。因此,雖然英特爾的單核性能也許更強,但AMD仍可將更多核心塞進相同的雙插槽伺服器。
CPU對AI推理有意義嗎?英特爾認為答案是肯定的
由於市場對於AI加速器的需求遠超供應能力,所以英特爾正推動其Emerald Rapids至強作為理想的推理平台,並對晶片進行了多項顯著改進,旨在增強其AMX加速功能。
具體來講,英特爾調整了AVX-512與AMX模塊的睿頻頻率,旨在有關法律由激活這些指令帶來的性能損失。該公司聲稱,除了架構改進之外,某些工作負載的推理性能也比前代至強提高了42%。
然而,隨著GPT-4、Meta Llama 2和Stable Diffusion等大語言模型風靡一時,英特爾也開始討論在其CPU上運行小體量模型的能力。對於此類工作負載,決定性能的主要因素落在了內存帶寬和延遲之上。於是,新一代至強的4500 MT/秒DDR5無疑將有所幫助,但仍無法完全取代HBM。儘管英特爾實際上也開發過帶有HBM的CPU,但在Aurora和Crossroads超級電腦中使用的至強Max系列處理器在這一代並沒有新品問世。
根據英特爾的介紹,參數規模不超過200億參數的大語言模型完全可以在第五代至強上良好運行。
即使如此,英特爾表示在使用雙插槽至強平台的GPT-J模型當中,下一token的響應延遲(即響應提示詞而生成單詞或短語的速度)已經可以控制在約25毫秒左右。
但從圖表中可以看到,隨著參數規模的增加,延遲也將同步提升。不過英特爾表示,在運行Llama 2 13B模型時,第五代至強已經能夠將延遲控制在最低62毫秒,完全滿足晶片廠商們普遍設定的100毫秒標準。
據我們了解的情況,英特爾已經能在最高200億參數的模型上實現可接受的延遲。除此之外,晶片巨頭還通過分布式模型展示了可接受的下一token響應延遲,例如跨四個雙路節點的Meta 700億參數Llama 2模型。
儘管仍有局限,但英特爾堅稱其客戶已經在嘗試通過CPU運行大模型推理。當然,對此我們並不懷疑。以可接受的性能水平運行大語言模型或者其他機器學習工作負載,確實有望顯著降低成本,迴避當前已經極為誇張的GPU設備售價。
然而,對於那些希望運行更大模型(例如擁有1750億參數的GPT-3)的用戶來說,像英特爾自家Habana Gaud2這樣的專用AI加速器似乎短時間內仍不會到來。
說起這個,英特爾提到Gaudi 3將於2024年發布,並與英偉達的H100和AMD的MI300X正面競爭。不過,晶片巨頭並沒有具體透露該晶片的細節資訊。
好戲還在後頭
雖然英特爾的Emerald Rapids至強確實改進不小,但這款晶片的風頭卻仍被英特爾的下一代數據中心處理器搶走了大半。
過去幾個月間,英特爾一直在宣傳其性能與能效核至強處理器,代號分別為Granite Rapids和Sierra Forest。這些晶片有望帶來更誇張的核心數量,支持更大、更快的內存,並將成為首批採用英特爾推遲已久的真7納米(即Intel 3)製程工藝的產品。
其中Sierra Forest將於明年上半年推出,號稱能在單插槽系統中提供最多288個能效核心——即每計算塊144個核心。
另一方面,Granite Rapids則計劃在2024年晚些時候推出。根據我們從今年夏季英特爾Innovation大會上得到的消息,該處理器將採用新的模塊化小晶片設計,最多可包含三個計算塊、且兩面各設有一個I/O晶片。
英特爾尚未透露Granite Rapids將提供多少核心,但在今年夏季的Hot Chips大會上,晶片巨頭稱將提供136條PCIe通道和12條內存通道,並支持8800 MT/秒MCR DIMM。如此一來,晶片的內存帶寬將提升至約845 GB/秒,這無疑對大語言模型推理性能增益巨大。
當然,其他廠商也絕不可能坐視英特爾的新一代產品橫掃市場。AMD公司預計將在明年年內推出代號為Turin的第五代Epyc處理器。與此同時,各大主要雲服務商也先後公布了自家基於Arm架構的新款CPU。