英特爾五代Xeon伺服器處理器上市，主攻100億參數內邊緣推論市場

今（12/14）英特爾第五代Xeon Scalable伺服器處理器（代號Emerald Rapids）上市。英特爾強調，有意用此產品進攻AI運算市場，尤其是100億參數以下的AI推論運算。

贊助商廣告

第五代Xeon Scalable相較前一代的主要升級內容包括核心數從60顆增為64顆、DDR5記憶體傳輸速度從4,800MT/s增為5,600MT/s、L3緩存（Last Level Cache，LLC）容量從112.5MB增為320MB、多顆處理器互聯速度從16GT/s增為20GT/s，也正式支持CXL 1.1 Type 3設備。原本外界預期這代CPU也會支持CXL 2.0，但這次並未正式註明支持。性能上，英特爾表示第五代Xeon Scalable相較第四代在一般運算、AI推論、高性能計算，以及網路和存儲吞吐量，分別提升了21%、42%、40%及70%。

安全做法上，英特爾機密運算技術TDX（Trusted Domain Extensions）在第4代CPU時只支持部分型號，現在則會支持第五代所有型號，且可以遷移TDX加密的VM到其他環境。第五代Xeon仍支持英特爾軟體防護指令集SGX（Software Guard Extensions），每個處理器與第四代一樣，最大可支持512GB容量的SGX Enclave。

第五代Xeon與第四代最大熱設計功耗（TDP）同為350瓦。不過，英特爾表示，第五代每瓦性能較前一代高出36%。不只如此，他們還進一步優化低CPU利用率（小於50%）時能耗。英特爾資深院士暨Xeon首席架構師Ronak Singhal表示，伺服器CPU常在20%至50%的低利用率運行。這個利用率範圍中，第五代耗電不僅較第四代低，在打開能源優化模式（Optimized Power Mode）後，更能在利用率為30%的狀態下達到比默認模式省110瓦的節能幅度。

圖中是兩代Xeon Scalable處理器在不同CPU利用率下的耗電走勢。30%CPU利用率時，第五代能源優化模式可以額外節省110瓦。最上面這條折線是第四代默認模式、中間是第五代默認模式，最下方則是第五代能源優化模式。圖-郭又華攝

這一代Xeon Scalable與第四代同樣使用Intel 7製程，採用LGA 4677插槽，及採用Eagle Stream平台，是此平台最後一代CPU。英特爾預計明年推出的CPU Granite Rapids與Sierra Forrest則會改用Birch Stream及Mountain Stream平台，插槽規格也會不同。

贊助商廣告

今天推出的Xeon Scalable中，英特爾公布了32款型號，涵蓋高性能、一般用途、5G網路、雲計算等運算需求。圖-郭又華攝

主攻AI推論市場，鎖定100億參數以下的模型推論

英特爾強調，此代CPU有幾項規格升級尤其有利於執行AI推論任務。例如記憶體帶寬和LLC容量增加，以及支持CXL 1.1 Type 3記憶體擴展，對於要求高記憶體帶寬的推論任務都有幫助。AI推論任務注重時效性，因此降低運算延遲也相當重要。前一代Xeon從單晶磚改為4晶磚設計，到了第五代，晶片設計又精簡為雙晶磚（Tile）設計。英特爾設計工程業務群資深院士暨首席架構師Sailesh Kottapalli表示，雙晶磚設計好處在於，運算任務需要較少跨晶磚溝通，因此能降低延遲。

上圖中，英特爾呈現了採取雙晶磚設計的第五代Xeon，延遲較4晶磚設計的第四代Xeon更短。右下圖表可分為兩組，上方是本機延遲，下方則是遠程訪問延遲。上半4個圖表中，左邊3直條分別為第四代Xeon不同晶磚利用模式的延遲時間，最右邊則為第五代延遲時間。訪問L3、L2及記憶體的延遲時間上，第五代大多低於第四代6至20毫秒。圖-郭又華攝

他們還專門強化了新CPU在特定AI任務的性能。例如，英特爾數據中心性能及競爭力營銷處長Allen Chu表示，客戶通常要求AI推論任務延遲最高不能超過100毫秒。不過，這在研發第五代Xeon Scalable初期，是無法達到的目標，經過特別優化後，才將延遲壓在目標範圍內。根據他們內部測試結果，若應用在聊天機器人、搜索及各式內容生成等任務，搭配60億參數GPT-J模型能做到延遲低於50毫秒，用更大一點的130億參數Llama2模型推論時仍低於75毫秒。

英特爾不諱言，第五代Xeon Scalable是瞄準100億參數以下模型的推論任務，因此他們強化CPU推論能力時，也聚焦在這個算力需求範圍。根據他們內部測試，應用在100億內參數LLM、推論模型及對象識別模型的訓練、即時推論（Real time inference）及批次推論（Batch inference），第五代表現比第四代高出了20%至40%。

贊助商廣告

第五代在AI任務的性能相較前代都有不同程度的提升（10%到44%）。英特爾公布他們進行3種AI任務的性能測試數據，包括不同AI模型在訓練、即時推論（Real time inference）及批次推論（Batch inference）的任務。以執行RNN-T批次推論而言，第五代表現是第四代1.44倍。圖-郭又華攝

上面數據呈現了兩代間AI運算性能進步幅度，那麼，第五代執行常見任務具體來說會花費多少時間呢？英特爾舉一個內部實測案例說明，他們利用400億參數的Falcon模型來將西語書籍翻譯成英語版，由4個第五代Xeon來執行脫機推論任務。這本書有200萬字符、1,300頁，翻譯時間總共耗時22分鐘。

針對雲地混合AI運算需求發展多種硬體產品及統一軟體開發工具

這次上市的新數據中心CPU，以及同日上市的電腦CPU Core Ultra，都是英特爾AI Everywhere產品布局一環。執行副總裁暨數據中心與AI業務群總經理Sandra Rivera表示，AI崛起是繼雲計算崛起之後第二波算力需求暴增。他們認為，如今AI從學術研究和概念驗證開始落地，成為真正可帶來商業價值的技術，會為企業創造更多算力需求。但凡金融、醫療、零售及製造，都是他們看到已經大規模應用AI的垂直產業。

英特爾對AI Everywhere的想像及軟硬體布局。圖-郭又華攝

Sandra Rivera說，AI算力市場中，有足夠資源和能力訓練大型AI模型的企業非常少，大部分AI用戶都是在做邊緣推論、模型微調，或是根據自有數據訓練特定用途小型模型。她也引述英特爾首席執行官Pat Gelsinger對整體AI需求的觀察：「多少人做天氣模型，又有多少人會用？這就是訓練與推論市場的差別，真正戰場在推論。」

英特爾有多看好邊緣推論市場？Sandra Rivera表示，他們預估AI推論市場增長幅度會是訓練市場2倍，尤其是於邊緣執行推論。企業邊緣推論需求來自於降低延遲、控制成本及能耗，以及確保數據隱私性。這個需求崛起，會促使雲地混合AI（Hybrid AI）模式成為主流，也就是將AI運算任務分散於雲計算及地端，成為AI Everywhere的現象。

贊助商廣告

產品布局策略上，英特爾今日推出的Core Ultra及第五代Xeon Scalable分別是針對PC及伺服器AI推論需求的CPU。針對更強算力需求，則有Data Center GPU Max跟Flex系列，以及AI加速卡Gaudi系列產品。軟體方面，他們則是提供OpenVINO開發者工具，喊出「Write once, deploy everywhere」口號，要讓用戶只須寫一次支持AI模型及應用部署的程序代碼，便能部署前述不同硬體環境。