宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場

2023年12月15日 首頁 » 熱門科技

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


今(12/14)英特爾第五代Xeon Scalable伺服器處理器(代號Emerald Rapids)上市。英特爾強調,有意用此產品進攻AI運算市場,尤其是100億參數以下的AI推論運算。

第五代Xeon Scalable相較前一代的主要升級內容包括核心數從60顆增為64顆、DDR5內存傳輸速度從4,800MT/s增為5,600MT/s、L3緩存(Last Level Cache,LLC)容量從112.5MB增為320MB、多顆處理器互聯速度從16GT/s增為20GT/s,也正式支持CXL 1.1 Type 3設備。原本外界預期這代CPU也會支持CXL 2.0,但這次並未正式註明支持。性能上,英特爾表示第五代Xeon Scalable相較第四代在一般運算、AI推論、高性能計算,以及網路和存儲吞吐量,分別提升了21%、42%、40%及70%。

安全做法上,英特爾機密運算技術TDX(Trusted Domain Extensions)在第4代CPU時只支持部分型號,現在則會支持第五代所有型號,且可以遷移TDX加密的VM到其他環境。第五代Xeon仍支持英特爾軟體防護指令集SGX(Software Guard Extensions),每個處理器與第四代一樣,最大可支持512GB容量的SGX Enclave。

第五代Xeon與第四代最大熱設計功耗(TDP)同為350瓦。不過,英特爾表示,第五代每瓦性能較前一代高出36%。不只如此,他們還進一步優化低CPU利用率(小於50%)時能耗。英特爾資深院士暨Xeon首席架構師Ronak Singhal表示,伺服器CPU常在20%至50%的低利用率運行。這個利用率範圍中,第五代耗電不僅較第四代低,在打開能源優化模式(Optimized Power Mode)後,更能在利用率為30%的狀態下達到比默認模式省110瓦的節能幅度。

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


圖中是兩代Xeon Scalable處理器在不同CPU利用率下的耗電走勢。30%CPU利用率時,第五代能源優化模式可以額外節省110瓦。最上面這條折線是第四代默認模式、中間是第五代默認模式,最下方則是第五代能源優化模式。圖-郭又華攝

這一代Xeon Scalable與第四代同樣使用Intel 7製程,採用LGA 4677插槽,及採用Eagle Stream平台,是此平台最後一代CPU。英特爾預計明年推出的CPU Granite Rapids與Sierra Forrest則會改用Birch Stream及Mountain Stream平台,插槽規格也會不同。

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


今天推出的Xeon Scalable中,英特爾公布了32款型號,涵蓋高性能、一般用途、5G網路、雲計算等運算需求。圖-郭又華攝

主攻AI推論市場,鎖定100億參數以下的模型推論

英特爾強調,此代CPU有幾項規格升級尤其有利於執行AI推論任務。例如內存帶寬和LLC容量增加,以及支持CXL 1.1 Type 3內存擴展,對於要求高內存帶寬的推論任務都有幫助。AI推論任務注重時效性,因此降低運算延遲也相當重要。前一代Xeon從單晶磚改為4晶磚設計,到了第五代,晶片設計又精簡為雙晶磚(Tile)設計。英特爾設計工程業務群資深院士暨首席架構師Sailesh Kottapalli表示,雙晶磚設計好處在於,運算任務需要較少跨晶磚溝通,因此能降低延遲。

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


上圖中,英特爾呈現了採取雙晶磚設計的第五代Xeon,延遲較4晶磚設計的第四代Xeon更短。右下圖表可分為兩組,上方是本機延遲,下方則是遠程訪問延遲。上半4個圖表中,左邊3直條分別為第四代Xeon不同晶磚利用模式的延遲時間,最右邊則為第五代延遲時間。訪問L3、L2及內存的延遲時間上,第五代大多低於第四代6至20毫秒。圖-郭又華攝

他們還專門強化了新CPU在特定AI任務的性能。例如,英特爾數據中心性能及競爭力營銷處長Allen Chu表示,客戶通常要求AI推論任務延遲最高不能超過100毫秒。不過,這在研發第五代Xeon Scalable初期,是無法達到的目標,經過特別優化後,才將延遲壓在目標範圍內。根據他們內部測試結果,若應用在聊天機器人、搜索及各式內容生成等任務,搭配60億參數GPT-J模型能做到延遲低於50毫秒,用更大一點的130億參數Llama2模型推論時仍低於75毫秒。

英特爾不諱言,第五代Xeon Scalable是瞄準100億參數以下模型的推論任務,因此他們強化CPU推論能力時,也聚焦在這個算力需求範圍。根據他們內部測試,應用在100億內參數LLM、推論模型及對象識別模型的訓練、即時推論(Real time inference)及批次推論(Batch inference),第五代表現比第四代高出了20%至40%。

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


第五代在AI任務的性能相較前代都有不同程度的提升(10%到44%)。英特爾公布他們進行3種AI任務的性能測試數據,包括不同AI模型在訓練、即時推論(Real time inference)及批次推論(Batch inference)的任務。以執行RNN-T批次推論而言,第五代表現是第四代1.44倍。圖-郭又華攝

上面數據呈現了兩代間AI運算性能進步幅度,那麼,第五代執行常見任務具體來說會花費多少時間呢?英特爾舉一個內部實測案例說明,他們利用400億參數的Falcon模型來將西語書籍翻譯成英語版,由4個第五代Xeon來執行脫機推論任務。這本書有200萬字符、1,300頁,翻譯時間總共耗時22分鐘。

針對雲地混合AI運算需求發展多種硬體產品及統一軟體開發工具

這次上市的新數據中心CPU,以及同日上市的電腦CPU Core Ultra,都是英特爾AI Everywhere產品布局一環。執行副總裁暨數據中心與AI業務群總經理Sandra Rivera表示,AI崛起是繼雲計算崛起之後第二波算力需求暴增。他們認為,如今AI從學術研究和概念驗證開始落地,成為真正可帶來商業價值的技術,會為企業創造更多算力需求。但凡金融、醫療、零售及製造,都是他們看到已經大規模應用AI的垂直產業。

英特爾五代Xeon伺服器處理器上市,主攻100億參數內邊緣推論市場


英特爾對AI Everywhere的想像及軟硬體布局。圖-郭又華攝

Sandra Rivera說,AI算力市場中,有足夠資源和能力訓練大型AI模型的企業非常少,大部分AI用戶都是在做邊緣推論、模型微調,或是根據自有數據訓練特定用途小型模型。她也引述英特爾首席執行官Pat Gelsinger對整體AI需求的觀察:「多少人做天氣模型,又有多少人會用?這就是訓練與推論市場的差別,真正戰場在推論。」

英特爾有多看好邊緣推論市場?Sandra Rivera表示,他們預估AI推論市場增長幅度會是訓練市場2倍,尤其是於邊緣執行推論。企業邊緣推論需求來自於降低延遲、控制成本及能耗,以及確保數據隱私性。這個需求崛起,會促使雲地混合AI(Hybrid AI)模式成為主流,也就是將AI運算任務分散於雲計算及地端,成為AI Everywhere的現象。

產品布局策略上,英特爾今日推出的Core Ultra及第五代Xeon Scalable分別是針對PC及伺服器AI推論需求的CPU。針對更強算力需求,則有Data Center GPU Max跟Flex系列,以及AI加速卡Gaudi系列產品。軟體方面,他們則是提供OpenVINO開發者工具,喊出「Write once, deploy everywhere」口號,要讓用戶只須寫一次支持AI模型及應用部署的程序代碼,便能部署前述不同硬體環境。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新