宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

剖析英特爾Core Ultra處理器關鍵特色

2023年10月28日 首頁 » 熱門科技

剖析英特爾Core Ultra處理器關鍵特色


英特爾在新款Core Ultra處理器晶片中,不只內置CPU、GPU,還集成了一個可用於推論加速的AI引擎NPU,來提高這款處理器對於生成式AI的處理能力,還採用了許多創新的設計方式,提升其性能和降低功耗。

在Core Ultra處理器所內置的這個NPU神經處理單元的前身,來自英特爾旗下Movidius公司所設計的視覺運算單元(VPU),英特爾將其集成到Core Ultra處理器中,並以NPU為名,以提高行動PC的AI推論處理能力。在9月舉辦的年度創新日上,英特爾也首度披露關於這個NPU更多技術細節和架構。

新處理器內置NPU,在AI加速推論和節電錶現優於CPU,功耗也遠低於GPU

英特爾表示,內置NPU的Core Ultrae處理器,能夠以更省電方式提供低功耗的AI推論能力,相較於前一代處理器,當執行AI工作負載時,可以獲得高達8倍功耗效率的改進,特別適用於處理需要持續性的AI應用或AI卸載任務。

儘管目前英特爾尚未公布這顆NPU的確切AI算力,但從英特爾公布的測試數據,能夠一窺這個NPU在AI任務方面的表現。

根據英特爾的內部測試,在使用Core Ultra筆記本處理Stable Diffusion圖像生成模型推論,進行20次疊代的圖像生成任務時,分別在CPU、GPU、NPU執行,結果顯示不論在處理時間或功耗方面,NPU的表現都優於CPU,甚至功耗也遠低於GPU。例如NPU上執行所有任務需要20.7秒,僅是CPU處理時間的不到一半,同時功耗更降低了75%,只有10瓦,大大提高了能源效率,甚至優於37瓦的GPU,整體效率更提升了7.8倍。若將NPU與GPU結合使用,處理時間還能進一步縮短,僅需11.3秒。

實際處理AI任務時,英特爾表示,NPU除了將與CPU、GPU協同合作,以加速AI工作負載,還能根據任務的類型來分配適合的硬體資源處理,滿足不同應用場景的需求。例如對於執行低延遲的AI應用,需要處理輕量且單一模型的推論任務時,因為不需要複雜運算和大量內存,這些任務將由CPU來執行。若是需要大量並行計算和高吞吐量處理的AI任務,就會使用GPU處理。至於需要持續處理的AI任務,例如圖片生成等,可以利用低功耗的NPU來完成。藉由這種協同工作的方式,在不同AI任務之間達到性能和能耗優化。

翻新行動PC處理器架構,採用模塊化、多晶磚設計

相較以往的行動PC處理器,Core Ultra處理器採用了許多創新的設計方式,例如這款處理器採用了新的系統單晶片(SOC)架構,也就是模塊化、多晶磚(Tile)架構,由SOC、運算、繪圖、I/O等多個晶磚組合而成,同時將不同功能的CPU、GPU、NPU集成到單一的SoC晶片中。此外,還能通過一組帶寬高達128GB/s的Scalable Fabric高速信道與內部各組件,包括NPU、繪圖、圖片和媒體組件及I/O晶磚等進行連接,藉此縮短數據交換的時間。

Core Ultra處理器採用Intel 4製程(相當於台積7納米製程),並且使用了性能核心(P-core)和效率核心(E-core)的性能混合架構來設計CPU,最高配置可達14核心(6個P-core和8個E-core),兼具有高性能和省電的特性。此外,還改善核心調度方式,達到更高CPU利用率。還搭配性能更強的GPU,每瓦的性能比前一代Iris Xe GPU高出2倍。

在這系列處理器中,還採用了Foveros先進封裝技術,通過3D堆棧,實現不同功能的晶片堆棧,不論是晶片連接密度、能源效率和傳輸速度都大幅提升不少。

電源管理採用模塊及彈性架構,實現能源使用效率優化

在電力管理上,英特爾在這款處理器中創建了模塊化和可擴展的PM電源管理架構,可提高帶寬和能源效率。在I/O接口設計上,英特爾採用新做法,取代過去僅靠中央的Ring Fabric信道進行數據交換的做法,改直接通過SOC內的SOC Fabric信道來與內存控制器、媒體等不同組件連接,讓數據傳輸過程減少擁塞的情況。此外,也支持了最新PCIe 5.0與Thunderbolt 4 。

Core Ultra處理器將在12月14日推出,宏碁將率先推出該處理器的行動PC。

英特爾CEO:不只行動PC,未來伺服器CPU設計得有新變革,應對生成式AI應用需求

剖析英特爾Core Ultra處理器關鍵特色


攝影_余至浩

生成式AI在今年掀起一股新的AI風潮,不少大型雲計算企業、科技公司都在今年大規模部署GPU伺服器,用來訓練自己的LLM模型,然而,如今的晶片設計主要是針對雲計算需求而非專門為LLM模型訓練而設計,這導致LLM模型的訓練成本非常龐大。以OpenAI的GPT-3模型為例,該模型擁有1,750億個參數,需要龐大算力,訓練成本高達165萬美元。使用GPT-3開發的ChatGPT在推論方面的成本更高,每月燒掉4千萬美元。這不僅大大增加了企業成本,對地球資源、環境可持續發展性也可能產生影響。

在9月英特爾創新日會後一場記者會上,英特爾首席執行官Pat Gelsinger明白表示,未來伺服器晶片發展需要新變革,來應對生成式AI的應用需求,集成更多先進技術,包括先進電晶體技術、先進封裝技術、先進通信及先進內存技術等。尤其,他特別點出,如今的晶片封裝技術是阻礙AI發展的一大瓶頸,得加以解決。

經過一段時間的研發,英特爾近日發布可用於下一代先進封裝的玻璃基板,與傳統的基板相比,這種新型基板可以大幅提升半導體封裝的電晶體數量,而且具備有省電和更好的散熱特性,可用於封裝生成式AI晶片。這項技術最快3年後開始量產。

又以先進內存技術為例,英特爾開始支持MCR DIMM規格的內存,如明年將推出的Granite Rapids處理器,就已導入這項技術,藉以增加伺服器平台的內存帶寬,以滿足數據密集型的的工作負載,如LLM模型參數訓練所需的內存。在矽(silicon)架構上,英特爾引進3D矽堆棧設計,以提供更高的處理性能,來滿足LLM模型的運算需求。

近年來,許多企業應用程序中都開始結合AI功能,這也使處理器中提供AI支持能力變得越來越重要,Pat Gelsinger表示,這是英特爾決定要構建AI產品線的原因,除了將AI技術帶來行動PC之外,英特爾還有兩大人工智慧產品,分別是Xeon可擴展處理器和AI訓練加速器Gaudi。

英特爾在第4代Xeon可擴展處理器中開始內置了AMX高端矩陣延伸功能,使得它能夠針對在CPU上執行的AI算法進行加速,尤其在處理大型語言模型等工作負載時,搭配Xeon Max系列可提供高達20倍的加速性能。英特爾明年還將有一款主打高性能的Granite Rapids伺服器處理器將推出,將進一步提升其AI處理性能。

針對AI模型訓練,英特爾則是推出了AI訓練加速器Gaudi,目前已發展到了第二代產品,搭載更多張量處理器核心與HBM。根據測試結果,在執行多模態的BridgeTower模型的性能表現上,Gaudi2性能表現優於去年發布的Nvidia H100 GPU,有高達1.4倍。此外,下一代Gaudi3很快將在明年推出,甚至還有一款支持雙精度浮點運算(FP64)的Falcon Shores GPU未來將問世。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新