近日,MLCommons公布了針對AI模型訓練的行業標準MLPerf訓練v3.1基準測試結果。
作為唯一提交MLPerf測試結果的CPU,第四代英特爾至強可擴展處理器在測試中展現出強大的性能。
本次,英特爾提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的測試結果。值得注意的是,在DLRM dcnv2這一個新提交的測試模型中,第四代英特爾至強可擴展處理器僅使用四個節點就在227分鐘內完成了訓練。
在分別於今年6月、9月和11月進行的三次測試中,英特爾提交了基於第四代英特爾至強可擴展處理器的多個推理基準測試,結果顯示,包括視覺、語言處理、語音和音頻翻譯模型,以及更大的DLRM v2深度學習推薦模型及60億參數大語言模型及電腦視覺與自然語言處理模型ChatGPT-J在內,第四代英特爾至強處理器對於通用AI工作負載擁有出色的性能。
持續進化的CPU
毋庸諱言,GPU在AI工作負載的優勢十分明顯,但是這並不代表CPU就此甘拜下風。
為了讓CPU更好地運行AI應用,英特爾對於至強處理器進行了積極改進。
比如內置英特爾高級矩陣擴展(英特爾AMX)加速引擎,第四代英特爾至強可擴展處理器支持INT8和BF16兩種數據類型。與前幾代產品相比,本代產品可實現高達5.7至10倍的實時推理性能提升和高達3.5至10倍的訓練性能提升。
在於百度智能雲9月發布的新一代雲伺服器BCC實例中,第四代至強可擴展處理器以AMX加速器擴展AI算力,從而使百度智能雲用戶在任何實例上輕鬆獲取原生的強大AI能力。
得益於英特爾AMX指令集針對矩陣運算的強大加速能力,騰訊BERT模型BF16吞吐量獲得大幅提升,從而有效地優化了其AI用戶的終端體驗。
通過AMX INT8及BF16的不同精度數據處理、AVX-512的深入調優,以及英特爾軟體的加持,阿里雲地址標準化業務和淘寶搜索的定製化推薦業務實現了大幅性能提升。
與此同時,第四代英特爾至強可擴展處理器亦助力亞信、用友、金蝶和東軟等獨立軟體服務商實現在OCR等領域的多項業務升級,助力其成功應對來自不同應用場景的多樣化AI工作負載需求。
截止目前,第四代至強可擴展處理器已出貨一百萬片。而代號為Emerald Rapids的第五代英特爾至強可擴展處理器也將於今年第四季度發布。
作為英特爾至強的重要演進,下一代平台引入了全新的能效核(E-core)架構,與其已有的性能核(P-core)架構並存。分別以代號Sierra Forest和Granite Rapids命名的這些新產品將為客戶提供便捷性和靈活性,以及兼容的硬體架構和共享的軟體堆棧,以滿足諸如人工智慧等關鍵工作負載的多元化需求。
代號為Sierra Forest的能效核英特爾至強可擴展處理器,計劃將於2024年上半年交付,而代號為Granite Rapids的性能核英特爾至強可擴展處理器也將緊隨其後。