目前,ChatGPT等生成式AI工具正在為整個行業帶來全新的能力,而其模型所需的計算亦使性能、成本和能效成為眾多企業關注的焦點。
隨著生成式AI模型變得越來越大,在數據預處理到訓練和推理等一系列複雜的AI負載功能上,能效成為推動生產力的關鍵因素。
開發人員需要一種靈活、開放、高能效和更可持續的解決方案,即「一次構建、隨處部署」的方法,使各種形式的AI(包括生成式AI)都能充分發揮其潛力。
英特爾面向未來進行了大量投資,希望每個人都能利用這項技術,並能輕鬆進行大規模部署。同時,英特爾正與產業夥伴接洽,以支持一個基於信任、透明和多種選擇的開放式AI生態系統。
近日,英特爾公布了自身在AI硬體和軟體方面的最新進展,從這些資訊,我們看到英特爾顯然在極力加大自身在硬體創新的節奏,並在軟體生態方面加大投入,讓自身在AI加速計算方面有更多存在感。
以全面產品抓住新的市場機遇
如今,AI類工作負載成為主流,這對算力晶片提出了更高的要求。同時這也帶了全新的市場空間。英特爾表示,五年後,數據中心晶片市場的規模將達到1100億美元。
隨著通用計算(主流為CPU)和加速計算(目前主流為GPU和專用加速器)的市場需求不斷增長,到2027年,邏輯晶片的市場規模將超過400億美元,AI晶片/加速器領域將大有可為。
根據WSTS數據,2020年全球人工智慧晶片市場規模約為175億美元。隨著人工智慧技術日趨成熟,數字化基礎設施不斷完善,人工智慧商業化應用將加落地,推動AI晶片市場高速增長,預計2025年全球人工智慧晶片市場規模將達到726億美元。
不同種類別的AI計算晶片有各自突出的優勢和適用的領域,貫穿AI訓練與推理階段。目前CPU在人工智慧領域中的應用有限,主要受限於CPU在AI訓練方面的計算能力不足。不過英特爾試圖在改變業界對此的看法。
英特爾執行副總裁兼數據中心與人工智慧事業部總經理Sandra Rivera 表示,「當談論計算需求時,我們經常通過CPU的出貨量來衡量市場規模。然而,插槽數量並不能完全反映晶片創新為市場帶來的價值。如今,創新涉及多個維度,包括提高CPU核心的密度、使用晶片中的內置加速器,以及使用獨立加速器等。」
例如第四代至強處理器是英特爾最具可持續性的數據中心處理器,有著更高的能效和節能效果。憑藉英特爾AMX這樣的內置加速器,在廣泛的AI工作負載和使用案例中,推理和訓練性能可提高10倍 ,同時其每瓦性能相較英特爾前代產品最多可提升14倍。
面向未來幾代至強處理器,英特爾制定了全新的架構策略——即同時擁有基於性能核(P-core)和能效核(E-core)的雙軌產品路線圖,以將兩個優化的平台整合為一個通用、定義行業發展的平台。該全新架構策略將更大限度地增強產品的每瓦性能和細分功能,從而全面增強英特爾在業界的整體競爭力。
據悉,Emerald Rapids是英特爾的下一款性能核(P-core)產品,被正式稱為第五代英特爾至強可擴展處理器。目前正在向客戶提供樣品,並計劃於2023年第四季度進行交付,量產驗證正在進行中。
Sierra Forest是第一款能效核(E-core)處理器,計劃在2024年上半年上市。Sierra Forest是第一款採用即將推出的Intel 3製程工藝的CPU。Sierra Forest為雲優化的工作負載而設計,將通過優化的每瓦性能、高核心密度,以及高吞吐量性能針對能效進行優化。
Granite Rapids在2024年將緊隨Sierra Forest之後發布。英特爾首次公開表示,將在Sierra Forest之後開發後續產品Clearwater Forest,繼續實施其能效核路線圖。Clearwater Forest將於2025年上市,採用Intel 18A製程工藝製造。英特爾計劃在該節點實現製程工藝領先——這也將是公司四年內推進五個製程節點戰略的高潮。
除了CPU產品,英特爾的產品組合涵蓋GPU、FPGA、ASIC、獨立AI晶片等,以全面的產品幫助客戶應對AI挑戰。
AI加速看得見
硬體的加速有賴於軟體的優化,英特爾在軟體方面也加大投入,比如我們熟知的oneAPI和OpenVINO等。
Sandra Rivera表示,「客戶希望他們的AI工作負載具有可移植性。他們希望通過一次構建,即可將AI部署到任何地方。隨著我們繼續為AI工作負載提供異構架構,它們的大規模部署將需要方便開發人員編程的軟體,以及一個充滿活力、開放、安全的生態系統。」
近日,頂級機器學習開源庫Hugging Face分享性能結果,展示了Habana Gaudi2 AI硬體加速器針對1760億參數大模型卓越的運行推理速度。同時,該結果亦展現了在Gaudi2伺服器上運行主流電腦視覺工作負載時的能效優勢。
Gaudi2與第一代Gaudi構建在相同的高效架構上,可助力大規模工作負載的性能和效率達到全新高度,並在運行AI工作負載時展現出強大的能效優勢。
英特爾公司副總裁兼至強產品部總經理Lisa Spelman表示,生成式AI模型Stable Diffusion在內置英特爾高級矩陣擴展(英特爾AMX)的第四代英特爾至強可擴展處理器上運行的平均速度提高了3.8倍。這種加速是在不更改任何代碼的情況下實現的。此外,通過使用英特爾Extension for PyTorch with Bfloat16(一種用於機器學習的自定義格式),自動混合精度可以再提速一倍,並將延遲減少到5秒——比初始基線32秒快了近6.5倍。
OpenVINO進一步加速了Stable Diffusion推理。結合使用第四代至強CPU,它的速度幾乎比第三代英特爾至強可擴展CPU提高了2.7倍。Optimum Intel是OpenVINO支持的一個工具,用於加速英特爾架構上的端到端管道,它將平均延遲再降低3.5倍,總共降低近10倍。
英特爾首席技術官兼軟體與技術集團負責人Greg Lavender表示,「對於CUDA,大家越來越期待開放的、多供應商、多架構的替代方案。我們認為,該行業將受益於標準化的編程語言,讓每個人都可以為其做出貢獻,並展開廣泛的合作,而不是受限於某個特定的供應商,與此同時,亦可以根據成員的以及一些共性需求尋求有機的發展。」
英特爾為SYCL(一種基於C 的開放編程模型)做出了很多貢獻,並收購了Codeplay Software(SYCL語言和社區的領導者)。SYCL包含於oneAPI中,因此客戶可以跨多個供應商的CPU、GPU和加速器進行編程和編譯。上游軟體優化方面的其他工作包括針對PyTorch 2.0和TensorFlow 2.9的優化,以及與Hugging Face的合作,均可在英特爾至強處理器和Gaudi 2的幫助下進行訓練、調優和預測。
面向AI的開放加速計算
英特爾致力於AI的真正民主化和可持續性,這將使人們能夠通過開放的生態系統更廣泛地從該技術,以及生成式AI技術中獲益。
英特爾技術是AI硬體的基石,從至強處理器上的數據準備及管理,到中、小型訓練與推理,同時,越來越多的大模型訓練和推理正在使用英特爾GPU和加速器。
藉助英特爾的AI軟體套件,開發者可以使用自己選擇的AI工具,提高生產力並加快AI開發速度。該套件已經針對400多個機器學習和深度學習AI模型進行了驗證,涵蓋所有商業細分領域最常見的AI應用場景。
基於開放方法和異構計算的生成式AI使其更容易獲得,並更經濟地部署最優的解決方案。開放生態系統允許開發人員在優先考慮功耗、價格和性能的同時,隨時隨地構建和部署AI,從而釋放生成式AI的力量。
英特爾正在積極採取措施,並通過優化主流的開源框架、庫和工具來實現出色的硬體性能,同時消除複雜性,來確保自身是實現生成式AI的明智選擇。
一個開放的生態系統讓開發人員能夠利用英特爾對流行開源框架、庫和工具的優化,來構建和部署AI。英特爾AI智能硬體加速器以及第四代英特爾至強可擴展處理器的內置加速器提升了性能和每瓦性能,以滿足生成式AI對性能、價格和可持續性的需求。