《美國聖荷西現場報道》生成式AI在今年掀起一股新的AI風潮,不少大型雲計算企業、科技公司都在今年大規模部署GPU伺服器,用來訓練自己的LLM模型,然而,如今的晶片設計主要是針對雲計算需求而非專門為LLM模型訓練而設計,這導致LLM模型的訓練成本非常龐大。以OpenAI在GPT-3模型為例,該模型擁有1,750億個參數,需要龐大算力,訓練成本高達1,650萬美元。使用GPT-3開發的ChatGPT在推論方面的成本更高,每月燒掉4千萬美元。這不僅大大增加了企業成本,對地球資源、環境可持續發展性也可能產生影響。
晶片封裝技術是阻礙AI發展的一大瓶頸
身為伺服器處理器龍頭,英特爾正試圖開展伺服器硬體、軟體架構等技術革新,來滿足生成式AI等新的工作負載的需求,目標是要確保未來的處理器,可以應對從雲計算LLM模型訓練,到邊緣端的LLM模型推論的各種需求。
在今年英特爾創新日會後一場記者會上,英特爾首席執行官Pat Gelsinger明白表示,未來伺服器晶片發展需要新變革,集成更多先進技術,包括先進電晶體技術、先進封裝技術、先進通信及先進內存技術等。尤其,他特別點出,如今的晶片封裝技術是阻礙AI發展的一大瓶頸,得加以解決。
因此,經過一段時間研發,他們近日發布可用於下一代先進封裝的玻璃基板,與傳統的基板相比,這種新型基板可以大幅提升半導體封裝的電晶體數量,而且具備有省電和散熱特性,可用於封裝生成式AI晶片。這項技術最快3年後開始量產。
又以先進內存技術為例,英特爾開始支持MCR DIMM規格的內存,如明年將推出的Granite Rapids處理器,就已導入這項技術,藉以增加伺服器平台的內存帶寬,以滿足數據密集型的的工作負載,如LLM模型參數訓練所需的內存。在silicon架構上,英特爾引進3Dsilicon設計,以提供更高的silicon性能,來滿足LLM模型的運算需求。
近年來,許多企業應用程序中都開始結合AI功能,這也使處理器中提供AI支持能力變得越來越重要,Pat Gelsinger表示,這是英特爾決定要構建AI產品線的原因,而AI訓練加速器Gaudi和Xeon可擴展處理器是英特爾的兩大人工智慧產品。
為了要支持生成式AI應用,英特爾在第4代Xeon Scalable處理器中開始內置了AMX高端矩陣延伸功能,使得它能夠針對在CPU上執行的AI算法進行加速,尤其在處理大型語言模型等工作負載時,搭配Xeon Max系列可提供高達20倍的加速性能。
英特爾明年還將推出一款代號為Granite Rapids的新一代伺服器處理器,主打高性能,在先進制程技術、核心數和內存帶寬方面,相較於第4代Xeon處理器有顯著提升,此外,它還提供了增強的AMX功能,支持半精度(FP16)數據類型的AI訓練,能進一步提升AI處理性能。
AI模型通常分為訓練和推論兩個階段,Pat Gelsinger指出,目前模型推論居多,企業若希望在本地端對基礎模型進行再訓練,並執行大量推理,他說,這種情況就很適合採用Xeon處理器來執行推論。
除了用於生成式AI推論之外,針對AI模型訓練,英特爾則是推出了AI訓練加速器Gaudi,目前已發展到了第二代產品,搭載更多張量處理器核心與HBM。根據測試結果,在執行多模態的BridgeTower模型的性能表現上,Gaudi2勝過去年推出的Nvidia H100 GPU,提升高達1.4倍。此外,下一代Gaudi3很快將在明年推出,甚至還有一款支持雙精度浮點運算(FP64)的Falcon Shores GPU未來將問世。
英特爾要成為先進AI產品的代工廠
在軟體工具方面,英特爾最新加強了對生成式AI應用的支持。例如,在新發布的OpenVINO 2023.1版工具組件中,增加了對生成式AI模型的優化功能,包括臉書Meta的Llama 2等模型,使開發人員能夠通過基礎模型優化,來支持跨不同作業系統和雲計算集成應用環境。
Pat Gelsinger表示,英特爾在晶片代工業務上十分關注AI領域,包括生成式AI,不僅和內部團隊合作,還與外部的代工客戶一起共同推動。他表示,這麼做的目的,就是希望以後要讓每個人一提到英特爾代工就會聯想到AI晶片,「要將英特爾變成先進AI產品的代工廠」他說。