量子位發布《AIGC算力全景與趨勢報告》,原文如下:
2023年無疑是AIGC元年,ChatGPT引發的各類大模型競賽中,行業內繞不開的一個話題便是算力從何而來。
算力目前已經在AIGC產業內形成新共識——算力成為AIGC發展的關鍵基石。隨著英偉達今年一系列不斷推陳出新的產品動作,可以看到國際上最先進的算力廠商如今已邁向由超級晶片組成的算力集群階段。
此外,算力廠商也無疑成為AIGC產業下的率先受益方。然而,隨著大模型參數的不斷增長,OpenAI近期表明算力成為其發展的挑戰之一。在AIGC產業繁榮的當下,可以預見的是未來對算力的需求會越來越大。那麼,在這場AIGC盛宴中,應該如何應對當下面臨的『算力危機』呢?
在《AIGC算力全景與趨勢報告》中,量子位智庫將從我國算力產業現狀、算力產業變革、趨勢預判等角度出發,通過廣泛調研與深度分析,全面立體描繪我國當前AIGC算力產業全景與趨勢。
我們期待,能夠與眾多投入、關注、期待中國AIGC算力產業的夥伴一起,共同見證並打造中國AIGC算力產業的蓬勃未來。
一、AIGC驅動,算力產業機遇空前
1、AIGC潮起,算力產業挑戰巨大,機遇空前
OpenAI發布ChatGPT屬於GPT系列中的聊天機器人模型。GPT系列中GPT3是由1750億參數組成的語言模型,而GPT4的參數更是達萬億級別。國內目前公布的大模型參數規模也普遍在百億至千億級別。如此龐大的參數規模,對於晶片提供商、雲服務廠商以及伺服器廠商都產生了新需求。
全球範圍內,GPT具備從底層改變各行業規則的能力,作為AIGC產業的基建,算力產業在未來有望成為一項公共服務滲透入各行各業。基於此,智算中心作為公共算力基礎設施,成為AIGC基建中的關鍵環節。
雲計算廠商:遊戲規則被改寫,MaaS能力成為競爭的關鍵變量。
智算中心:在算力需求暴漲、數據和模型資源稀缺、AI技術廣泛落地背景下,智算中心成為地區AI新基建。
伺服器廠商:大模型訓練驅動AI伺服器需求暴漲,並且正在催生新物種——AI模型一體機。
晶片:GPU為核心的AI訓練晶片供不應求,是AIGC算力產業最大挑戰和最大機遇。
2、晶片:大模型訓練需求暴漲,GPU供不應求
需求
當前大模型參數量在百億至千億參數規模,在訓練階段,對晶片的需求從CPU 加速器轉變為以GPU主導的大規模並行計算。未來,當多數大模型參數規模到達萬億級別,將產生更大的算力需求。在單晶片性能之上,智算中心能夠通過算力的生產-調度-聚合-釋放,支持AI產業化發展。
缺口
目前市場對於英偉達晶片的需求遠大於供給。經測算,一萬枚英偉達A100晶片是做好AI大模型的算力門檻。國內具備此量級的公司最多只有1家,而GPU晶片持有量超過一萬枚的企業不超過5家。
3、伺服器:業務增長顯著,高端晶片AI伺服器火爆
現狀
AIGC產業的發展將加劇AI伺服器行業的增長速度,中國伺服器廠商普遍業務增量在30%以上;國內市場中,伺服器重新進入洗牌期。
需求趨勢
由於AIGC對於高性能計算的需求,雲廠商在伺服器的選擇上以AI伺服器為主。據IDC數據,2025年全球AI伺服器市場規模將達317.9億美元,年複合增長率為19%。英偉達GPU短期內面臨產能不足問題,或將一定程度上限制AI伺服器生產,從而影響出貨量。
4、雲計算廠商:服務範式變革,MaaS帶來新商業路徑
範式轉變
MaaS成為雲計算服務的新範式,雲計算判別標準從算力能力轉向『雲智一體』的AI產品能力。
成本
自研晶片:根據 IDC 2018年伺服器成本結構數據顯示,高性能伺服器中,晶片成本占比高達 50%~83%;全球頭部雲廠商(谷歌、微軟、騰訊等)為擺脫過於依賴晶片廠商的局面,均加大晶片自研力度。
5、智算中心:基建級AI算力供應,打造地區經濟增長新引擎
《智能計算中心創新發展指南》指出,在智算中心實現80%應用水平的情況下,城市/地區對智算中心的投資可帶動人工智慧核心產業增長約2.9-3.4倍,帶動相關產業增長約36-42倍;未來80%的場景都將基於人工智慧,所占據的算力資源主要由智算中心提供,智算中心將成為經濟增長的新動力引擎。
公共基建
全國超30座城市落地智算中心:北京、天津、河北、南京、無錫、寧波、杭州、武漢、瀋陽、成都、哈爾濱、許昌、廣州、宿州、烏鎮、崑山、甘肅、長沙。
企業方
阿里雲張北超級智算中心、烏蘭察布智算中心、商湯科技人工智慧計算中心
百度智能雲-崑崙芯(鹽城)智算中心、百度智能雲(濟南)智算中心、騰訊長三角(上海)人工智慧先進計算中心、騰訊智慧產業長三角(合肥)智算中心、曙光5A級智算中心、克拉瑪依浪潮智算中心、中國電信京津冀大數據智能算力中心、中國聯通廣東 AI 智算中心。。。。。。
二、AIGC算力產業全景
1、AIGC算力現狀鏈路:晶片—伺服器—雲平台—模型應用
以微軟為例
晶片資源
•外部:Azure雲服務為ChatGPT構建了超過1萬枚英偉達A100 GPU晶片的AI計算集群。
•內部:微軟正在自研AI晶片——雅典娜(Athena),將由台積電代工,採用5nm製程。
首個目標:為OpenAI提供算力引擎,以替代英偉達A100/H100。
雲基礎設施平台Azure
微軟是OpenAI唯一雲服務提供商,為GPT訓練提供計算資源、存儲資源、自動化部署和管理等支持。
模型即應用(MaaS)
1)Azure OpenAI 服務:
企業級解決方案:藉助 Azure OpenAI,用戶可以匯總文本、獲取代碼建議、為網站生成圖像等。
2)Microsoft 365 Copilot:
使用了GPT-4作為其核心的LLM,將用戶的自然語言輸入轉化為高效的生產力工具,集成在Word、Excel、PowerPoint、Outlook、Teams等多個應用中。
2、晶片層現狀:AIGC算力2大路線,GPU通用路線和AISC專用路線
AI晶片目前有兩大路線,一種是英偉達代表的GPU路線,更適合當前AIGC產業對大算力的需求,與AIGC大模型的訓練及推理適配度極高。另一種路線則是以國內華為(主力產品)、寒武紀廠商為代表的AI晶片路線,此路線下的晶片更適用於垂類小模型,為其提供能效比更高的晶片。此外網際網路雲廠商的自研晶片也是專用路線,晶片主要服務於自家產品,為自身產品打造性能更優的算力底座。
3、伺服器層現狀:AI伺服器成主要增長點,採購占比網際網路客戶為主
伺服器作為算力的載體,是AIGC基礎設施的核心硬體。由於AIGC對於高性能計算的需求,雲廠商在伺服器的選擇上以AI伺服器為主。據IDC數據,2025年全球AI伺服器市場規模將達317.9億美元,年複合增長率為19%。AIGC產業的發展將加劇AI伺服器行業的增長速度,中國伺服器廠商普遍業務增量在30%以上。
TrendForce日前發布預測,指出隨著AI伺服器與AI晶片需求同步看漲,預計2023年AI伺服器(包含搭載GPU、FPGA、ASIC等主晶片)出貨量將接近120萬台,年增38.4%,並將2022-2026年AI伺服器出貨量年複合增長率上調至22%。2022年,國內網際網路大廠成為AI伺服器的最大買家。
2023年,隨著AIGC的爆發,根據業內消息,網際網路廠商依舊是AI伺服器的最大買方。
4、雲計算現狀:MaaS重塑服務模式,新老玩家重構競爭力
大模型成為MaaS的基座,MaaS所打造的商業模式也是大模型廠商的主要變現模式——基於大模型產生有實際應用價值的產品。
MaaS模式最早由阿里提出,隨後網際網路大廠、人工智慧企業(如商湯)均已引入MaaS模式。此外,網際網路大廠、華為等企業已經將自研晶片用於MaaS底座構建中。
雲廠商是MaaS的提出者,也是主要參與方。MaaS模式基於大模型,能夠最大限度消除大型企業數字化過程中規模化、標準化壁壘,降低企業部署難度;對於C端用戶來講,MaaS可在不同層級里產生價值,有望為雲計算廠商帶來新增長曲線。
5、智算中心現狀:地域發展差異明顯,『東數西算』成算力調度關鍵
智算中心是對原有數據中心的升級,其提供的首要是AI算力。具體來講,智算中心提供包括算力、框架、模型,以及支持應用場景具體的基礎設施,將不同層級進行打包,通過本地化部署完成智算中心建設。相比於數據中心,智算中心更貼近應用和產業方。
6、AIGC算力產業全景圖
三、AIGC算力產業『五新』趨勢
趨勢01——新機遇:晶片競逐高性能大算力,引入新計算架構
趨勢02——新增長曲線:AI伺服器異軍突起,紅利曲線先訓練後推理
AI大模型對算力需求呈指數級增長,使得具有更高配置的AI伺服器成為AIGC算力的主要載體。相比於傳統伺服器,AI伺服器的計算、存儲以及網路傳輸能力能達到更高的水平。例如,NVIDIA DGX A100伺服器 8 個 GPU 2 個 CPU 的配置遠高於傳統伺服器 1~2 個 CPU 的配置。
智算中心作為提供算力資源的公共基礎設施平台,其算力機組以AI訓練伺服器和AI推理伺服器為主。隨著大模型訓練階段完成,未來AI伺服器的主要需求將向推理側轉移。根據IDC的預測,到2026年,AIGC的算力62.2%將作用於模型推理。
趨勢03——新遊戲規則:MaaS重塑雲服務範式,AIGC商業模式閉環
MaaS(模型即服務):在算力、算法和應用層中嵌入大模型,以智能底座集成應用並統一對外輸出。MaaS的本質是將行業內通用的基礎技術提煉整合成服務,滿足各類應用場景需求。
雲計算服務能力的判別式從算力水平轉向『雲智一體』能力,在算力基礎設施之外,核心競爭力變為把算力、模型和場景應用打造成標準化產品的能力。
趨勢04——新物種:AI模型一體機呼之欲出,傳統產業『開箱即用』
趨勢05——新基建:智算中心護航AIGC運營,算力租賃模式成新解
算力租賃模式可以有效降低大模型研發門檻,對於研發垂類行業的小模型企業來說,沒有購買足夠AI伺服器的實力,公共算力基礎平台將幫助中小型企業搭建其自身所需模型。企業無需購買伺服器,通過瀏覽器便可訪問算力中心,並使用算力服務。對於中小企業來講,無需依賴雲廠商所構建的大模型底座進行二次開發,而是通過租用公有算力平台的算力資源,研發垂類行業小模型。
四、AIGC算力產業周期預測
一個周期三個階段:基建期、開發期,商業期
1、AIGC基建期:2023年~2025年
全球範圍內,OpenAI的GPT初步實現智能湧現,其背後的算力支撐是英偉達高性能GPU。在追趕GPT的過程中,需要大模型企業在短時間內完成模型的訓練過程。因此,在AIGC初期階段,大模型研發企業不會考慮除英偉達之外的晶片作為訓練階段的晶片。
在初期階段,高性能GPU廠商將成為最大收益方;同時,AI伺服器廠商是此階段的強勢供給方。目前,AI伺服器領域已經出現供不應求的局面。
2、AIGC開發期:2026年~2028年
在中期階段(5年內),推理晶片將成為主要需求方。相比於GPU的高算力高功耗以及對應的算力浪費,推理晶片更注重晶片的算效比,對於功耗和成本有更優的把控。
此外,這個階段也會是創新型晶片的機會。分析師預計存算一體晶片、類腦晶片、矽光晶片將有更多市場機會。
中期階段AIGC市場將呈現收斂趨勢,從百花齊放到逐步淘汰,此階段主要是模型層公司之間的淘汰戰。在此階段,AI伺服器廠商的紅利期逐漸見頂,智算中心與超算中心走向融合;晶片也從GPU轉向NPU/ASIC/FPGA/CPU等多種形式並存。創新型晶片路線中,看好存算一體架構的發展。
中期階段,具備底層創新能力的晶片廠商有望成為最大獲益方。
3、AIGC商業期:2028年後
後期階段(10年內)將在應用端呈現出百花齊放的趨勢;屆時,AIGC應用將呈現出類app模式,出現各類細分領域的應用程序,通過模型層提供的API接口來發展各自的應用程序。此階段,大眾層面幾乎不會感知到算力問題。
後期階段,算力租賃有望成為算力平台最具規模的盈利模式。