AI大模型的快速發展,帶動全球AI算力市場需求的高速上漲。而隨著AI技術的不斷突破以及各種開源架構的推進,算法模型和數據的壓力逐步降低,算力不足成了大模型廠商遇到的最大的問題。
據浪潮資訊聯合IDC發布的《2022-2023中國人工智慧計算力發展評估報告》,2022年中國智能算力規模將達到268.0EFLOPS,預計到2026年智能算力規模將進入每秒十萬億億次浮點計算(ZFLOPS)級別,2021-2025年人工智慧算力複合增長率將達52.3%。
動輒數千萬上億的算力資源投入,讓開發大模型的企業開始提出算力的使用效率問題。越來越多的大模型企業開始意識到,大模型行訓練是一個複雜的系統工程。大模型算力平台並不是算力的簡單堆積。
大模型給企業基礎設施帶來新挑戰
當今,AI快速發展並在多行業落地,呈現出複雜化、多元化和巨量化的趨勢。不同的應用場景對算力的要求不同,要評判算力基礎設施是否滿足需求,需要企業根據特定的AI技術場景和需求,綜合考慮算力基礎設施的性能與靈活易用性。
性能:算力的性能和規模是AI應用的關鍵因素之一,需要評估算力的速度、性能和可擴展性,以及支持的AI應用場景規模,是不是能夠有效支撐AI業務的開展。
靈活性和可用性:隨著AI技術的複雜和多元化,企業要求綜合考量算力基礎設施的易用性,打造多元開放的算力基礎設施,以支持不同的作業系統、編程語言和框架,以及能夠與其他硬體和軟體進行無縫集成的能力。算力基礎設施的兼容性越高,就能更好地支持各種應用場景和算法,滿足飛速發展的AI創新應用需求。
正是由於大模型給算力基礎設施帶來新要求,企業已有的基礎設施面臨諸多挑戰:
1、大模型技術對於算力基礎設施的規模提出了更高的要求,企業傳統基礎設施面臨算力資源不足的挑戰
大模型技術創新和應用需要基於海量數據集,在擁有成百上千加速卡的AI伺服器集群上對千億級參數的AI大模型進行分布式訓練,這對算力資源的規模提出了極高的要求。算力不足意味著無法處理龐大的模型和數據量,也即無法有效支撐高質量的大模型技術創新。如OpenAI的GPT-3使用10000塊GPU、花了30天完成訓練,消耗的總算力為3640PetaFlop/s-day。當今國際科技巨頭如微軟、META、谷歌等都在打造萬卡AI集群,提升算力基礎設施的規模和能力。
2、大模型算力基礎設施部署是一個複雜的系統工程,對企業的基礎設施構建和全棧管理能力構成全新的挑戰
相比普通的AI訓練,大模型的訓練技術考慮的問題更加複雜,對於基礎設施的要求也更高。完成大規模算力集群的搭建只是第一步,要確保 AI 大模型訓練任務的順利完成,還需要非常多系統性的軟硬一體協同優化,這對企業的基礎設施構建能力構成了全新的挑戰。
具體來講,構建大模型算力基礎設施需要統籌考慮大模型分布式訓練對於計算、網路和存儲的需求特點,並集成平台軟體、結合應用實踐, 充分關注數據傳輸、任務調度、並行優化、資源利用率等,設計和構建高性能、高速互聯、存算平衡可擴展集群系統,以確保大模型訓練的高效和穩定。
3、大模型基礎設施算力效率成為更大的挑戰
大模型訓練在帶來海量的算力需求的同時,還需要在算力平台設計上考慮到龐大的算力節點規模帶來的算力使用效率衰減的問題。大規模AI計算集群上的訓練算力效率會直接影響到模型訓練時長以及算力消耗成本。因此,如何發揮大模型算力平台效能、抑制性能損耗,對於提升生成式AI研發創新效率有著非常重要的影響。據公開資料表明,GPT-3大模型在其訓練集群上的訓練算力效率僅為為21.3%,算力集群效率亟待提升。
以ChatGPT為代表的大模型與生成式AI成為社會廣泛關注的熱點,這其實給伺服器廠商帶來巨大市場機遇。
《2022-2023全球計算力指數評估報告》指出,「到2026年,全球AI計算市場規模將增長到346.6億美元,生成式AI計算占比從22年4.2%增長到 31.7%」。Gartner與分析師預測:到2025 年,由人工智慧生成的數據占所有數據的10%;未來十年AIGC市場規模將每兩年翻一番,到2032年,AIGC市場規模將達2000億美元。
從目前國內市場來看,大模型已進入新一輪「百模爭霸」的狀態,其對算力、數據(數據存儲/數據處理/數據清洗)算法的需求是巨大的,即是機遇所在。
機遇與挑戰往往並存。大模型開發作為一個複雜的系統工程,當前產業在算力平台質量、大規模集群運行的效率性能、持續穩定運行的時間等方面依然存在較大的差距。擁有算力,如何用好算力,建立起「算力、算法、生態、工具鏈」協同的產業鏈條是當前所面臨的核心瓶頸與挑戰,亟需從算力系統層面構建起穩定且高效的通用大模型,利用通用大模型的泛化能力和智力水平,真正實現千行百業應用的「順勢而為」。
率先布局生成式AI,構建全棧領先的大模型算力系統解決方案
作為最早布局大模型的企業之一,浪潮資訊在業界率先推出了中文AI巨量模型「源1.0」,參數規模高達2457億。「源1.0」在語言智能方面表現優異,獲得中文語言理解評測基準CLUE榜單的零樣本學習(zero-shot)和小樣本學習(few-shot)兩類總榜冠軍。浪潮資訊通過千億參數規模的大模型創新實踐,已在算力集群構建、算力調度部署、算法模型開發等方面,構建起全棧領先的大模型算力系統解決方案,助力大模型訓練開發。
在算力集群構建上,基於大模型實測對比的集群規劃,提供包含數據中心、算力、網路、存儲一體化產品陣列。其中最新一代融合架構的AI訓練伺服器 NF5688G7採用Hopper架構的GPU,較上代平台大模型實測性能提升近7倍,同時支持最新的液冷解決方案,可實現更低的集群能耗比與運行成本,PUE小於1.15,以一個4000卡的智算中心為例,每年可節電620萬度、降碳1700噸。在集群高速互聯層面,基於原生RDMA實現整個集群的全線速組網,並對網路拓撲進行優化,可以有效消除混合計算的計算瓶頸,確保集群在大模型訓練時始終處於最佳狀態。
在算力調度部署上,面對大模型系統級開發過程中所存在的調度難、部署慢、效率低、集群異常等問題,浪潮資訊推出AIStation智能業務創新生產平台,通過全生命周期的一體化監控及調度系統,構建起完備的模型訓練失效恢復持續方案,滿足大模型分布式訓練中高穩定、高穩健性等特性要求,實現訓練異常和故障診斷的自動處理,縮短斷點續訓時間90%。同時,自研分布式任務自適應系統,有效分配底層計算、存儲、網路等資源,提升集群利用率與模型訓練效率。高效的集群優化調度策略,大幅簡化大模型訓練前大量的、環境配置、依賴庫適配和超參數調整工作。
在算法模型開發上,「源1.0」針對大模型的Attention層和前饋層的模型空間進行結構優化,改進注意力機制聚焦文章內部聯繫的學習。千億大模型的創新實踐,使得浪潮資訊具備從數據、訓練、部署到應用落地的全棧開發能力。在訓練數據處理上,通過自研海量數據過濾系統(MDFS),建立從數據採集、粗濾、質量分類、精濾的全自動化的端到端數據工作流程,通過清洗866TB海量數據,獲得5TB高質量中文數據集。
在助力大模型訓練開發方面,浪潮資訊推出AI算力服務,提供經「源」清洗驗證過的語言或多模態的大模型數據、算法產品及模型訓練資源管理平台,為AI創新研究團隊提供先進、開放、高性能、高質量的AI算力資源及配套服務,賦能AIGC創新發展。目前,浪潮資訊AI算力服務已成功助力網易伏羲中文預訓練大模型「玉言」登頂中文語言理解權威測評基準CLUE分類任務榜單,並在多項任務上超過人類水平。
浪潮資訊AI團隊將「源1.0」成功的系統工程經驗應用於智算中心算力系統,對集群架構、高速互聯、算力調度等進行全面優化,對分布式訓練策略進行了針對性優化,通過合理設計張量並行、流水並行和數據並行,精準調整模型結構和訓練過程的超參數,最終實現千億參數規模的大模型訓練算力效率達至53.5%。
目前,浪潮資訊在中國人工智慧伺服器領域的市場份額已連續六年保持第一,邊緣和高端伺服器市場中國第一,存儲裝機容量全球第三,中國第一。並在南京、濟南、成都、宿州等多個城市助力當地政府、園區開展智算中心建設,加速算力、算法基礎設施普惠。
大模型時代,算力步入PD時代,綠色液冷正當時
展望未來,大模型還在持續疊代。國內大模型如雨後春筍般出現,這需要高效率、高可靠的AI伺服器集群。
浪潮資訊提出用「算力當量」來對AI任務所需算力總量進行度量,單位是PetaFlops/s-day也就是PD,即用每秒千萬億次的電腦完整運行一天消耗的算力總量(PD)作為度量單位。一個任務需要多少PD的計算量,就把它視為這個任務的「算力當量」。GPT-3的算力當量是3640個PD,源1.0是2457億的參數的大模型,它的算力當量是4095個PD。以GPT-4為例,訓練一個類似GPT-4的模型需要E級算力支撐。所以,模型巨量化是一大趨勢。
算力基建化正當時,數據中心的發展方興未艾,每年仍在以20%以上的增速快速增長。而與此同時,作為耗電大戶,數據中心的規模化發展也帶來了節能降碳的挑戰,綠色低碳化成為大勢所趨。在未來計算的規模越來越大的情況下,如果融入綠色因子,就可以達到效益與生態的兼顧。
浪潮資訊踐行All in液冷戰略,從部件、整機到數據中心全棧布局綠色節能技術,並建成了亞洲產能最大的液冷天池產業基地,通過整合研發、生產、測試、品控、交付等在內的全鏈條能力,實現了液冷產品的標準化、品質化、系列化生產,年產能達10萬台。
據初步統計,截至今年四月份,採用浪潮資訊液冷技術的數據中心累計已節省1.05億度電能,相當於減少1.3萬噸標準煤消耗、3.5萬噸二氧化碳排放,種植194萬棵樹,可供6.6萬個中國家庭全年用電。