宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

直指數據挑戰 浪潮存儲三大創新方案加速生成式AI落地

2023年07月18日 首頁 » 熱門科技

當下,生成式AI(AIGC)的熱度依然在持續,Gartner預測,到2023年將有20%的內容被AIGC所創建;到2025年人工智慧生成數據占比將達到10%。

隨著大模型參數量和數據量的爆發式增長,多源異構數據的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一。

直指數據挑戰 浪潮存儲三大創新方案加速生成式AI落地

為了化解生成式AI的數據存儲與管理瓶頸,浪潮資訊在「數智未來」AIGC數據應用創新論壇上,正式發布面向生成式AI的存儲解決方案,該方案以極致融合、極致性能、極致節能,和熱溫冷冰四級數據全生命周期管理,助力開啟生成式AI新局面,創造智慧時代新機遇。

生成式AI帶來的存儲挑戰

數據是AIGC大模型應用的核心,決定了機器學習算法的性能、泛化能力、應用效果。分布式存儲成為AI大模型海量多態數據的主流載體,AIGC對於分布式存儲是一大利好。

不過參數量和數據量的極速膨脹,數據存儲與管理正在成為制約AIGC產業發展的瓶頸。音頻、影片等非結構化數據是AI大模型應用的主流數據形態,行業上下游對數據的採集、標註、訓練、推理、歸檔,其特徵是數據量大、多元數據類型複雜、服務協議多樣、性能要求苛刻、要求服務持續在線。

異構數據的融合:生成式AI訓練模型的數據呈現來源多、格式多的多源異構現狀,傳統存儲面向單一數據類型設計,需要以搬移數據的方式實現多協議訪問,存儲成為應用平台的關鍵瓶頸。

浪潮資訊首席架構師葉毓睿說,從數據整理到AI訓練、推理,以及最後的數據歸檔,AI的整個生命周期中不同階段對於存儲的要求是不同。通過多模融合對文件、對象、大數據、影片四種協議任意訪問非結構化數據,可保證訪問的權限共享、語義無損、性能一致,免除數據跨應用時的複製或轉換,真正實現即時共享。

持續的低延遲與高帶寬:模型訓練過程中,頻繁地從數據集取Token,每個Token一般4字節,實時高並發小IO性能需要極低的延遲;存儲模型Checkpoint時,為Checkpoint數據可快速寫入,需要高帶寬。

浪潮分布式存儲產品線總經理姜樂果表示,AIGC應用的數據容量特別大,而且小文件居多,性能要求非常高,甚至是指數級的,存儲性能表現一定要強。在新應用數據實時處理需求驅動下,支持高速全閃的高性能數據基礎設施成為發展方向。

EB級大容量存儲需求:越多的數據投餵結果越精準的工作原理,決定了大模型訓練存在深度學習網路層數多、連接多、參數和數據集種類複雜、數據量大的特徵,隨著模型參數和數據量的快速增長,對於存儲的大容量和擴展需求也迫在眉睫。

數據存儲產業需要進行全方位的技術升級,通過在多源異構融合、數據高速傳輸、海量數據管理等方面持續創新,打造專業的生成式AI存儲產品與解決方案。

浪潮存儲的創新之道

針對AIGC對於存儲提出的新挑戰,浪潮資訊生成式AI存儲解決方案具備多模融合、極致性能、綠色節能三大存儲資源池技術特性。

多模融合。業界首個多合一極致融合架構,以多模融合存儲池AS13000支持海量多態數據採集、標註等需求。

為了應對不同模態的多樣性需求,浪潮資訊提出「協議互通、數據融合」設計理念,一個集群內支持多個存儲池,一個存儲池內支持文本、圖片、音頻、影片等多種類型數據存儲,一份數據又可以被前端不同業務場景同時以文件、對象、大數據、影片四種存儲協議進行並行訪問。

姜樂果介紹說,用一套存儲實現支持多模態場景應用,免除了數據跨應用時的複製,實現真正意義上非結構化數據的協議互訪互通,讓數據融合,而且在存儲成本上更具優勢。

極致性能。浪潮資訊AI架構師楊鑫表示,AI集群在訓練中對於存儲的性能提出了更高的要求。AIGC場景數據類型多樣化,文件大小不一、數量多,且讀寫頻繁,對存儲系統的百GB級高帶寬、百萬級IOPS需求成了常態。

軟體層面,浪潮通過GDS、RMDA技術縮短I/O路徑,通過SPDK、緩存零拷貝技術減少I/O路徑上的數據拷貝,以及基於自研NVMe SSD開發的盤控協同技術,減少I/O訪問SSD盤的次數,使存儲性能得到進一步釋放。硬體方面,優化IO路徑通道,均衡IO路徑,最大化發揮硬體性能,全閃單節點帶寬超過50GB/s,IOPS超過50萬;創新性地引入雙控全閃節點,帶寬超100GB/s,IOPS超100萬。

此外,浪潮資訊的NVMe SSD通過SR-IOV可以實現多租戶性能隔離,釋放CPU算力。與存儲軟體智能聯調,IO處理效率提升35%,協同智能網卡降低延時,並優化讀寫混合場景IO並發,提升集群性能30%。

綠色節能。能耗問題已經成為數據中心產業發展過程中不可忽視的問題。近期浪潮資訊最新發布了G7硬體平台,存儲專用的液冷伺服器涵蓋性能型和容量型,且均採用模塊化冷板組件設計模式。在系統方案層面,浪潮資訊具有風液式、全液式等完善的端到端解決方案,能夠為用戶全方位打造液冷數據中心交鑰匙工程,並且完成了業界首次液冷整機櫃批量交付,實現PUE小於1.1。

其中,浪潮存儲支持熱溫冷冰存儲池分級,按熱度自動遷移,存儲TB級數據成本降低超50%,TCO降低35%。高密冷數據存儲方面,採用4U60高密機型,存儲密度提升66%;節能冰數據存儲方面,以極低能耗實現冰數據離線長期保存。

除了三大能力之外,得益於「資源互通、管理融合」的設計理念,浪潮生成式AI存儲方案基於閃存、磁盤、磁帶、光盤四種介質提供熱溫冷冰四種存儲資源,通過資源互通實現數據全生命周期管理。用高性能節點形態來滿足數據訓練、數據推理兩個階段的高帶寬、低延時、高並行讀寫性能存儲需求,用大容量節點形態來滿足數據採集、數據準備、數據歸檔三個階段的海量多元數據存儲需求。

浪潮資訊生成式AI存儲解決方案還支持InView一體化智能運維,解決IT系統運維難題,提高運維效率,保證數據的可靠性和可用性,降低運維成本。

目前,浪潮資訊生成式AI存儲解決方案已經在全球領先的中文語言大模型「源1.0」中成功落地,面對千億級參數量和數據量帶來的挑戰,浪潮資訊通過AS13000高吞吐並行存儲系統實現了多存儲協議互通、數據融合,利用全閃的極致性能,助力「源1.0」大模型實現了16天完成訓練的超高效率。

國內AI獨角獸公司採用浪潮資訊提供的並行文件存儲,承載5000億參數量的NLP語言類大模型的數據集Token和Checkpoint文件,輕鬆應對大/小文件的讀寫挑戰,配置AS13000全閃存儲集群,支持高性能RoCE組網和GPU直通存儲功能,帶寬超過300GB、存儲性能超過350萬 IOPS,保證存儲集群的高可用與敏捷擴容。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新