宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI大模型如何重塑存儲產業?

2023年09月06日 首頁 » 熱門科技

AI大模型如何重塑存儲產業?

2023年,全球數字產業領域的從業者的目光都聚焦在一個核心議題——大語言模型(LLM)機器學習和生成式AI。並催生了運行大語言模型訓練和推理的CPU/GPU伺服器的需海量求,同時造成了算力短缺讓大家津津樂道。知名科技博客GPU Utils最近對GPU短缺問題進行了一項深入調查,保守估計H100的供給缺口達到43萬張。

但是我們說推動AI發展的三要素除了算力,還包括算法和數據。而數據的載體就是存儲。只要今天整個計算系統依然遵循馮諾依曼體系結構,那麼作為長期記憶數據和程序的存儲設備就不可或缺。過去,整個存儲系統也隨著應用的發展在不斷進化,從早期的資料庫應用催生的集中式存儲,到web2.0應用催生的分布式存儲架構,再到電商、影片、移動應用催生的軟體定義存儲、融合存儲架構等進化。

那麼面向大模型時代產生的新的應用和海量數據,對於數據存儲行業帶來怎樣的挑戰和機遇?整個存儲系統應該如何進化?我們通過與存儲領域的專家溝通來呈現一個目前存儲產業的應對之策。

大模型對於數據存儲帶來的挑戰

AI大模型在企業當中的實施過程是一個複雜的系統工程。要分析大模型對數據存儲帶來的挑戰,我們先了解一下AI大模型實施過程中的數據有怎樣的特點。

首先從數據源看,大模型呈現多模態趨勢,不僅要分析文本數據還要分析影片、圖片等數據,因此其離不開來自結構化(塊存儲)和非結構化(文件 對象存儲)數據源的數據。

其次,AI生成的數據越來越多,模型也越來越大。Gartner預測到2025年, AI的內容生成會占到整個數據量10%。以ChatGPT 4.0來舉例,它在訓練時候使用到了45TB的數據,有近一萬億個數據量,數十億行的源代碼。

第三,數據處理過程複雜冗長,大模型需要把分散到各個地方的數據進行歸集、預處理,然後把餵給AI大模型。生成式AI模型雖然由GPU負責訓練,但是大量的投餵素材的任務,將越來越多由數據驅動的大規模非結構化和對象存儲負責。以數據預處理為例,百TB級的數據可能需要大概10天左右的準備時間。

了解了數據特點,我們就可以來分析一下給數據存儲帶來的挑戰。

首先給存儲系統帶來的挑戰是容量和性能挑戰。「本質上講數據的數量和質量決定了人工智慧整體的落地水平。結合人工智慧應用從數據角度來說,它的訓練需要海量數據尤其是PB級的數據,需要更大的存儲容量,同時在訓練過程中這些數據寫得少,讀得多,還需要更高的吞吐量,以及對延遲、性能都有更高的要求。」 西部數據中國區技術支持高級總監宋磊這樣講到。

特別是當AIGC進入多模態領域之後,對存儲的性能帶來新的挑戰。「以訓練生成式AI為主的大模型如果進入到多模態領域,比如影片、圖片,下一輪會對存儲帶來新的挑戰。」 新華三存儲產品線總經理關天舒對至頂網表示。他認為AI大模型應用跟我們之前存儲的應用完全不是一個概念,對性能要求其實更高。「大模型應用除了CPU計算,更多是GPU的計算,需要存儲要能夠去適配GPU存儲的加速,因此存儲訓練時間決定了大模型的生產時間,對於存儲性能需求也比較大。」

其次是存儲系統的穩定性提出更高要求。這是因為AIGC不僅數據量大,而且對於數據質量要求也更高。華為數據存儲產品線總裁周躍峰博士認為,數據質量決定機器AI智能的高度:缺數據,無AI。數據質量越高,越有價值的數據給人工智慧提供更可靠的輸入,AI服務能力越智能。要實現高質量的數據訓練對存儲穩定性提出更高的要求。談到存儲穩定性的挑戰,周躍峰表示,「主流訓練模型已經有千億級參數,甚至將發展至萬億級。AI大模型訓練不穩定,頻繁的參數調優、伺服器故障或者網路的故障經常造成中斷,我們需要Checkpoint機制確保訓練能夠快速返回。」

「我們知道大模型訓練耗時非常久,它對可靠性提出非常高的要求。在大模型訓練裡面有一個很關鍵且不一樣的點就是CheckPoint,對整個大模型訓練非常重要,需要存儲能夠提供一個非常穩定的狀態,能讓之前的訓練恢復到CheckPoint之前的狀態,需要存儲更加穩定才能讓模型訓練更加可靠。」 關天舒也分享到。

第三,大模型訓練過程中面臨的眾多挑戰,從存儲的場景或者說數據中心存儲場景來講,大模型數據是經過了採集、存儲、處理、傳輸、加工再存儲這樣的循環路徑。具體到通用大模型與行業大模型的訓練推理過程中面臨眾多數據難題:比如數據準備階段的問題,包括數據歸集慢以及數據預處理周期長。

在AIGC之前,存儲底層設計往往跟用戶應用層面相關,存儲要麼專注小IO,要麼就專注於大IO,今天客戶需求明確的發生了變化。大家知道相較於傳統深度學習模型,大模型帶來訓練參數、訓練數據集呈指數級增加,百億、千億甚至萬億的參數級。在這個過程中,需要整個系統對於小文件的讀寫能力非常強,但恰恰是傳統的系統,小文件的讀寫限制了這一些訓練數據集的讀取,讓整個存儲系統的效率很低。

」數據歸集需要從跨地域的多個數據源拷貝原始數據,這些原始數據不能直接用於AI模型訓練,需要將多樣化、多格式的數據進行清洗、去重、過濾、加工,大量的數據預處理工作需要耗用大量的GPU,我們知道100個GPU每小時的訓練成本是幾十萬,如何實現海量的小文件數據集快速加載,降低GPU等待時間都是需要認真考慮的問題。」周躍峰談到。

第四,數據安全的挑戰。數據是企業的核心資產,客戶上傳自己公司的數據,訓練專屬的GPT,實現數據的隔離,確保業務的安全性。因此在跨地域歸集的過程中必須保證數據安全地流轉,做到數據不泄露。存儲內生安全體系架構需要從存儲設備安全、數據安全防護能力,結合安全管理流程,為AI大模型構築數據安全最後一道防線。

存儲產業的應對之道

一方面AI模型所需要的非結構化數據要明顯多於結構化數據,另一方面AI模型需要大量實時、近實時和歸檔數據,其中實時和近實時數據主要由閃存介質提供。因此當前存儲廠商都是通過不斷創新的閃存介質結合超大規模的軟體定義存儲模式來應對AIGC大模型。

存儲介質方面的提升

AIGC對於NAND SSD 需求必然越來越多,主要集中在NVMe、PCIe 4.0和5.0連接以及性能與容量的組合。我們看到包括海力士、三星等QLC和高層數TLC NAND等晶圓廠商和SSD供應商都是利好消息。

相比HDD,全閃存介質支持高IOPS、低時延,更適用於AI大模型訓練階段的隨機讀寫場景。AIGC對存儲介質也提出新的要求,要求更高的密度、高可靠和高性能。「AIGC對於數據存儲的增量是幾何級,同時對IO要求更高,應用不太可能都放在伺服器上跑,需要從遠端存儲系統上調用數據,因此NAND SSD可以是構築AI存儲的更好選擇。」 Solidigm亞太區銷售總監倪錦峰談到。

同時他認為當前SSD硬體創新速度遠遠大於軟體創新,比如針對大模型,需要夥伴網際網路公司和OEM夥伴一起針對市場需求和反饋共同優化模型並進行性能調優。「包括目前美國全閃存市場相對成熟,是因為他們的存儲軟體能力強,他們對存儲的要求不是混合讀寫的性能,而是隨機讀寫能力和延時,這需要很強的軟體能力,即順序化要做得非常好。」 倪錦峰分享到。

存儲系統方面的重構

關天舒表示,我們認為大模型對於存儲的發展有一個新的要求:需要存儲提供更快的速度、更強的可靠性、更簡單的管理能力以及可持續發展的能力。新華三也第一時間提出在AI時代需要對存儲進行重構,發布H3C/HPE Alletra MP全局解耦NVMe智能全閃存儲、H3C UniStor X10000 G6系列分布式智能融合存儲,來構築更加智慧的數據底座,助力AI時代加速發展。

而華為也提供了面向大模型的AI存儲解決方案,通過高帶寬、大容量的存儲設備,支持萬億參數大模型訓練。還通過近存計算技術系統性地實現數據在存儲端的預處理,從而讓AIGC訓練過程更高效。

「華為通過以存補算,突破算力局限,通過近存計算實現近數據預處理,讓數據在存儲完成部分過濾、歸一、轉碼與增強的數據準備任務,減少數據搬移,從而提升GPU利用率。同時,把企業最新垂直化的數據進行向量化存儲和檢索,大幅度降低企業接入和使用AI大模型的難度。」周躍峰談到。在安全方面,華為正在研究一種稱為「數據方艙」的技術。實現數據在流轉的過程中,數據及其訪問權限、憑證資訊都被封裝在一起進行流轉,而數據到達歸集地後,將在「數據方艙」安全執行環境中被安全地使用,從而保證數據的安全訪問。

作為存儲系統的另一個分支超融合領域,我們也看到廠商也在積極擁抱大模型,因為超融合本身架構就是開箱即用、靈活配置。當前超融合廠商主要還是在於大模型應用的集成,來降低企業實施大模型的門檻。比如Nutanix就推出了一款即插即用的交鑰匙GPT「魔盒」,供客戶在其超融合軟體平台上運行大型語言模型人工智慧工作負載。

在8月底,沃趣科技基於超聚變超融合產品也發布針對資料庫的專有雲產品T7,沃趣科技CTO魏興華也告訴至頂網目前在資料庫一體機領域,大模型目前主要應用在運維和管理上。「比如說把所有用戶面臨的故障進行收集,通過大模型來快速分析、識別相關硬體或者軟體版本,來判斷哪些場景容易發生故障,第一時間給出建議。同時大模型來輔助開發人員編寫代碼提升效率等。」

通過專家們的分享我們看到。當前大模型對於存儲的影響,首先是介質的影響,更接近計算的內存和NAND SSD的市場將進一步擴大。但是瓶頸也在軟體層面的優化。其次是存儲系統的挑戰,面向AIGC,大語言模型訓練的運行需要配合高速數據集讀取和CheckPoint寫入,同時AI/機器學習集群將需要PB級別的容量,這種並行訪問必然需要存儲系統更新其新的協議、新的介質、新的架構來構建一個統一的「數據湖」,也就是軟體定義存儲機會也將是新的機會。我們看到,包括新華三、華為、Pure Storage等供應商正在積極準備使用NVMe協議和支持GPU伺服器的文件訪問的AI存儲,來應對高容量、高可靠和高速IO的新的存儲市場機遇。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新