宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

加速AI,曙光存儲的登頂要義

2024年09月03日 首頁 » 熱門科技

生成式AI時代,企業對於AI的關注已從通用大模型轉移到行業生產場景中,只有當大模型和企業真實數據結合,才能發揮出生成式AI最大的價值。

數據地位因而被再次提高,存儲在企業中的優先級也被進一步提升。

為什麼這麼說,一方面算力越來越快,存力跟不上,經常導致算力資源空轉浪費,一方面數據質量是餵養模型生成的關鍵,所以存儲所承載數據的質量至關重要。

中科曙光存儲產品事業部運營總監石靜看到,加速,是AI數據存儲的核心需求。

在性能強、高IOPS等生成式場景成為常態的情況下,曙光存儲也在近期發布升級ParaStor分布式全閃存儲產品,進一步強化了在AI應用中的性能表現。

最懂AI的加速存儲方案

賽迪發布《2024中國分布式存儲市場研究報告》顯示,曙光存儲位居中國AI存儲市場第一。國家資訊中心隨後發布的《智能算力產業發展白皮書》,也重磅推介曙光存儲面向推出的「智存」產品,按讚其面向人工智慧場景的數據存儲能力。

雙重權威認可的背後,是因為曙光存儲抓住了AI數據存儲的核心需求——加速。

在以AI大模型為代表的人工智慧場景中,加速是數據存儲的核心價值,具體路徑是通過縮短數據讀寫時間,提升AI大模型的訓練效率,減少算力的空轉等待時間,從而降低AI成本。

ParaStor分布式全閃存儲被稱為是最懂AI的存儲產品,助力AI整體表現提升20倍以上。業界首創五級加速方案,讓數據無需等待,快,還能更快,包括本地內存加速、BurstBuffer加速層、XDS雙棧兼容,減少CPU中斷、網路加速(RDMA-Based)、存儲節點高速層( NVMe SSD-Based )。

石靜認為,性能提升20倍以上的關鍵技術創新,主要有兩個核心:最強的數據底座和最佳的AI應用加速套件。

數據底座:通過優化硬體性能,如利用高速網路(400G NDR IB卡或RoCE網路)與NVMe SSD閃存的協同作用,實現存儲系統的最高性能,使存儲能夠在不改變應用層操作的情況下發揮最佳效能。

AI應用加速套件:採用五級加速技術,從數據流動路徑的不同節點上加速I/O通路。第一層利用計算節點的本地內存加速熱點數據,降低延時至納秒級;第二層:在GPU伺服器本地的NVMe盤上緩存關鍵數據,避免跨網路訪問,顯著提升小文件讀寫性能;第三層:在網路層採用RDMA技術,充分利用網路帶寬;第四層:優化NVMe全閃存性能,提升存儲系統的整體效能;第五層:通過GPU直通存儲,減少CPU負載,實現GPU與存儲的直接交互,進一步縮短I/O通路和降低延時。

最近曙光存儲憑藉ParaStor分布式存儲強大的性能優勢,及在多個AI創新業務場景中的優秀實踐,榮獲2024年度閃存風雲榜「2024年度AI與閃存融合應用創新獎「。

具體到衡量存儲支撐AI算力的性能上,主要有兩個指標:第一,帶寬,體現在每一個節點,每秒鐘能夠提供的吞吐量。ParaStor分布式全閃產品,單個節點可以做到最高150GB/s帶寬;第二,IOPS(每秒輸入輸出操作數),智存ParaStor產品,每秒鐘可以給用戶提供320萬IOPS。

「整個I/O通路上存儲的每一個環節都不應該成為短板。」石靜強調,存儲必須快速、高效,並能應對大模型時代的複雜需求,才能支撐AI的高速發展。

所以在生成式AI時代,存儲產業面臨三個關鍵要求:

極致性能:隨著模型參數量的指數級增加,計算複雜度提升,對存儲性能提出了極高要求。存儲必須具備足夠的帶寬和高並發IOPS能力,確保在訓練和推理過程中不會成為計算的瓶頸。

業務契合度:隨著業務需求的個性化發展,存儲系統需能夠與具體應用相結合,進行針對性的調優和定製開發,以支持從通用大模型到垂直大模型的轉變。

數據安全:存儲系統不僅需要保障數據的完整性和可靠性,還需提供精細的權限管理和審計功能,防止數據篡改和未授權訪問,確保數據在整個I/O通路中的安全。

加速AI的多層次優化邏輯

AI工作流程主要被分為訓練和推理的兩大主要階段,具體又可以細分為數據導入清洗、預處理、訓練、推理、數據歸檔,曙光深入分析五個階段對存儲系統的不同需求,並進行了針對性的優化,以更好地支持AI應用的高效運行。

數據導入與清洗階段:存儲系統需要具備多元數據異構管理能力。這意味著存儲系統必須支持多種協議,並且能夠進行協議互通,以便高效地處理和管理不同來源的數據。

數據預處理階段:需要將數據讀入系統,執行單流讀操作後再進行分塊處理並實現隨機訪問,對存儲系統的IOPS提出較高要求。

數據訓練階段:存儲系統需要保障高IOPS和低延時,以應對頻繁的隨機訪問需求,加速訓練數據的讀取和處理。此外為了防止訓練過程中斷,需要定期執行Checkpoint操作,要求存儲系統具備高帶寬支持。

數據推理階段:會涉及分發、低延時、高並發等需求,存儲系統必須能夠快速響應並處理多個並發請求,以滿足AI推理的實時性要求。

數據歸檔階段:需要具備全生命周期管理能力,從熱存儲、溫存儲到冷存儲,確保數據在整個生命周期中的有效管理和歸檔。這要求存儲系統能夠在不同介質之間實現數據的自由流動,並根據不同需求動態調整存儲策略。

曙光存儲會基於這一框架進行需求分析,並進一步做深度優化。比如在AI模型訓練過程中,對於存儲挑戰最大的是伴隨很多隨機原數據訪問,並有較高IOPS及低時延需求。曙光存儲通過了解客戶具體的時延要求和IOPS目標,進一步分析調整原數據布局、優化數據分發策略、數據通訊,結合存儲軟體特點,並與GPU性能表現相結合,對整體系統進行綜合優化。

整個分析思路從宏觀需求分析逐步細化到具體技術調整,最終總結出多層次的優化策略,為用戶提供更高效的AI存儲解決方案。

針對當前十分火爆的「智元機器人」,考慮到其對於低時延、高性能和智能化運維的三個關鍵需求,曙光存儲設計了一套專門的解決方案。低時延方面,通過全閃分布式存儲、NVMe盤和RoCE高速網路,顯著降低數據傳輸時延。同時採用精細化資源調配策略,優先處理緊急請求,提升系統響應速度;高性能方面,提供最強的數據底座與最佳應用套件;智能化運維方面,引入AI進行故障預測和智能運維管理,確保系統在用戶前端呈現出最佳狀態,提升用戶體驗。

加速AI,曙光存儲的登頂要義

生成式AI時代,存儲已經不僅是數據的容器,更成為驅動企業創新與發展的關鍵引擎。曙光存儲通過不斷優化和創新,為AI應用提供了強大而高效的支持。隨著AI技術的不斷進步,存儲的角色將更加重要,曙光也將進一步助力企業在智能化轉型中實現突破,開創數字經濟新篇章。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新