宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

戴爾PowerScale存儲升級,可支持AI模型訓練

2024年05月21日 首頁 » 熱門科技

 

戴爾PowerScale存儲升級,可支持AI模型訓練

 

戴爾新近發布帶有並行文件系統的PowerScale F910系統。

PowerScale是戴爾在收購EMC Isilon橫向擴展文件管理方案之後,為其定下的新名稱。截至目前,戴爾共發布了五種全閃存PowerScale型號:F200、F210、F600、F710以及F900。其中F210與F710系統於今年2月份發布,採用PCIe Gen 5總線並配備Sapphire Rapids英特爾CPU。二者均屬於直連存儲設備的PowerEdge伺服器,運行OneFS作業系統,支持將3到252個節點組建為集群。

而F910與F900一樣,採用2RU機箱並配有24個NVMe驅動器。每個節點最多可容納1.87 PB容量,意味著其採用的是61 TB SSD,我們猜測是由Solidigm提供的QLC驅動器。戴爾非結構化數據解決方案(UDS)部門高級產品經理Tom Wilson在F910博客中表示,「與之前發布的F710相比,F910每RU的密度提高了20%。」

F910本質上就是F900,只不過CPU從Cascade Lake升級到了Sapphire Rapids,總線也由PCIe Gen 3升級到了Gen 5。而且與F210和F710的OneFS 9.7版本相比,其9.8版本也更為先進。

 

戴爾PowerScale存儲升級,可支持AI模型訓練

 

F910可在本地使用,其OneFS v9.8作業系統可在公有雲端作為APEX文件存儲(亞馬遜雲科技與Azure)使用。戴爾表示,F910的流媒體性能比F900高出127%,速度可達Azure NetApp文件產品的6倍。戴爾還提到,這也是首款適用於英偉達DGX SuperPOD的以太網存儲系統。

Wilson在博文中寫道,「它加速了AI管線的模型檢查點與訓練階段,並讓GPU利用率保持在高位,每個集群將擁有高達300 PB的存儲空間。」他還補充稱,「通過提供高達上代產品2倍的每瓦性能,F910可以更好地控制存儲成本並優化存儲資源利用率。」這裡的比較對象應該是運行有OneFS 9.5的F900。

OneFS 9.8提供RDMA for NFS v4.1,APEX File Storage for Azure以及基於源的IPv6網路路由。PowerScale OS據稱可以保護AI數據免遭投毒和模型反演,即攻擊者根據目標模型的輸出訓練自己的機器學習模型,從而根據目標模型的輸出來倒推該模型接收到的輸入數據。這類似於一種為AI模型建立數字孿生以實現的逆向工程。但戴爾並未公布OneFS抵禦模型反演的具體實現方式。

戴爾ISG營銷高級副總裁Varun Chhabra在簡報中表示,「我們很高興地宣布Project Lightning,它將為PowerScale中的非結構化數據提供並行文件系統。Project Lightning將提供極致的性能與無與倫比的效率,同時實現近線速義弟——網路利用率可達97%,並使得1000個需要大量數據的GPU達到供應飽和。」

 「與傳統的全閃存、橫向擴展NAS解決方案相比,Lightning將提供20倍性能提升,這也使得PowerScale成為運行最先進AI工作負載的完美平台。」

戴爾的Project Lightning擁有悠久歷史。早在2010年,該項目就涉及基於PCIe/閃存的伺服器緩存技術。通過長期發展演進,PowerScale集群節點如今已可並行執行I/O。但戴爾並未透露F910軟體將如何更改以添加並行文件系統訪問的細節消息,OneFS 9.8版本的發行說明同樣沒有提及並行訪問。

 

戴爾PowerScale存儲升級,可支持AI模型訓練

 

我們不知道並行文件系統支持是否會擴展到其他全閃存PowerScale產品。明顯也有其他人向戴爾提出了類似的問題。

Chhabra還補充了一些關於網路部分的要點:「隨著GPU變得越來越大,其對網路資源的要求也越來越高。因此網路必須既能夠承載GPU之間的數據流、又能繼續傳遞好從伺服器到存儲間的數據流。網路規模日益龐大,因此我們與博通合作發布了一系列非常重要的公告,以幫助客戶使用自己的AI網路結構,確保能夠從基礎設施中獲取最優性能。我們提供基於以太網的網卡、交換機與網路架構的全面產品組合,而且在各個層面上都在不斷進步。而一馬當先的就是基於博通Tomahawk 5的全新PowerSwitch,將可支持400 G與500 G交換能力。」

Wilson指出,「我們將在今年下半年推出更進一步的增強功能。」具體包括:

·        61 TB QLC驅動器,將使得存儲容量與數據中心密度加倍,以容納訓練複雜AI模型所需要的大規模數據集。

·        包含200 GbE以太網選項及HDR 200G InfiniBand選項,可實現更強大的連接性、更快的數據訪問速度以及更無縫的集群擴展效果;適用於英偉達Spectrum-4與Quantum QM8790交換機。

PowerScale F910將於2024年5月21日起在全球範圍內上市。感興趣的朋友可以去(https://www.delltechnologies.com/asset/en-us/products/storage/technical-support/h15963-ss-powerscale-all-flash-nodes.pdf)查看規格表,也可在PowerScale網站(https://www.dell.com/en-us/shop/powerscale-family/sf/powerscale#tab0=0)上找到關於戴爾AI優化型PowerScale節點的更多細節資訊。

戴爾公司一位發言人告訴我們,「新的並行文件系統將在晚些時候推出,我們目前不會透露具體時間。」

PowerScale的市場定位

戴爾這套並行文件系統在IO方面的突破,使得PowerScale成為Lustre、IBM Spectrum Scale、VAST Data、WEKA以及其他並行訪問文件系統存儲廠商的直接對手。再考慮到所有最快的英偉達GPUDirect認證文件系統在本質上都為並行、而非按序設計,因此PowerScale也相當於是向AI模型訓練領域邁出了堅實的一步。

2月2日,麥可·戴爾曾發推文表示:「如果存儲系統無法以足夠快的速度向英偉達交付數據,那麼英偉達GPU往往會陷入閒置。也正因為如此,我們才打造出了世界上最快的AI存儲方案PowerScale。」但這條評論與GPUDirect廠商的統計數據不符,從統計結果來看,與DDN、華為、IBM、NetApp以及BeeGFS、VAST和WEKA的並行系統相比,當時還在採用按序IO設計的PowerScale明顯處於落後地位。

 

戴爾PowerScale存儲升級,可支持AI模型訓練

 

但現如今情況早已不同,我們也期待看到更新之後的PowerScale GPUDirect性能數據。

通過採用並行訪問,PowerScale現在與NetApp也拉開了差異。NetApp的ONTAP文件系統產品為橫向擴展設計,本質上並非並行;出於同樣的理由,PowerScale與Qumulo也終於區分開來。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新