GPUDirect Storage(GDS)旨在通過使用直接指向NVMe存儲驅動器的IO繞過存儲伺服器/陣列控制器的主機作業系統及CPU/內存,從而加快讀寫訪問速度。

目前,各供應商已經公布了自己的GDS性能,為客戶提供了一種能夠比較其優劣的方法:

我們整理了過去幾年總計十家供應商發布的結果,具體如上圖所示。隨著AI市場的發展成熟,訓練和推理類工作負載之間也出現了應用差異。除了RAG和向量搜索的興起之外,市場上還出現了AI數據管線的概念。當今AI存儲必須能夠支撐整條管線中的各個階段,特別是滿足推理和訓練負載對於數據訪問的需求。
考慮到這一點,英偉達最頂尖的GPU伺服器DGX SuperPOD列出了經過認證的存儲供應商。要想入圍這份名單,供應商們要做的已經不僅僅是將數據調整傳輸至GPU。傳輸帶寬雖然非常重要,但已經不是唯一關鍵的指標。據我們了解,想要從單一節點層級衡量GPUDIrect性能並不靠譜,正確的方法應該更加全面,即考量能否具備一定的性能水平讓SuperPOD保持高負荷運轉,同時滿足英偉達提出的延遲標準、持續性能水平、支持數千張GPU的可擴展性、大規模AI數據集處理以及系統與軟體兼容性要求。
這裡強調的性能,已經不單單指GDS帶寬。可擴展性同樣至關重要。Pure Storage公司高級總監Hari Kannan在採訪中表示,「我們正在推進英偉達SuperPOD認證,而且認證內容主要集中在性能層面。畢竟這也是SuperPOD的意義所在——必須保證在極高規模下仍擁有出色的性能表現。為此,我們必須與英偉達分享自己的性能基準。他們也開展了自己的性能測試,以驗證其是否符合他們提出的SuperPOD基準。」不過具體基準內容尚未公開。
目前已經有四家SuperPOD存儲供應商通過了認證,分別為:DDN及其A³I A1400X2T Lustre陣列;IBM及其Storage Scale System 6000、NetApp及其運行BeeGFS的EF600,以及VAST Data及其Data Platform數據平台。這四家供應商均提供並行文件系統訪問能力。

上圖所示,為IBM獲得的英偉達SuperPOD認證函。可以看到其中單個SSS6000的讀取速度就高達340 GB/秒,寫入速度則高達175 GB/秒。
計劃支持SuperPOD的存儲供應商還包括戴爾的PowerScale、Pure Storage以及WEKA的WEKApod。
戴爾正著手在Lightning項目當中為其PowerScale OneFS作業系統添加並行文件系統支持。這也許有助於其滿足SuperPOD提出的性能與可擴展性要求。
據我們了解,Hitachi Vantara的VSP One存儲已經獲得了BasePOD認證,下一步希望通過SuperPOD認證。我們也就SuperPOD認證一事詢問了NetApp及其ONTAP AFF陣列,並將在得到回覆後向大家報告。
MinIO公司表示,其開源DataPOD對象存儲方案能夠擴展以支持任意數量的GPU伺服器。但據我們了解,該公司並不打算通過SuperPOD認證。此項認證主要面向文件系統存儲,即使底層基於對象存儲,也至少需要在應用層表現為文件系統的形式。
SuperPOD存儲認證更像是一種衡量是否合格的兼容性測試,而非能夠量化的基準測試。而從英偉達的市場利益的角度出發,最好是能有更多存儲供應商順利通過SuperPOD數據訪問認證。如此一來,客戶就不必比對公開發布的SuperPOD性能基準測試,再從中選取速度最快的存儲供應商。總之,這種不公開SuperPOD存儲性能數據、而單純以是否通過認證來衡量的方式,更有利於英偉達團結更多合作廠商。