
分析:HPE 的 Alletra MP X10000 對象存儲系統代表了一類採用 VAST Data 開創的分離式共享一切 (DASE) 架構的新型橫向擴展存儲硬體。HPE 全球技術與戰略架構師 Dimitris Krekoukias 撰寫了一篇博客,詳細介紹了其主要特性及其設計理念。
他列舉了系統的關鍵特性,包括用於 S3 的 RDMA 和 GPUDirect、數據服務分區、鍵值存儲基礎、單一存儲桶速度、高吞吐量和小型事務的平衡讀寫速度、小型寫入緩衝等功能。
該系統採用 HPE 自主技術構建,而非 OEM 軟體或授權硬體。它由基於 ProLiant 的存儲伺服器控制器節點和獨立的全閃存儲或容量節點組成,通過 NVMe 內部架構互聯,並存在於全局命名空間中。容器化作業系統最初提供對象存儲功能,但可以在其基礎日誌結構化鍵值存儲之上支持其他協議,並可添加額外的協議層。
Krekoukias 表示:"這些協議層針對特定協議的語義進行了優化,將每個協議都視為一等公民。這使 X10000 能夠充分利用每個協議的優勢,而不會繼承第二個協議的缺點或在協議之上運行其他協議(如對象協議在文件協議之上或反之)。"
HPE 需要系統能夠使用 RDMA (遠程直接內存訪問) 和 Nvidia 的 GPUDirect for S3 協議快速訪問對象數據,為 GPU 伺服器提供直接存儲驅動器訪問。Krekoukias 寫道:"與 TCP 相比,這項技術將大大提升性能並顯著降低 CPU 需求,使您能夠更充分地利用基礎設施,並消除 GPUDirect 管道中的 NAS 瓶頸。"
他聲稱:"通過三重以上糾刪碼和級聯多級校驗和(這是從 Nimble 以及後來的 Alletra 5000 和 6000 首次看到的保護機制的演進),確保了極致的彈性和數據完整性。"寫入緩衝區位於 SSD 而不是 NVRAM 中,"消除了 HA 對的限制。"
每個驅動器被分區為所謂的小型邏輯驅動器或磁盤片,小至 1 GB,這些磁盤片被放入 RAID 組中。這些 RAID 組可以限制在一個 JBOF (存儲節點) 內,或跨越多個 JBOF 以防止故障。輸入數據經過壓縮,"通過使用 24 個磁盤片的 RAID 組確保良好的空間效率。"
工作負載被切分為數據服務分區 (DSP),DSP 分片在獨立的控制器節點上運行。如果一個或多個控制器節點失效,受影響的 DSP "只需在剩餘控制器之間進行均勻重新分配即可。"磁盤片 RAID 切片根據需要動態分配給 DSP。
Krekoukias 指出:"由於所有狀態僅在 JBOF 中持久化,節點完全無狀態,因此 DSP 的移動只需幾秒鐘,且不涉及數據移動...由於對象基於哈希分布在 DSP 中,性能始終在集群節點間保持負載均衡。"計算和存儲容量可以獨立擴展。
除了 GPUDirect for S3 外,性能一直是系統設計的重點。博客告訴我們,"典型的非結構化工作負載,如分析和數據保護,假定每個應用單元(如單個倉庫或備份鏈)使用單個存儲桶或少量存儲桶。"由於 DSP 分片概念,無需使用多個小型存儲桶來提高 I/O 性能。
他寫道:"X10000 線性擴展單個存儲桶的能力意味著單個應用程序與大量應用程序或租戶一樣,都能從 X10000 的橫向擴展能力中受益。"
HPE 表示,X10000 具有平衡的性能,因為它"旨在提供平衡的讀寫性能,既適用於高吞吐量,也適用於小型事務操作。這意味著對於重寫入工作負載,不需要大規模集群。這帶來了針對任何工作負載的優化性能體驗,並能夠在不浪費資源的情況下達到性能目標。"
該系統的"X10000 日誌結構化鍵值存儲是基於區段的",區段大小可變。區段是一個連續的存儲塊,可容納多個鍵值對,從而提高訪問速度。元數據和數據訪問也可以適應應用程序邊界。
"X10000 的寫入緩衝區和索引針對小對象進行了優化。X10000 實現了一個寫入緩衝區,小型 PUT 操作首先提交到該緩衝區,然後再歸檔到日誌結構化存儲中,元數據更新則合併到分形索引樹中以實現高效更新。"
小對象寫入 (PUT) "在歸檔到日誌結構化、受糾刪碼保護的存儲之前,先提交到 X10000 的寫入緩衝區。寫入緩衝區提交可減少小型 PUT 的延遲並降低寫入放大。寫入緩衝區存儲在與日誌結構化存儲相同的 SSD 上,由一組磁盤片組成。"
Krekoukias 表示:"基於 SSD 的寫入緩衝區可以為延遲敏感的結構化數據工作負載提供與 NVDIMM 等先前方法相同的高可靠性和低延遲。"
所有這些設計要點意味著小型 X10000 配置(僅具有 192 TB 原始容量和 3.84 TB SSD)就能獲得良好的性能,無需擴大集群規模即可實現高性能。