宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

VDURA:AI 訓練和推理需要優化文件與對象存儲的平衡

2025年02月13日 首頁 » 熱門科技

 

VDURA:AI 訓練和推理需要優化文件與對象存儲的平衡

 

在存儲領域,有觀點認為對象存儲比文件存儲更適合 AI 訓練和推理,這引起了廣泛關注。VAST Data 的聯合創始人 Jeff Denworth 和 Microsoft 的 AI 基礎架構架構師 Glenn Lockwood 都支持這一觀點。然而,Hammerspace 的市場高級副總裁 Molly Presley 和 VDURA 的 CEO Ken Claffey 持不同意見。

VDURA 為超級計算、機構和企業級 HPC 提供並行文件系統。Ken Claffey 認為,在 AI 訓練和推理市場中,文件或對象的數據訪問問題被誤解了。他認為兩者都有其作用,並在採訪中與我們討論了這一點。

Blocks & Files:是什麼讓您開始思考這個問題的?

Ken Claffey:VAST Data 的 Jeff Denworth 最近大膽聲稱「沒有人需要文件系統來進行 AI 訓練」,而基於 S3 的對象存儲是未來。雖然 AI 工作負載確實在演變,但聲稱文件系統已經過時是誤導性的。

Blocks & Files:您認為 AI 存儲需求的現實是什麼?並行文件系統在大規模高性能 AI 訓練中扮演什麼角色?

Ken Claffey:在 VDURA,我們不認為 AI 存儲是文件和對象之間的二選一。我們的架構以高性能對象存儲為核心,前端是一個完全並行的文件系統。這意味著用戶可以獲得兩者的最佳優勢:對象存儲的可擴展性和持久性,以及 AI 訓練所需的高性能訪問。

在我們最新的 v11 版本中,我們通過集成高性能分布式鍵值存儲進一步增強了平台。這一新增功能優化了元數據操作,並實現了超快速索引,進一步增強了 AI 和 HPC 工作負載。此外,VDURA 提供了一個高性能的 S3 接口,允許在文件和對象協議之間無縫訪問相同的文件和數據。這確保了企業在擴展 AI 基礎架構時的最大靈活性和投資保護。

Blocks & Files:對象存儲在這裡有什麼作用?

Ken Claffey:Microsoft Azure 的 Glenn Lockwood 最近指出,大規模 AI 語言模型越來越多地使用對象存儲進行訓練,而不是文件存儲。他的觀點與向基於對象的架構的轉變趨勢一致,但在得出結論之前,重要的是要仔細研究 AI 訓練工作流程的細微差別。

Lockwood 列出了 AI 模型訓練的四個主要階段:

數據攝取:收集大量非結構化數據,適合對象存儲,因為它具有不變性和可擴展性。

數據準備:轉換和清理數據,這主要是一個內存和分析驅動的任務。

模型訓練:通過 GPU 運行 Token 化數據並檢查模型權重,需要快速存儲訪問。

模型部署和推理:分發訓練好的模型並處理實時查詢,通常通過鍵值存儲進行優化。

雖然 Lockwood 認為這些工作負載不需要並行文件系統,但他的論點主要圍繞成本效益而非原始性能。對象存儲因其規模和成本效益而適合數據攝取和準備。然而,對於模型訓練和實時推理,像 VDURA 這樣的混合方法能提供最佳的解決方案。

Blocks & Files:您認為 Nvidia 在這方面的觀點是什麼?

Ken Claffey:隨著他們發布下一代 GPU 和 DGX 平台,他們繼續強調高性能存儲需求。根據 Nvidia 自己對 DGX 的指導意見,領先的 AI 平台推薦的存儲配置是:

「高性能、可靠的、POSIX 風格的文件系統,優化用於多線程讀寫操作,跨多個節點。」

我們是否遺漏了 S3 的要求?Nvidia 並未表示 AI 訓練應僅依賴對象存儲。事實上,他們自己的高性能 AI 架構是圍繞為多線程、高吞吐量訪問而設計的文件系統構建的。

Blocks & Files:檢查點是否鼓勵使用對象存儲?

Ken Claffey:Denworth 提到 Nvidia 的「S3 Checkpointer」作為 AI 訓練轉向對象存儲的證據。然而,他方便地忽略了一個關鍵細節。Nvidia 自己文檔的下一部分指出:「異步功能目前不檢查先前的異步保存是否完成,因此即使當前保存失敗,也可能會刪除舊的檢查點。」

這在實踐中意味著什麼?使用異步檢查點可能導致恢復點更早。這大大降低了檢查點的可靠性,並增加了訓練進度丟失的風險。同步、一致的檢查點的價值不容小覷——這是並行文件系統經過數十年優化的內容。

Blocks & Files:您如何優化 VDURA 存儲?

Ken Claffey:與其將爭論框架為「文件與對象」,VDURA 構建了一個集成解決方案:

一個高性能對象存儲,以高效處理大規模數據攝取和歸檔。

一個完全並行的文件系統前端,以低延遲、高帶寬訪問優化 AI 模型訓練。

一個分布式鍵值存儲,加速元數據查找、向量索引和推理。

一個高性能 S3 接口,確保跨 AI 工作流的多協議訪問。

這種架構解決了 Lockwood 的擔憂,同時也滿足了企業對最高性能和可擴展性的需求。雖然對象存儲發揮了關鍵作用,但完全忽視並行文件系統無視了大規模 AI 訓練的實際情況。

Blocks & Files:您如何看待 AI 存儲的未來?

Ken Claffey:Denworth 和 Lockwood 都為對象存儲提出了強有力的理由,但他們淡化了 AI 訓練中性能關鍵的方面。AI 存儲的未來是混合的:

並行文件系統提供訓練所需的速度和效率。

對象存儲適用於歸檔、共享和檢索工作負載。

多協議解決方案彌合了差距,但這並不意味著文件系統已過時——遠非如此。

高性能分布式鍵值存儲增強了元數據管理和索引,進一步優化了 AI 工作流。

VDURA 的方法承認了這一現實:以高性能對象存儲為核心,一個完全並行的文件系統前端,一個集成的鍵值存儲,以及一個高性能 S3 接口——所有這些共同作用,以提供無與倫比的 AI 和 HPC 工作負載效率。與 VAST 聲稱對象存儲是未來的觀點不同,我們認識到大規模 AI 訓練需要所有存儲範式的最佳組合。

在大規模部署 AI 的企業需要一個真正滿足性能要求的存儲基礎架構,而不僅僅是理論上的靈活性。雖然對象存儲發揮了作用,但並行文件系統仍然是高性能 AI 基礎架構的支柱,提供了當今 AI 工作負載所需的速度、一致性和規模。

行業並沒有遠離文件系統——它正在演變以擁抱最佳的技術組合。問題不是「文件或對象」,而是「我們如何優化?」在 VDURA,我們正在以這種平衡為基礎構建 AI 存儲的未來。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新