宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Hammerspace 挑戰 AI 領域對象存儲的傳統觀念

2025年02月12日 首頁 » 熱門科技

 

Hammerspace 挑戰 AI 領域對象存儲的傳統觀念

 

數據編排公司 Hammerspace 正在挑戰傳統觀念,即對象存儲是 AI 訓練和推理的最佳解決方案,認為通用的、協議無關的數據訪問才是更為關鍵的。

在某種意義上,這對 Hammerspace 來說是自然的,因為它擁有像 Meta 這樣的 AI 模型訓練客戶。其技術基於並行 NFS,並支持 Nvidia 的 GPUDirect 快速文件訪問協議。然而,Hammerspace 也支持 S3 數據訪問和文件訪問。它與對象存儲供應商 Cloudian 合作,使其 HyperStore 對象存儲庫可以被 Hammerspace 的全球數據平台軟體使用。HyperStore 支持 Nvidia 的 GPUDirect 對象存儲,旨在提供更快的對象訪問。

Hammerspace 的市場營銷高級副總裁 Molly Presley 與 Blocks and Files 討論了文件與對象的 AI 話題,並進一步探討了如何為 AI 處理準備數據——向量化以及如何為 AI 大語言模型/代理時代組織數據。

Blocks & Files:為什麼 Hammerspace 專注於混合數據平台,而不僅僅是文件或對象存儲?

Molly Presley:在 Glenn Lockwood 的文章中,他指出了並行文件系統的痛點,因為它們具有專有性質並需要專業人員。這是 Hammerspace 如此專注於基於標準的數據平台的一個重要原因,因為它對 Linux 核心有超過 2,400 次貢獻。如果客戶需要基於標準的訪問而不依賴於專有客戶端和孤島,他們的選擇不僅限於對象存儲。

這不僅僅是關於在文件系統和對象存儲接口之間進行選擇;討論還涉及到可擴展性、大規模效率、理解數據源以及無縫編排數據,無論其格式如何。

單純關注存儲接口和文件與對象存儲的對比,簡化了當今 AI 需求的複雜性。每個工作負載都有不同的性能要求,連接到不同的應用程序,具有不同的存儲接口要求,並可能使用來自各種位置的數據源。最佳平台通過編排、可擴展性和智能的工作負載特定優化來提供性能。

Blocks & Files:AI 基礎設施採購決策主要圍繞訓練工作負載進行嗎?

Molly Presley:不是。在評估 AI 投資時,組織考慮的不僅僅是訓練。大多數組織的數據架構投資需要涵蓋遠不止訓練。它們需要涵蓋推理、RAG、實時分析等。每個都需要特定的優化,超越通用的、一刀切的存儲系統。需要一個數據平台,並且必須適應 AI 工作負載的每個階段,而不是將它們強制進入過時的存儲範式。

一個數據平台必須提供實時數據攝取(也稱為數據同化)、智能元數據管理、安全性和彈性。僅靠存儲接口無法解決全部挑戰——數據必須是流動的、編排的,並動態放置,以在工作負載之間實現最佳性能。

Blocks & Files:我們一直擔心大語言模型的擴散,因為這意味著大語言模型原則上需要訪問組織的整個數據資產。組織的整個數據資產是否需要向量化?如果不是全部,哪些部分需要?關鍵任務、近實時、歸檔?

Molly Presley:在 Hammerspace,我們不認為向量化是買家和架構師的首要挑戰或關注點——而是全球訪問和編排。組織數據集、確保數據清潔以及將數據移動到可用計算資源上,在當今的訓練、RAG 和疊代工作負載中更為緊迫。

組織的整個數據資產的向量化需求高度依賴於用例和行業。雖然答案各不相同,但通常不需要完全向量化。關鍵任務和近實時數據是主要候選者,而歸檔數據可以選擇性地採樣,以識別出進一步向量化的相關性或模式。

有效實施的關鍵是使應用程序能夠在元數據控制平面級別訪問所有存儲類型的數據——無需遷移或集中化。這確保了可擴展性和效率。

Blocks & Files:組織的聊天機器人/AI 代理是否需要原則上訪問其整個數據資產?它們如何獲取?

Molly Presley:聊天機器人和 AI 代理通常不需要訪問組織的整個數據資產——只需要與其功能相關的精選子集。安全和合規性問題使得不受限制的訪問不切實際。相反,利用全球數據訪問與智能編排確保 AI 工具能夠訪問正確的數據,而不會導致不受控的擴展。

即使一個組織將所有數據向量化,結果數據存儲也將是近實時的,而不是真正的實時。性能受更新延遲限制——向量表示僅與其最新刷新一樣當前。API 集成和快速索引可以有所幫助,但實時響應性依賴於持續更新。Hammerspace 的相關角度仍然是基於元數據的自動化編排,而不是全面的向量化。

Blocks & Files:在採用大語言模型代理的組織中,數據的主要接口會成為大語言模型嗎?

Molly Presley:好問題。大語言模型正在迅速成為採用 AI 代理的組織中數據的重要接口。它們處理自然語言和提供上下文洞察的能力使其成為可訪問性和決策的強大工具。然而,它們不會取代傳統的 BI 和分析工具——而是與之集成。企業需要結構化報告、治理和可審計性,這些仍然由既定標準最好地服務。近期(至少未來幾年)的未來在於混合方法:大語言模型將增強數據交互和發現,而企業級分析工具確保精確性、合規性和運營控制。

Blocks & Files:在向量數據空間中,文件存儲和對象存儲的概念是否失去意義?

Molly Presley:文件和對象存儲不會消失;它們會進化。在向量數據空間中,數據是通過語義關係訪問的,而不是文件路徑或對象鍵。然而,存儲類型在性能、成本和規模方面仍然重要。

Blocks & Files:我們會看到像 SQL 一樣的 VQL(向量查詢語言)出現嗎?

Molly Presley:是的,向量查詢語言將會出現,儘管它可能不會採取與 SQL 完全相同的形式。標準化至關重要。正如 SQL 成為結構化數據的通用語言,向量搜索將需要一個標準化的查詢語言,以使其在工具和平台之間更易於訪問和互操作。

API 和嵌入還不夠。目前,向量資料庫依賴於 API 和嵌入模型進行相似性搜索,但隨著採用的增長,企業將需要更直觀的高級查詢功能。混合查詢將是關鍵。未來的 AI 驅動分析將需要混合結構化(SQL)和非結構化(VQL)數據的查詢,使用戶能夠無縫地從兩者中獲取洞察。

Blocks & Files:存儲供應商能否提供涵蓋塊、文件和對象數據的數據空間抽象?

Molly Presley:一些存儲供應商可以跨文件和對象抽象存儲類型,有些還提供塊存儲——但這不是真正的全球數據空間。它們在自己的生態系統內創建全局命名空間,但未能統一跨供應商、雲和多樣化格式(結構化、非結構化、向量化)的數據。

標準也是這個討論的重要組成部分。組織通常不願意在其 GPU 伺服器上添加軟體或更改其批准的 IT 構建環境。將數據層客戶端接口構建到 Linux 中作為最廣泛採用的作業系統至關重要,並且使用應用程序本地寫入的接口,如 pNFS、NFS 和 S3,通常是強制性的。

全球數據空間是關於通用訪問,而不僅僅是存儲抽象。它必須集成豐富的元數據、啟用高級分析,並動態編排數據——無需遷移、重複或供應商鎖定。

底線:存儲類型無關緊要。沒有真正的全球編排,數據仍然是孤立的、基礎設施綁定的和低效的。

Blocks & Files:在採用基於大語言模型代理的世界中,我們如何組織一個組織的數據資產及其存儲?

Molly Presley:我們需要一種分層的數據方法,組織不是以傳統 HSM(分層存儲管理)的時間為基礎,而是具有豐富的上下文相關性,以便在需要時自動編排精選的數據子集,從任何地方無縫地移動到任何地方。

關注數據,而不是存儲。特別是在基於大語言模型的生態系統中,存儲類型是機會主義和工作流驅動的。所有存儲類型都有其用途,從閃存到磁帶再到雲。當存儲類型通過智能、無干擾的編排抽象時,存儲決策可以根據成本、性能、位置、首選硬體供應商等戰術性地做出。

通過標準協議和 API 實現統一訪問,可以跨所有存儲類型和位置橋接。這提供了直接的數據訪問,無論數據今天在哪裡,或明天移動到哪裡。通過這種方式,數據在原地被策劃,以便應用程序可以訪問數據資產的相關子集,而無需破壞性和昂貴的遷移。

文件和對象中有豐富的元數據,通常在傳統存儲環境中未被使用。自定義元數據、語義標記和其他豐富的元數據可以用於在數據集的策劃中驅動更高的粒度。將這些元數據結合到全球文件系統中,以觸發自動化數據編排,最小化不必要的數據移動,降低未充分利用的存儲成本,並提高基於大語言模型的用例的準確性和上下文洞察。

數據流動性和線性擴展能力至關重要。大語言模型工作流不可避免地導致數據增長,但更重要的是,當本地 GPU 不可用時,可能需要基於雲的計算資源。現代組織必須在沒有傳統孤立和供應商鎖定存儲基礎設施的複雜性和限制的情況下推動其數據流動。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新