隨著分析和AI技術的發展,數據訪問變得極其複雜。分析功能需要對數據進行定位、過濾、選擇、提取、轉換、加載,然後用適當的編碼函數處理。AI的出現使情況更加複雜,從最初依賴文件進行訓練,發展到對象數據和檢索增強生成用於AI推理、向量資料庫和語義搜索。
數據工程和科學團隊應運而生,他們使用的數據概念與存儲團隊不同。文件和對象數據管理供應商Komprise認為,這兩種團隊類型存在概念分歧,需要加強溝通。
我們採訪了Komprise總裁兼首席運營官Krishna Subramanian,探討了這一觀點。
**存儲團隊角色的演變**
傳統上,存儲團隊負責提供基礎設施來存儲和提供數據訪問,而數據工程團隊則專注於為AI團隊提供服務,為他們的用例提供所需數據。在非結構化數據規模下,數據工程團隊缺乏對數據的廣泛訪問權限和合適的工具來為每個用例組織數據。而擁有組織範圍數據視圖的存儲團隊應該系統性地提供快速分類和找到正確數據的方法。
隨著AI成為主流,需要一種系統化、自動化的方式,讓任何用戶都能在適當的數據治理下分析、分類和選擇正確的數據。數據存儲團隊正在演變為數據服務提供商,這需要與專注於從他們管理和保護的數據中獲得更大價值的團隊建立更緊密的關係。
**兩個團隊的必要性**
歷史上,存儲基礎設施團隊專注於提供基礎設施,而數據工程團隊專注於數據質量、數據清洗以及服務數據分析師和數據科學家的需求。存儲團隊關注技術和數據使用,而數據工程團隊關注數據內容以及如何從中獲得洞察和價值。
AI需要對這種方法進行調整,原因有二:首先,AI依賴於缺乏統一模式且不存儲在SQL資料庫和電子表格中的非結構化數據;其次,AI將被企業中的每個人使用,因此對所有數據擁有訪問權限和管理責任的存儲團隊應該在提供分類數據、查找正確數據集、標記敏感數據等工具和流程方面發揮更大作用。
**技能要求的變化**
存儲團隊需要學習如何與各部門合作,豐富元數據以便更容易為項目策劃數據。學習如何配置和管理GPU就緒基礎設施以及平衡成本、性能和安全性的數據生命周期是另一項技能。同時,他們需要執行治理以保護敏感資訊,確保符合法規並防止泄露到商業AI模型中。
**元數據協作**
數據團隊、存儲團隊、安全合規團隊和數據所有者應該在通用元數據定義、敏感數據標籤和數據治理策略方面進行協作。通用元數據定義包括敏感數據標籤(如個人身份資訊、智慧財產權和員工ID)、作者資訊、項目代碼或授權號碼等。
**Komprise的角色**
Komprise提供了一個搜索所有企業非結構化數據的單一位置,並提供持續豐富數據的方法。通過基於角色的訪問,數據所有者和數據工程師可以查看他們有權訪問的數據,並使用Komprise深度分析功能標記和搜索數據。存儲管理員可以通過Komprise智能數據工作流系統性地移動數據、管理數據使用和執行數據工作流。
實際應用案例顯示,一家世界最大的癌症研究醫院使用Komprise實現了數據團隊和存儲團隊之間的協作,節省了數百萬美元。另一個油氣客戶在分拆過程中,合規團隊使用Komprise根據合規團隊選擇的安全標識符為每個實體分離數據。
Q&A
Q1:為什麼存儲團隊和數據團隊需要加強協作?
A:隨著AI技術發展,數據訪問變得極其複雜。存儲團隊專注於基礎設施,數據團隊專注於數據價值挖掘,但AI需要處理大量非結構化數據,且將被企業每個人使用。存儲團隊擁有組織範圍的數據視圖,應該在數據分類、查找和治理方面發揮更大作用,因此兩個團隊需要更緊密協作。
Q2:存儲團隊需要掌握哪些新技能來適應AI時代?
A:存儲團隊需要學習如何與各部門合作豐富元數據,掌握GPU就緒基礎設施的配置和管理,平衡數據生命周期中的成本、性能和安全性。同時還要執行數據治理以保護敏感資訊,確保合規並防止數據泄露到商業AI模型中。
Q3:Komprise如何幫助存儲團隊和數據團隊協作?
A:Komprise提供單一平台搜索所有企業非結構化數據,通過基於角色的訪問讓不同團隊查看權限範圍內的數據。數據團隊可以使用深度分析功能標記和搜索數據,存儲管理員可以通過智能數據工作流系統性地管理數據,為兩個團隊提供共同的交互界面。