宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

CIO關於生成式AI項目的數據管理需要做好這三件事

2024年10月06日 首頁 » 熱門科技

在對生成式AI進行了近兩年的試驗之後,許多IT領導者已經準備好擴大規模了。然而,在此之前,他們需要重新考慮數據管理問題。

根據Nvidia公司AI模型、軟體和服務副總裁Kari Briski的說法,成功實施生成式AI取決於有效的數據管理以及評估不同模型如何協同工作以服務於特定用例。Nvidia等少數精英組織把生成式AI用於設計新晶片等工作,但大多數組織還是決定瞄準那些模式簡單的、不複雜的用例,而且可以專注於實現卓越的數據管理。

自動化和人工智慧從業者、Gartner同行社區大使Doug Shannon表示,絕大多數企業現在把重點放在了最有可能帶來積極投資回報的兩類用例:一類是知識管理(KM),包括收集企業資訊,對其進行分類,提供允許用戶查詢的模型;另一類是檢索增強生成(RAG)模型,其中來自較大來源的數據片段被矢量化,以允許用戶「與」數據「對話」。例如,他們可以獲取一份長達一千多頁的文檔,讓模型進行提取,然後向模型詢問有關它的問題。

CIO關於生成式AI項目的數據管理需要做好這三件事

Doug Shannon,Gartner全球智能自動化負責人

Shannon說:「在這兩種用例中,企業都依賴於自己的數據,而利用自己的資訊是需要花錢的。與那些負擔遺留流程、工具、應用和人員的大型企業相比,中小型公司擁有巨大的優勢。當我們堅持舊習慣的時候,我們有時會遇到自身帶來的麻煩。」

如果數據管理做得不好,會導致收益減少和額外成本。例如,由不良數據引起的幻覺,需要花費大量額外的時間和金錢來修復——並且會讓用戶對工具失去興趣。有些IT領導者做得好是因為他們專注於以下三個關鍵方面。

收集、過濾和分類數據

首先是一系列過程——收集、過濾和分類數據——對於KM或RAG模型來說,可能需要幾個月的時間。結構化數據相對容易,非結構化數據雖然分類難度更大,但卻是最有價值的。「你需要知道數據是什麼,因為只有在你定義了數據並將將其分類了之後,你才能用它做任何事情,」Shannon說。

Nvidia提供了相關的開源工具和企業軟體用於進行過濾,用戶可以配置這些工具和軟體以刪除個人身份資訊(PII)或對特定領域有害的資訊。工具包中提供了分類器,允許企業設置閾值。「我們還進行數據混合,將來自不同來源的數據組合在一起,」Briski說。

在這個混合過程中,用戶可以重新排列數據以改變相對數量。例如,一些企業可能希望30%的數據來自18至25歲之間的人,只有15%的數據來自65歲以上的人。或者他們可能希望20%的訓練數據來自客戶支持,25%來自售前。在混合的過程中,還可以消除重複性的資訊。

CIO關於生成式AI項目的數據管理需要做好這三件事

Kari Briski,Nvidia公司AI軟體產品管理副總裁

資訊也應該經過過濾以確保質量。據Briski介紹,這是一個疊代的過程,涉及到各種任務以獲得最高質量的數據——這些信號可以提高模型的準確性。而且,質量是和你所在領域的背景有關的,例如,某個對於金融行業來說是準確的響應,對於醫療行業卻是完全錯誤的。「通過高質量的過濾,我們找到了正確的信號,讓我們可以合成類似類型的數據來提高信號的重要性。」

Briski還指出,對用於訓練AI的數據集進行版本控制也是很重要的。由於不同的人會過濾和擴充數據,因此你需要追蹤都有誰做了哪些更改,以及為什麼這樣做,而且你要知道使用哪個版本的數據集來訓練特定的模型。

由於企業必須管理所有數據,因此數據收集、過濾和分類過程的自動化就變得至關重要。哈佛大學副總裁、首席資訊官Klara Jelinkova表示:「很多組織擁有數據倉庫,用結構化數據進行匯報,還有很多組織已經採用了數據湖和數據結構。但隨著數據集隨著生成式AI而增長,確保數據的高質量和一致性成為一項挑戰,尤其是在速度不斷加快的情況下。自動化和可擴展的數據檢查,就成了關鍵。」

完善數據治理和合規性

數據管理需要關注的第二個方面,是數據治理和合規性,哈佛大學進行的實驗清楚地說明了這一點。去年,哈佛大學IT部門推出了AI Sandbox,一個內部開發的生成式AI環境,免費提供給用戶社區。這種沙盒提供了多種不同的大型語言模型,讓人們可以嘗試各種工具。

哈佛大學的IT部門還運行了一些創新計劃,讓人們可以在那裡推廣生成式AI項目,其中必須包括預期投資回報率的內容,不一定是關於財務回報,但可能是其他收益的組合,例如獲得新知識和新發現,或者流程得到改進。如果項目獲得認可,就會得到一小筆種子資金,而那些顯示出預期收益的項目可能會進一步擴大規模。

CIO關於生成式AI項目的數據管理需要做好這三件事

Klara Jelinkova,哈佛大學副總裁兼首席資訊官

據Jelinkova稱,生成式AI項目的數據管理中,最要的一個方面就是重新審視數據治理,思考需要改變什麼。她說:「我們從通用AI使用指南開始,只是為了確保我們的實驗是設置了護欄的。我們進行數據治理已經有很長一段時間了,但當你開始談論自動化數據管道時,很快就會發現,你需要重新思考那些圍繞結構化數據構建的舊數據治理模型。」

合規性是另一個重要的關注領域。作為一個考慮擴展部分AI項目的全球性企業,哈佛大學密切關注著世界各地不斷變化的監管環境。哈佛大學有一個活躍的工作組,致力於遵循和理解歐盟AI法案,在用例投入生產之前,他們會經歷一個流程,以確保滿足所有合規義務。

「當你使用新技術的時候,你就走在了前沿,而且隨著時間的推移,立法環境可能會發生變化。對我們來說,這都是數據治理的其中一部分。你需要有一個合規框架,允許你隨著立法環境的變化,重新處理你以前做過的事情。」

優先考慮數據隱私和保護智慧財產權

第三,就是數據隱私和智慧財產權(IP)保護。對於大多數組織來說,數據管理本質上與隱私息息相關。他們需要確保自己不會面臨風險。Jelinkova說:「你需要過濾、規範化、以及某種增強,必須對數據進行注釋。你還需要解決數據的安全性和隱私性問題,需要保護自己的智慧財產權。」

在深入研究數據時,很多企業會發現,他們不了解與某些數據相關的、基於角色的訪問控制(RBAC)——如果有的話。因此,他們不知道在企業內部甚至外部共享了哪些數據,這個時候就體現出了指導方針和護欄的重要性,也是需要提前實施的一個原因。

Jelinkova說,哈佛大學在隱私原則方面非常積極主動,並且有一個全面的數據安全計劃,其中包括了數據分類和指導哪些數據可用於不同類型的AI。她說:「我們對智慧財產權是非常謹慎的,當我們收集數據來構建AI導師時,需要確保我們對於將要輸入的所有數據是擁有相關智慧財產權的。」

而且,和大多數大學一樣,哈佛大學自己也有很多智慧財產權,因此必須要保護這些智慧財產權。對於內部創建的AI工具來說,這並不難。但是,當使用公共模型的時候,就必須採取額外的措施,以免他們直接或間接地利用你寶貴的資訊來獲取商業利益。為了安全起見,哈佛大學與第三方AI工具供應商簽訂了合同保護措施,以確保數據的安全和隱私。

Shannon表示:「在非常龐大的基礎模型中使用自己的數據時,仍然存在著很多誤解,而且對於某些工具如何處理你的數據,其透明度也不高。Azure支持使用OpenAI,因此即使他們說他們不會獲取用戶數據,並為你提供了一份所有受保護內容的長列表,但仍然是一個黑匣子。」

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新