近年來,非結構化數據(包括文本、圖形、文檔以及物聯網流數據等)因為蘊含著巨大而未開發的價值而備受矚目。為了更好地容納並有望挖掘這些資產,資料庫行業也經歷了一場大規模的變革,然而,由於對真正隱藏的非結構化數據源或資產缺乏認識,導致有些努力變成了「白費勁」。根據IDC的調查顯示,儘管企業中約有90%的資訊為非結構化數據,但只有46%的組織致力於提取其價值。
如今,科技和業務領導者追求和挖掘非結構化數據的原因又增加了一條:生成式人工智慧的崛起。那些近年來在非結構化數據領域取得進展的公司和IT專業人士可能會發現,他們更有可能利用生成式人工智慧的優勢,去深入挖掘數據存儲。
普華永道(PwC)的美國數據、分析和人工智慧主管麥特·拉沃維奇表示:「現在是企業加強對非結構化數據的管理的時候,這些數據來自物聯網等,還有知識文檔——比如PowerPoints、文本、Excel電子表格。它們都包含著有關業務運營的寶貴機構知識,並且蘊藏著可以利用生成式人工智慧獲取的見解。」
儘管傳統上結構化數據戰略受到了大多數關注,但拉沃維奇敦促將注意力轉向「非結構化數據在推動生成式人工智慧方面的重要作用」。
根據《麻省理工科技評論洞察》最近發布的一項由Databricks贊助的全球調查顯示,儘管以往的人工智慧項目必須專注於結構化數據「目前已經準備就緒且豐富的用例」,但「收集、注釋和合成異構數據集的複雜性使更廣泛的人工智慧項目變得不那麼具有可行性」。
報告作者亞當·格林寫道:「相比之下,生成式人工智慧新的能力,能夠挖掘和利用曾經隱藏的數據,這將推動整個組織取得非凡的新進展。」
近70%參與調查的技術高管認為,損害他們人工智慧及機器學習目標的最大因素可能是數據問題。格林表示:「諸如流行的ChatGPT之類的文本生成人工智慧系統是建立在大型語言模型上的。LLM模型基於大量的數據語料庫進行訓練,以根據統計概率回答問題或執行任務。」
格林補充說,人工智慧應用「依賴於一個堅實的數據基礎設施,使其能夠收集、存儲和分析其龐大的數據世界。」他指出:「即使在生成式人工智慧的業務應用在2022年底變得明顯之前,將數據平台用於分析和人工智慧被近70%的調查受訪者視為至關重要。」
超過三分之二的調查受訪者認為,統一他們的分析結果和人工智慧數據平台對於他們的企業數據戰略至關重要。生成式人工智慧時代需要一個靈活、可擴展、高效的數據基礎設施。而這一關鍵就在於「使數據和分析資源變得普及,在提高安全性的同時,將低成本的存儲與高性能的查詢相結合。」
整合當今人工智慧所需的非結構化數據並非一夜之間的任務。格林在MIT的報告中指出:「兼併和收購導致了分散的IT架構。重要文件,從研發情報到工廠設計說明,都消失在視線之外,被鎖在離線專有文件類型中。」
「我們能使用LLM對這些文件進行詢問嗎?我們能否訓練模型為我們提供在這個龐大的文檔世界中看不到的見解呢?」
根據英賽特的副總裁兼首席資訊官、前杜邦水與保護部副總裁安德魯·布萊頓的說法:「我們認為這是一個很明顯的使用場景,語言模型將有望使這些非結構化數據變得更有價值。」
將業務各個方面的數據所有者、分析師和用戶納入到生成式人工智慧的過程中也是取得數據成功的關鍵。對此拉博維奇表示:「這不僅僅是首席資訊官的責任。業務領導必須負責,而首席資訊官則負責支持這個過程。操作準備和變更管理是關鍵,這涉及到業務各個領域的高管積極參與關鍵數據的識別、嵌入工作流程,並擔任變革冠軍的角色,以促進廣泛採用。」
時至今日,企業需要加強對來自物聯網等非結構化數據源以及知識文件(如PowerPoints、文本、Excel電子表格)的管理,正如PwC的數據、分析和人工智慧負責人麥特·拉博維奇所說:「它們都包含著有關業務運營的寶貴機構知識,並蘊藏著可以利用生成式人工智慧獲取的見解。」
雖然傳統上結構化數據策略一直受到關注,但現在是關注「非結構化數據在生成式人工智慧推進中所發揮的重要作用」的時候了。
總體而言,非結構化數據的挖掘和生成式人工智慧的運用將深刻改變企業的數據格局。在未來的發展中,更多企業期待能夠準確把握這一機遇,通過對非結構化數據的精準管理和生成式人工智慧的智能應用,為自身在競爭激烈的市場中贏得更大的優勢。