宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

知識圖譜:企業 AI 中的關鍵紐帶

2025年01月30日 首頁 » 熱門科技

 

知識圖譜:企業 AI 中的關鍵紐帶

 

大語言模型 (LLM) 擅長從非結構化數據中學習。但企業所擁有的大量專有價值被鎖在關係資料庫、電子表格和其他結構化文件類型中。

大型企業長期以來一直使用知識圖譜來更好地理解數據點之間的潛在關係,但這些圖譜難以構建和維護,需要開發人員、數據工程師和了解數據實際含義的領域專家付出努力。

知識圖譜是位於原始數據存儲之上的連接層,將資訊轉化為具有上下文意義的知識。因此理論上,它們是幫助 LLM 理解企業數據集含義的絕佳方式,使公司更容易、更高效地找到相關數據嵌入查詢中,同時使 LLM 本身更快速、更準確。

2023 年 6 月,Gartner 研究人員表示,數據和分析領導者必須利用 LLM 的力量和知識圖譜的穩健性來構建容錯 AI 應用。供應商們迅速採取行動。第一個重大公告是圖資料庫公司 NebulaGraph 在 2023 年 9 月發布的。他們的工具 Graph RAG 使企業更容易將知識圖譜作為檢索增強生成 (RAG) 實現的一部分。

RAG 是指不僅僅向 LLM 發送簡單問題,公司還通過從向量資料庫嵌入相關文檔或資訊來為問題添加上下文。沒有 RAG,LLM 只知道它們被訓練的內容。有了 RAG,公司可以添加最新資訊或公司特有的資訊。例如,如果要求 LLM 提供公司產品資訊,該產品的手冊和其他參考資料將非常有幫助。

Microsoft 在 2 月宣布了其 GraphRAG 項目,並在 7 月開源。圖資料庫公司 Neo4j 也構建了 LLM Graph Transformer 工具,並在 3 月捐贈給開源 LangChain 項目。4 月,該工具作為 Google 的 GraphRAG 實現的一部分集成到 Google Cloud 和 Vertex AI 中。

最近,在 12 月初,Amazon 也宣布通過 Amazon Neptune Analytics 支持 GraphRAG,作為 Amazon Bedrock Knowledge Bases 的一部分。

在這些活動的推動下,Gartner 在 11 月將 GraphRAG 列入其 2024 年生成式 AI 炒作周期,位於誇大期望峰值的半山腰。Gartner 表示 GraphRAG 需要 2-5 年才能達到成熟。相比之下,位於 GraphRAG 下方的自主代理需要 5-10 年。

Gartner 表示,GraphRAG 提高了 RAG 系統的準確性、可靠性和可解釋性,但缺點是將知識圖譜與生成式 AI 模型集成在技術上複雜且計算成本高。更不用說知識圖譜本身就不是一件容易的事。

ISG Research 的數據和分析研究總監 Matt Aslett 說:"我在數據領域工作了 20 年,至少有一半時間,人們一直在嘗試推廣知識圖譜。"

他補充說,一些組織已經投資了這項技術,比如大型媒體和出版公司,或從事藥物研發的製藥公司。例如,諾華使用圖資料庫將其內部數據與外部研究摘要資料庫鏈接起來,目標是鏈接基因、疾病和化合物以加速藥物研發。

Intuit 使用 Neo4j 技術在知識圖譜上構建了其安全知識平台,每小時有 7500 萬次資料庫更新被輸入圖譜。但 Aslett 說,大多數企業並不使用知識圖譜。需要整合數據的公司通常只進行一次性的數據集成項目。

他補充說:"如果你已經經歷了知識圖譜的過程,那麼讓這些資訊也可用於你的 AI 項目是有意義的。但如果你還沒有,那麼你首先需要完成這個大項目,將資訊轉化為知識圖譜。"

在過去,這將是一個令人生畏的提議。但現在生成式 AI 正被用來幫助創建這些知識圖譜,加速將企業數據轉化為可行洞察的良性循環,同時提高 LLM 的準確性,降低成本和延遲。

更好供應的需求

知識圖譜可以內置於資料庫中,位於資料庫之上,鏈接多個資料庫,甚至可以從其他來源獲取資訊,所有這些都無需更改底層數據結構。

在傳統關係資料庫中,數據點之間的關係是資料庫結構本身的一部分,通常僅限於關鍵資訊。例如,客戶記錄可能通過共同的客戶識別號與個別交易鏈接。而這些交易又可以通過共同的產品 ID 鏈接到產品資料庫。

但要發現特定群體的客戶都有相同的偏好會稍微複雜一些,當關係更加微妙時,事情會變得更加複雜。

通過知識圖譜明確所有這些關係,可以在需要為 LLM 提供回答問題所需的上下文時更容易提取所有相關資訊,從而產生更準確的結果。

企業通常使用 RAG 嵌入來用其專有知識增強 LLM 查詢,但專家估計準確率通常高達 70%。

Data2(一家致力於解決準確性問題的軟體創業公司)的 CTO Daniel Bukowski 說:"傳統的檢索增強生成等方法通常無法達到 80% 以上的準確率。雖然這對某些用途可能足夠,但許多行業和情況需要達到或接近 99%。"

Neo4j 的 COO Sudhir Hasbe 補充說,LLM 針對非結構化數據進行了優化。"但很多企業數據也是結構化的。那麼如何將結構化和非結構化數據結合起來回答問題呢?你希望能夠獲得答案,更重要的是,解釋為什麼你得到這個答案。"

他說,知識圖譜減少了幻覺,但它們也有助於解決可解釋性挑戰。Infosys 的 EVP Anant Adya 表示,知識圖譜位於傳統資料庫之上,提供連接和更深入理解的層面。他說:"你可以進行更好的上下文搜索,這有助於你獲得更好的洞察。"

Infosys 現在正在運行概念驗證,使用知識圖譜將公司多年積累的知識與生成式 AI 工具結合起來。他說:"我們正在識別那些可以產生更大影響的用例。"這些包括自動知識提取、預算編制、採購和企業規劃。他補充說:"但這還很早期,還沒有投入生產。"

LinkedIn 是一家部署知識圖譜來提高生成式 AI 性能並撰寫相關文章的公司。在 4 月發表的一篇論文中,LinkedIn 報告稱,將 RAG 與知識圖譜結合幫助其提高客戶服務生成式 AI 應用的準確率達 78%。在此前的六個月里,這種組合被 LinkedIn 的客戶服務團隊使用,將每個問題的中位數解決時間減少了 29%。

降低成本和延遲

當將生成式 AI 功能添加到企業工作流程中時,查詢通常會增加相關資訊,通常來自向量資料庫。可以添加到查詢中的資訊越多,LLM 就有更多上下文來生成響應。

EY 的技術、媒體、娛樂和電信 AI 負責人 Vamsi Duvvuri 說:"但我提供的上下文和文檔越多,RAG 就變得越來越大,我的系統也變得越來越慢。"此外,生成式 AI 供應商通常按 token 收費;他們的模型處理的資訊越多,成本就越高。

根據 Microsoft 4 月的研究論文,GraphRAG 所需的 token 減少了高達 97%,同時仍然提供比標準 RAG 更全面的答案。

當知識圖譜作為 RAG 基礎設施的一部分使用時,可以使用顯式連接快速鎖定最相關的資訊。Duvvuri 說:"它變得非常高效。"他說公司正在利用這一點。"棘手的問題是有多少這樣的解決方案在生產中看到,這是相當罕見的。但這對許多生成式 AI 應用來說都是如此。"

利用 LLM

創建知識圖譜的挑戰在於需要真正的專業知識。對於大型複雜數據集來說,這尤其困難,而這恰恰是最需要知識圖譜的地方。創建知識圖譜的大部分硬工作是建立本體,如定義術語、決定分類,以及找出兩個不同數據之間的某種關聯。ISG 的 Aslett 說:"這是生成式 AI 可以擅長的領域。"他說,一些供應商已經在嘗試提供這種功能,但工具仍處於早期開發階段。

在生成式 AI 之前,公司曾試圖用機器學習創建知識圖譜。Duvvuri 說:"我們過去使用自然語言處理來創建知識圖譜,使用命名實體識別並使用共現創建關係。創建過程非常耗時,因為 NLP 管道需要訓練。這是一種高投入的方式。"

今天,LLM 顯著減少了創建知識圖譜所需的時間。

他說:"我個人使用大語言模型創建過知識圖譜。這是提取關係的絕佳方式。使用大語言模型加速了知識圖譜的力量,將知識圖譜添加到 LLM 中加速了其性能並改善了成本。"

卡內基梅隆大學泰珀商學院會計學教授 Pierre Liang 說,生成式 AI 有一種不可思議的方式來生成以前不可能生成的知識。他說:"我在實驗室里看到過這樣的例子。企業使用 LLM 幫助我們生成和使用知識圖譜的機會非常有前途。"

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新