宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Snowflake的新探索:用生成式AI實現數據合成與自然語言查詢

2023年09月18日 首頁 » 熱門科技

相信大家都聽說過,如今這一代生成式AI工具已經能生成與人類水平相當的文字、圖片甚至影片。

但是,您知道它也能用於生成數據本身嗎?

Snowflake的新探索:用生成式AI實現數據合成與自然語言查詢

現代人工智慧(AI)的基本原理就是識別數據模式,並據此回答問題或預測接下來會發生什麼。因此像OpenAI ChatGPT這樣的生成式AI,也完全可以用於創建更多遵循其訓練數據規則的新數據。

數據就是力量、數據就是財富,但真實數據往往也充滿複雜性——收集過度往往相當困難、成本很高,同時會帶來安全和隱私等潛在挑戰。

例如,假設要建立一套可用於人臉識別算法的、包含成千上萬面部圖像的訓練數據集,我們就得找到同等數量的真人拍下照片,並獲得他們的許可以存儲並使用這些數據。此外,我們還得進行一系列檢驗和調整,確保數據內容不存在有害偏見。

解決這類難題的思路之一就是合成數據。這是指由機器創建的數據,跟現實世界中的數據非常相似,在不少應用場景下可以直接相互替代。

Snowflake是全球最大的「數據即服務」廠商之一,除分析服務之外,還提供涵蓋醫療保健、金融、零售等數千個主題的數據市場。

如今,Snowflake希望通過AI生成的合成數據集進一步增強自家產品,並將生成式AI廣泛應用於其他應用場景。下面一起來看!

第一個問題,什麼是合成數據?

合成數據是指人為生成的資訊,其既具備與真實數據集相同的特徵,又不具體包含任何現實世界數據。

生成式AI就特別適合處理這項任務,因為它能輕鬆分析任何數據集,之後創建出與其模式密切匹配的合成數據。也就是說,企業可以訓練AI算法並執行測試和模擬,又不必擔心像使用現實世界數據那樣暴露私人或敏感資訊。

合成數據有著廣泛的用途,例如在金融領域用於訓練欺詐檢測算法以發現偽造交易,在醫療保健領域避免使用敏感的患者數據,並可在零售/營銷領域用於創建合成客戶並分析其購買行為。

根據Gartner公司的研究,受到可訪問性、複雜性和可用性等現實問題的影響,企業領導者往往更傾向於使用合成數據、而非真實數據。研究還發現,部分合成數據集(即經過合成數據增強的現實世界數據)的使用範圍往往比全合成數據集更廣。

通過生成合成數據,企業可以創建任何必要資訊,用以填補現有記錄中的空白或創建全新數據集。這並不是在否定現實世界數據的重要性,畢竟合成數據的創建前提就是以現實世界數據為基礎。但如果能夠有效運用,合成數據將幫助我們降低成本、加快機器學習模型的訓練速度,並幫助企業實現自動化、做出更佳決策。

Snowflake借生成式AI之力創建合成數據

Snowflake擁有專門的數據市場,將大量寶貴諮詢出售給世界各地的企業,並藉此成為全球最大的B2B數據經紀公司之一。

除了數以千計的現實世界數據集之外,Snowflake現在還提供由生成式AI算法創建的合成數據集資源。其中一例就是舊金山Synthesis AI公司的合成人臉數據集,其中包含5000張不同面孔的獨立圖像。

過去,由於擔心用於訓練人臉識別算法的數據集存在偏差/偏見,此類算法一度受到批評甚至被明令禁止。人們認為人臉識別算法在識別不同種族的對象時存在性能波動,而且經常出現不公平或偏見性判斷。

使用合成數據明顯有助於解決這些問題(但請注意,並不能說就完全解決了這些問題),因為開發者可以根據實際需求,創建出包含各種特徵和包容性級別的數據集。

雖然合成數據在生成式AI出現之前就已經存在,但這種新型生成算法的發展成熟,意味著我們能夠將合成數據集快速擴展至任意規模。以這種方式創建的數據集還能進行輕鬆定製,滿足世界各地不同客戶的實際需求。

Snowflake還提供來自Clearbox AI的合成財務數據,其中包含用於反映合法及欺詐應用活動的模擬抵押貸款資訊。在生成式AI創建的合成數據的擴充之下,這些數據集已經變得愈發完備。

Snowflake方面明確表示,預計AI生成的合成數據將在其未來業務中發揮重要作用。隨著大語言模型(LLM)等生成模型變得更加複雜,相信這些成果將帶來更能準確反映現實世界的合成數據,幫助企業獲取成本更低廉、效果更顯著的分析見解。

Snowflake的其他生成式AI應用思路

除了為AI生成的合成數據開放訪問通道之外,Snowflake還開發出多種供客戶使用的生成式AI工具。

憑藉今年內對Neeva(一家由谷歌前員工創立的搜索初創公司)的收購,Snowflake開始嘗試在數據集上實現自然語言查詢。也就是說,用戶將有機會與自己的數據直接對話,通過提出簡單問題、而非運行複雜的傳統數據科學分析來快速獲取見解。Snowflake公司CEO Frank Slootman在採訪中表示,「這種用自然語言處理數據的方式正變得越來越流行……以此為基礎,更多非技術用戶也將有機會從數據當中提取價值。」

Snowflake還與英偉達建立起合作夥伴關係,利用後者提供的NeMo LLM創建平台,讓用戶能夠輕鬆開發出可訪問Snowflake數據的聊天機器人、搜尋引擎等生成式AI應用。

另一項大語言模型舉措則是建立文檔AI工具,允許用戶查詢文檔(例如法律合同或發票)並提取個中含義。其中使用的技術,源自Snowflake於2022年收購的瑞典自然語言平台Applica。

可以看出,Snowflake顯然是對生成式AI技術寄予厚望,希望能夠高效創建合成數據,並開發出更多分析協助工具以從數據中提取價值。我們也有理由相信,當下的這一切探索和努力將為整個數據科學行業翻開全新的篇章。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新