當下,數據在企業中的價值日益凸顯,「用數能力」已經成為企業核心競爭力之一。
在實際業務場景中,所有企業的管理層都會設定營收指標來評估業績,分析完成比例、同比、環比等數據,這是一種典型的「數字化管理」場景。
管理層指標要拆解成可執行的部門指標和個人指標,根據這些細分指標,企業可以採取多種運營行動,比如營銷、廣告投放、優惠券發放、庫存優化等,這些都是為了達成更好的運營結果。
除了營收指標外,公司管理層還會關注許多指標,如年度活躍用戶數、支付筆數、新增有效商品數等。每個管理指標背後都有類似的分解過程,涵蓋大量的部門指標、團隊指標和個人指標,以及相應的運營行動。這些團隊和個人指標及其對應的運營決策,構成了所謂的「數智化運營」。
總的來說,企業內部的數據需求可以分為數字化管理和數智化運營兩個方面。
數字化管理屬於看數需求,而數智化運營屬於用數需求。看數需求通常比較固定和清晰,容易固化;而用數需求則充滿不確定性,往往在使用的過程中才能明確需求。其次是需求的周期:管理層的需求可能按月交付,因為它們通常在一整年中使用。但是,運營需求就不同了,如果按月交付,它們可能就無法滿足實時性的需求,因為運營活動通常是基於當天或當周的情況來進行。最後,需求數量的增長率也不同。管理層的需求數量相對有限,而運營需求數量卻幾乎是無限的,隨著業務的不斷發展和多樣化,這些需求也在持續增長。
Aloudata CEO周衛林告訴記者,當業務從數字化管理轉向數智化運營的過程中,我們通常會面臨數據源、數據需求和用數人群的快速增長。這不可避免地意味著ETL(抽取、轉換、加載這三個英文單詞的縮寫)作業數量將會呈指數級增長,並帶來技術和成本層面的挑戰。
比如當需求變得越來越動態時,這就導致了迫切的性能優化問題,從而影響整個ETL鏈路的開發和優化。此外,需求的靈活性導致我們在需求提出時往往無法立即滿足,這種技術成本的失控導致許多用數需求的滿足度下降,IT部門不斷追問業務方需求的目標和ROI。
由於高頻變化和人工研發過程,數據目錄的人工維護變得極為困難。這導致數據管理的失效和失敗。在當前的形勢下,要實現良好的數據治理和管理,在現有的依賴人工的工程模式下幾乎是不可能的任務。
因為儘管需求在快速增加,而現實情況是ETL工程師數量卻有其限制,其能力也有其上限,現有的ETL工程體系是不可持續的。Aloudata的思路是必須採用全新的思維方式、新的架構和新的技術來應對這一挑戰。
為此,Aloudata提出一個「NoETL」(無ETL)的模式。這種模式旨在尋找一種不再依賴於傳統ETL工程師驅動的方法,從而實現數據生產力的可持續和大規模增長。
NoETL跨越ETL鴻溝
從需求端來看,傳統的數據工程體系在滿足管理層需求時可能表現良好,但對於底層業務人員而言,他們需要的不僅僅是報表,而是更細粒度的數據集和口徑明確的指標。
業務人員需要的是兩件事:明確指標的定義,以及確保這些指標是他們所需要的。我們需要一種新的交互界面,這個界面不僅僅是表格。用戶不需要知道表格存放的具體位置,而是需要清楚地理解指標的口徑,以及這些口徑背後的值。
傳統的數據集成方式涉及到物理同步數據和人工的ETL開發,而Aloudata提供了一種全新的數據集成方式,使用邏輯方式進行數據集成和自動化重構ETL鏈路。邏輯集成最重要的作用是避免數據搬運,自動構建全局數據的邏輯視圖,並通過AI增強的自適應加速技術,替代傳統的人工ETL鏈路加工。
業務人員關注的是指標而不是表格。因此,需要一個語義建模流程來完成這一任務。IT部門定義原子指標後,業務人員可以通過語義來定義所需的各種派生指標和衍生指標,而這一定義過程本身就是開發過程,無需再向IT提交需求。
為了實現管理自動化,企業需要一套能夠感知當前系統狀態的元數據系統。主動元數據不同於被動元數據,它類似於實時導航系統,不僅提供精確定位,還能輔助駕駛。
「我們通過數據語義引擎提供全新的交互界面,通過數據虛擬化引擎實現邏輯數據集成與自動化構建ETL鏈路,通過主動元數據引擎實現數據治理的輔助駕駛(Copilot)。這三個核心技術引擎是我們最核心的技術創新與突破。」周衛林說。
NoETL模式可以充分利用企業現有的數據湖、數據倉庫和其他數據源,盤活全部數據資產,實現平滑升級,而不是完全重構。
通過這一全新的架構,企業能夠消除傳統數據工程的障礙,例如繁重的管道、運維任務和預計算成本,同時提高效率和生產力。實際的業務效果體現在需求交付周期的縮短,從按周或按月交付變為按天或按小時交付,以及將存儲和計算成本降低50%以上。
在這個架構下,Aloudata推出了三個主要的產品:Aloudata AIR、Aloudata CAN和Aloudata BIG。
Aloudata AIR是一個邏輯數據平台,實現了多源異構數據的虛擬化集成,無需物理搬運數據。Aloudata AIR還通過自動化物化鏈路編排和智能查詢下推技術,實現了自適應的查詢加速,從而提高了處理效率。
此外,Aloudata AIR具有多項企業級特性,例如強化安全性。因為它能夠連接所有數據源,並提供統一的安全管理界面,所以安全管控的程度更高。實際效果表明,這個平台能顯著提高效率,節約成本,同時減少ETL工程師的參與和開發成本。
在傳統的指標平台中,指標管理面臨著諸多挑戰。例如,ETL開發工程師開發數據表,然後BI工具為業務指標配備度量和維度。但這種物理指標的生產依賴於數據工程,而指標的定義則又在BI工具內,這兩者之間往往難以統一和復用。Aloudata CAN是一個自動化指標平台,用戶在這裡定義指標,定義完成後,系統自動進行指標開發。這意味著,定義即生產,定義即服務,無需額外的開發和發布工作。這樣,就實現了指標的一致性,並解決了口徑不一致和重複的問題。
Aloudata CAN的實現改變了傳統的生產模式,不再需要繁複的開發過程,同時也改變了服務模式,降低了IT的參與度。這不僅提升了價值,還讓IT團隊可以專注於更有價值的任務。
在企業中,存在著巨量數據,同時伴隨著一系列問題,如數據交付緩慢、難以管理、難以理解、難以治理等。要解決這些問題,就需要更精細的管理能力。Aloudata BIG則是一個能解析最精細數據血緣的主動元數據平台,可以主動採集和分析數據,然後基於這些變化提出建議,幫助公司的各個流程更加高效,在模型治理、鏈路保障、綜合安全合規檢查等方面發揮巨大價值。
三個產品已經在企業中進行落地,得到了許多大型頭部企業的強烈響應,特別是在股份制銀行、頭部城商行和大型國央企中。比如首創證券採用Aloudata AIR後,實現了數據的邏輯集成和自動化ETL流程,大大降低了數據工程的人力和成本投入。
殊途同歸話Data Fabric
近幾年,無論是Gartner還是Forrester,他們都在持續討論Data Fabric,並將其定義為未來數據管理的新一代架構和理念。
這一概念的提出背景是數據爆炸式增長和如何管理海量數據。Data Fabric的概念是,首先將數據編織在一起,然後當人們需要數據時,他們只需從這個編織好的網路中提取所需數據。數據的具體位置和獲取方式由系統自動處理。
Aloudata CPO肖裕洪表示,Data Fabric的本質是如何解決跨系統、跨平台的大量分散數據,以什麼樣的交互方式交付給數據消費者。
無論數據存放在哪裡,無論其格式如何,當你需要時,系統都能夠在正確的時間向正確的人提供正確的(即質量有保障的)數據。正確的時間意味著數據能夠及時交付,不是過了很久才到達;正確的人意味著數據的使用應該安全合規,不應該濫用。簡而言之,Data Fabric的全部內涵就是將有質量保障的數據及時交付給合適的人,讓數據安全、規範地流通。
支撐起Data Fabric,我們需要三個核心要素。首先是一個增強的數據目錄,類似於一個管理良好的數據市場。這個市場能夠動態搜羅企業中的所有數據,不僅是搜羅,還要將這些數據的技術術語轉換為業務上的術語,使得人們使用自己的業務語言就能找到所需數據。進一步說,我們應該從「人找數據」轉變為「數據找人」,主動將數據推薦給適合使用它的人。這就是Data Fabric需要的第一個能力。
其次是一個能高效訪問和使用數據的虛擬數據訪問網關。這意味著數據不僅要被找到、理解,還要能夠被訪問和使用。虛擬訪問的概念在於,雖然數據源可能分散在不同的位置,但當你表明了使用需求後,系統應能動態地協調這些分散的數據源,然後生成並提供你所需的結果。
最後,我們需要具備主動的數據治理能力,確保數據的安全合規流轉,避免失控。我們需要有機制來下發相關的約束和政策,以保證在使用數據時的安全性和合規性。如果沒有這樣的措施,就可能會面臨極大的問題。我們還需要能夠標記數據,識別出那些可能涉及隱私和安全的數據,確定它們的安全等級和隱私等級,並能自動分類管理。在這些固定政策的指導下,我們能夠有效地保護這些數據。
Data Fabric提供了一種新的數據管理模式,它通過邏輯化集中、動態集成、智能治理和增強型數據目錄,實現了對數據的更高效、更智能的管理。
Data Fabric背後的核心思想:自動化。不論是動態、自動、主動還是增強,這些概念的核心都在於將原本需要大量人工操作的工作自動化。在過去,數據管理更多依賴於人工驅動模式,而Data Fabric則是向AI增強的自動化模式轉變。這種轉變正是它未來性的關鍵所在,它重新定義了人與數據的交互模式,使得在數據源和使用場景不斷增多的情況下,原本依靠人工無法持續的狀態得以通過自動化替代。
「在實踐NoETL過程中,我們發現我們所做的事情與Data Fabric的目標和路徑實際上是一致的。本質上,我們都在追求通過AI增強的自動化來實現更加自助化的業務數據使用和主動的數據治理。我們的實踐和Data Fabric的理念雖然出發點不同,但殊途同歸,都是為了更高效、更智能地處理和利用數據。」肖裕洪說。
正是這樣的思路,Aloudata構建一個有效的數據系統,實現ETL的自動化。這個系統包含三個核心組件:一個主動的數據圖譜作為感知系統;一個AI增強的數據策略引擎作為決策系統;以及一個數據虛擬化引擎作為執行系統。
最終的目標是,你只需告訴系統企業擁有哪些數據,註冊元數據,剩下的工作系統會自動完成。系統能夠連接所有數據,無論數據存放在何處,其格式如何。你只需要設置好數據訪問的約束和規則,也就是主動元數據。
對於數據消費者來說,Aloudata提供一個增強的數據目錄,即數據市場,他們可以在這裡找到數據,甚至系統會主動推送相關數據。最後,Aloudata提供一個開放式的數據服務,讓數據消費者使用自己喜愛和熟悉的工具,在舒適的環境中自助使用數據。
寫在最後
數據成為新的生產資料,如何藉助這一生產資料賦能企業的生產力成為時代主題,而ETL工程師在其中扮演了重要角色。但是現狀是在整個中國,這樣的高級工程師數量非常有限,隨著業務的增長,企業對這類高級工程師的需求也會相應增加,這在很大程度上限制了數據工程領域的發展和擴展。
Aloudata用智能化的解決方案取代傳統的ETL工程師驅動的方法,也就是「NoETL」,即通過ETL智能體(ETL Agent)驅動數據處理和管理。
「我們的使命不僅僅是為了解決人才短缺的問題,而是更徹底地改變數據的生產方式。我們的目標是實現數據的隨時就緒性——無論何時,只要業務需要,相關的數據就能立即被調取和使用。通過這種方式,我們希望為整個行業帶來一場深刻的變革,使數據處理更加高效、靈活,並為各行各業提供前所未有的數據管理能力。」周衛林最後說。