數(shù)據(jù)領(lǐng)域新寵——數(shù)據(jù)編織 | 趨勢(shì)解讀

數(shù)據(jù)成為核心生產(chǎn)要素,成為數(shù)字化轉(zhuǎn)型不可或缺的重要元素。隨著政策的加持,大家對(duì)數(shù)據(jù)要素重要性的認(rèn)知也越來越充分,企業(yè)數(shù)據(jù)總量不斷增加,但是數(shù)據(jù)孤島的情況沒從根本上得以解決,反而有變本加厲的趨勢(shì)。

本文來自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,作者/鄭金輝。

最近在日常的工作和跟客戶的交流中,頻繁談及“數(shù)據(jù)編織”這個(gè)詞,我開始關(guān)注數(shù)據(jù)編織是源于對(duì)主動(dòng)式數(shù)據(jù)治理和數(shù)據(jù)編排的研究,從現(xiàn)在的趨勢(shì)來看,數(shù)據(jù)編織顯然已經(jīng)進(jìn)入落地階段。數(shù)據(jù)編織正在從一個(gè)概念、一個(gè)理念向一線生產(chǎn)場景演進(jìn),正在加速產(chǎn)品化和實(shí)戰(zhàn)化。其實(shí)數(shù)據(jù)編織不是一個(gè)特別新的詞,Gartner在2022年的重要戰(zhàn)略技術(shù)趨勢(shì)報(bào)告里面,第三次把數(shù)據(jù)編織列為十大技術(shù)趨勢(shì)之一。

一、數(shù)據(jù)編織產(chǎn)生的背景

首先我們來看一下在數(shù)據(jù)領(lǐng)域正在發(fā)生著哪些趨勢(shì)性的變化。

1、數(shù)據(jù)成為核心生產(chǎn)要素,成為數(shù)字化轉(zhuǎn)型不可或缺的重要元素。隨著政策的加持,大家對(duì)數(shù)據(jù)要素重要性的認(rèn)知也越來越充分,企業(yè)數(shù)據(jù)總量不斷增加,但是數(shù)據(jù)孤島的情況沒從根本上得以解決,反而有變本加厲的趨勢(shì)。

2、數(shù)據(jù)結(jié)構(gòu)從結(jié)構(gòu)化向多元化方向進(jìn)一步演進(jìn)。數(shù)據(jù)的內(nèi)涵和外延都進(jìn)一步發(fā)展,從單純的結(jié)構(gòu)化數(shù)據(jù)為主,向包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的混合模式轉(zhuǎn)移,數(shù)據(jù)采集、使用、管理的難度進(jìn)一步加大。

3、從單純關(guān)注數(shù)據(jù)應(yīng)用到關(guān)注數(shù)據(jù)能力體系化建設(shè)。數(shù)據(jù)域的建設(shè)正在從單純的以數(shù)據(jù)應(yīng)用為核心,向體系化的數(shù)據(jù)服務(wù)能力建設(shè)轉(zhuǎn)型,開始意識(shí)到數(shù)據(jù)管理和運(yùn)營的不足,開始嘗試數(shù)據(jù)服務(wù)能力平臺(tái)化和體系化,開始探索改變數(shù)據(jù)治理“一亂一治”的被動(dòng)局面。

4、數(shù)據(jù)運(yùn)行環(huán)境呈現(xiàn)跨平臺(tái)和融合化的趨勢(shì)。隨著企業(yè)上云開展和多云架構(gòu)的廣泛采納,數(shù)據(jù)運(yùn)行環(huán)境正在加速融入統(tǒng)一的云化基礎(chǔ)設(shè)施中,數(shù)據(jù)采集、存儲(chǔ)和分析正在從離線轉(zhuǎn)向?qū)崟r(shí),對(duì)目前異構(gòu)、泛在、智能的算力平臺(tái)提出了更高的要求。

以上這些趨勢(shì)性的變化,都是在實(shí)際生產(chǎn)中遇到的數(shù)據(jù)管理的難題和痛點(diǎn),企業(yè)需要一種新的數(shù)據(jù)架構(gòu)理念來應(yīng)對(duì)在數(shù)據(jù)資產(chǎn)化進(jìn)程中產(chǎn)生的復(fù)雜性、分布式、多元化等因素,于是數(shù)據(jù)編織出現(xiàn)了。

二、什么是數(shù)據(jù)編織

對(duì)于數(shù)據(jù)編織的定義,業(yè)內(nèi)尚且沒有統(tǒng)一完整的表達(dá)。

Gartner給數(shù)據(jù)編織(Data Fabric)的定義如下:Data Fabric is a design concept that serves as an integrated layer of data and connecting processes.數(shù)據(jù)編織是一個(gè)設(shè)計(jì)概念,表示數(shù)據(jù)和連接進(jìn)程的集成層。

從以上的定義可以看出,Gartner首先認(rèn)為數(shù)據(jù)編織不是一種技術(shù),而是一種設(shè)計(jì)理念或者叫一種架構(gòu)理念,然后認(rèn)為數(shù)據(jù)編織是一種跨平臺(tái)的數(shù)據(jù)整合手段,同時(shí)具備數(shù)據(jù)和連接兩個(gè)核心概念,數(shù)據(jù)既是編織的對(duì)象又是業(yè)務(wù)的表征,連接既是實(shí)體的數(shù)據(jù)獲取工具也是屏蔽復(fù)雜性的手段。

整體來看,Data Fabric是利用AI、機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)等技術(shù)手段,訪問數(shù)據(jù)或支持?jǐn)?shù)據(jù)動(dòng)態(tài)整合,以發(fā)現(xiàn)可用數(shù)據(jù)之間獨(dú)特的、與業(yè)務(wù)相關(guān)的關(guān)系。業(yè)內(nèi)有一句通俗的解讀:現(xiàn)在的數(shù)據(jù)層的架構(gòu)設(shè)計(jì)還主要是“人找數(shù)據(jù)”,而Data Fabric設(shè)計(jì)核心是“數(shù)據(jù)找人”,在合適的時(shí)間、將合適的數(shù)據(jù)推送給需要的人。是不是有點(diǎn)豁然開朗的感覺。

Gartner認(rèn)為,數(shù)據(jù)編織的核心是充當(dāng)數(shù)據(jù)和連接的集成層。數(shù)據(jù)編織利用對(duì)現(xiàn)有、可發(fā)現(xiàn)(未知)的元數(shù)據(jù)資產(chǎn)的持續(xù)和動(dòng)態(tài)分析,以支持異構(gòu)、泛在、智能的多云化的基礎(chǔ)設(shè)施和數(shù)據(jù)服務(wù)全生命周期的持續(xù)打造。Gartner給出的數(shù)據(jù)編織的典型結(jié)構(gòu),自下而上分為5個(gè)層次,分別是:

數(shù)據(jù)源層:數(shù)據(jù)編織可以連接各種數(shù)據(jù)源。這些資源包括存在于企業(yè)內(nèi)部的各類數(shù)據(jù)源,同時(shí)也可以接入公共可用的數(shù)據(jù)資源。同時(shí),除了結(jié)構(gòu)化數(shù)據(jù)以外,還包括相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)。但是要注意,這提到的是連接和整合,不是采集和提取。

數(shù)據(jù)目錄層:與傳統(tǒng)人工編目不同,數(shù)據(jù)編織強(qiáng)調(diào)采用新技術(shù)(語義分析、知識(shí)圖譜、主動(dòng)元數(shù)據(jù)管理和嵌入式機(jī)器學(xué)習(xí)(ML)等等)自動(dòng)識(shí)別元數(shù)據(jù),持續(xù)分析關(guān)鍵指標(biāo)和統(tǒng)計(jì)數(shù)據(jù)的可用元數(shù)據(jù),然后構(gòu)建圖譜模型,形成基于元數(shù)據(jù)的獨(dú)特和業(yè)務(wù)相關(guān)關(guān)系,以易于理解的圖譜方式描述元數(shù)據(jù)。

知識(shí)圖譜層:數(shù)據(jù)編織必須構(gòu)建和管理知識(shí)圖譜。知識(shí)圖譜的語義層使用AI/ML算法簡化數(shù)據(jù)集成設(shè)計(jì),使其更加直觀和易于解釋,使數(shù)字化領(lǐng)導(dǎo)者的分析變得容易?;谥R(shí)圖譜的數(shù)據(jù)應(yīng)用,將合適的數(shù)據(jù)在合適的時(shí)機(jī)自動(dòng)化推送給數(shù)據(jù)集成專家和數(shù)據(jù)工程師,讓他們能夠輕松訪問數(shù)據(jù)并進(jìn)行數(shù)據(jù)共享和使用。

數(shù)據(jù)集成層:集成和整合是數(shù)據(jù)編織的核心,數(shù)據(jù)編織提供自動(dòng)編織、動(dòng)態(tài)集成的能力,兼容各種數(shù)據(jù)集成方式,包括但不限于ETL、流式傳輸、復(fù)制、消息傳遞和數(shù)據(jù)虛擬化或數(shù)據(jù)微服務(wù)等。同時(shí),支持通過API支持與內(nèi)部和外部利益相關(guān)者共享數(shù)據(jù)。

數(shù)據(jù)消費(fèi)層:數(shù)據(jù)編織面向所有類型的數(shù)據(jù)用戶,提供數(shù)據(jù)和服務(wù),包括:數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)集成專家、數(shù)據(jù)工程師等,既能夠面向?qū)I(yè)的IT用戶的復(fù)雜集成需求處理,也可以支持業(yè)務(wù)人員的自助式數(shù)據(jù)準(zhǔn)備和分析。

數(shù)據(jù)編織本質(zhì)上是一個(gè)統(tǒng)一的架構(gòu)理念,通過數(shù)據(jù)源的自動(dòng)檢測和元數(shù)據(jù)的主動(dòng)發(fā)現(xiàn),增強(qiáng)數(shù)據(jù)與業(yè)務(wù)的關(guān)聯(lián)和實(shí)時(shí)性;通過數(shù)據(jù)知識(shí)譜圖的構(gòu)建,加強(qiáng)數(shù)據(jù)價(jià)值呈現(xiàn);通過數(shù)據(jù)自動(dòng)編排和動(dòng)態(tài)集成,形成動(dòng)態(tài)可持續(xù)的數(shù)據(jù)服務(wù)。除了架構(gòu)理念之外,還提供了一套新的數(shù)據(jù)管理框架,使用戶能夠輕松訪問和共享不同的數(shù)據(jù)資源。

Gartner認(rèn)為,通過實(shí)施Data Fabric,企業(yè)不僅可以減少一半以上人力驅(qū)動(dòng)的數(shù)據(jù)管理任務(wù)、70%的數(shù)據(jù)管理工作,讓數(shù)據(jù)質(zhì)量及運(yùn)營成本降低65%;還能以8倍的速度、不到一半的成本,獲取數(shù)據(jù)和洞察——基于Data Fabric產(chǎn)生的數(shù)據(jù)洞察,可以使企業(yè)平均每年增長30%以上。

以上成效數(shù)據(jù)看看就行,別當(dāng)真!

三、數(shù)據(jù)編織與數(shù)據(jù)中臺(tái)、數(shù)據(jù)治理、DataOps的關(guān)系

通過上述的解讀,大家會(huì)發(fā)現(xiàn)數(shù)據(jù)編織的概念好像跟之前比較流行的數(shù)據(jù)中臺(tái)和數(shù)據(jù)治理有著密切關(guān)聯(lián),甚至有點(diǎn)分不清。下面嘗試做一些分析,但是具體細(xì)節(jié)仍然需要在一線的實(shí)踐中進(jìn)一步明確。

1、數(shù)據(jù)編織與數(shù)據(jù)中臺(tái)

明確的說,數(shù)據(jù)編織和數(shù)據(jù)中臺(tái)不是一個(gè)概念,數(shù)據(jù)編織也不是數(shù)據(jù)中臺(tái)的高級(jí)版。

首先,數(shù)據(jù)中臺(tái)跟數(shù)據(jù)編織一樣,不是一個(gè)產(chǎn)品,也不是一種新技術(shù),而是為了達(dá)成“讓數(shù)據(jù)用起來”這一目標(biāo),由相關(guān)技術(shù)組件組成的一個(gè)綜合性的解決方案,重點(diǎn)是提供面向應(yīng)用的數(shù)據(jù)標(biāo)簽、數(shù)據(jù)目錄、數(shù)據(jù)分析、模型算法服務(wù)等各類數(shù)據(jù)服務(wù)。而數(shù)據(jù)編織更側(cè)重實(shí)現(xiàn)異構(gòu)融合多樣的數(shù)據(jù)資產(chǎn)服務(wù),強(qiáng)調(diào)自動(dòng)化的集成和智能數(shù)據(jù)編排。

第二,數(shù)據(jù)中臺(tái)是一個(gè)“讓數(shù)據(jù)用起來”的方法論,不僅包含數(shù)據(jù)管理和使用的相關(guān)技術(shù)組件,還包括與之相適應(yīng)的企業(yè)組織機(jī)構(gòu)、管理制度和流程、運(yùn)營機(jī)制和考核辦法等。而數(shù)據(jù)編織一開始就強(qiáng)調(diào)新技術(shù)的應(yīng)用,例如:機(jī)器學(xué)習(xí)、人工智能、知識(shí)圖譜的等,且構(gòu)建和管理知識(shí)圖譜是其核心支持從數(shù)據(jù)源級(jí)別到分析、洞察力生成、編排和應(yīng)用程序的集成數(shù)據(jù)層(結(jié)構(gòu)),數(shù)據(jù)編織的技術(shù)色彩更濃一些。

數(shù)據(jù)中臺(tái)和數(shù)據(jù)編織,是不同的技術(shù)陣營營造的出來的概念,沒有太多可比性。如果非要類比,倒是可以把數(shù)據(jù)編織作為數(shù)據(jù)中臺(tái)的一部分。不過,恐怕Gartner和IBM們不會(huì)答應(yīng)。

2、數(shù)據(jù)編織與數(shù)據(jù)治理

狹義的數(shù)據(jù)治理重點(diǎn)是對(duì)數(shù)據(jù)質(zhì)量的管理,廣義的數(shù)據(jù)治理是數(shù)據(jù)管理的一整套規(guī)則和機(jī)制,核心是讓數(shù)據(jù)有序和可管。數(shù)據(jù)治理是基于內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)、策略和規(guī)則,管理企業(yè)數(shù)據(jù)的可用性、完整性和安全性,從而將數(shù)據(jù)轉(zhuǎn)化為企業(yè)資產(chǎn)。

傳統(tǒng)的數(shù)據(jù)治理在實(shí)際落地中,往往會(huì)陷入一亂一治的怪圈,容易形成被動(dòng)的數(shù)據(jù)管理。從目前來看,數(shù)據(jù)治理的發(fā)展趨勢(shì),有很多方面已經(jīng)很明確了,比如數(shù)據(jù)治理與AI的結(jié)合、數(shù)據(jù)安全與數(shù)據(jù)治理的深度融合、數(shù)據(jù)價(jià)值呈現(xiàn)成為數(shù)據(jù)治理的關(guān)注焦點(diǎn)。

在傳統(tǒng)的數(shù)據(jù)治理體系中是沒有包含數(shù)據(jù)編織的,但數(shù)據(jù)編織(Data Fabric)是一種數(shù)據(jù)管理的全新架構(gòu),是自動(dòng)化、智能化數(shù)據(jù)治理的一個(gè)理想解決方案,從數(shù)據(jù)架構(gòu)層面增強(qiáng)了企業(yè)數(shù)據(jù)管理的能力,是傳統(tǒng)數(shù)據(jù)治理的重要補(bǔ)充。

3、數(shù)據(jù)編織與DataOps

近幾年,DataOps數(shù)據(jù)開發(fā)治理一體化在業(yè)界非常受歡迎。部分?jǐn)?shù)字化轉(zhuǎn)型較早、數(shù)據(jù)資源條件優(yōu)厚的企業(yè),借鑒傳統(tǒng)DevOps的理念,將原本分散的數(shù)據(jù)治理、管理、開發(fā)和應(yīng)用等環(huán)節(jié)打通,形成一個(gè)無縫銜接的大閉環(huán),去破解企業(yè)在數(shù)據(jù)應(yīng)用中的難題。

究竟什么是DataOps,在現(xiàn)在階段不太好定義。維基百科對(duì)DataOps的定義是一種面向流程的自動(dòng)化方法,由分析和數(shù)據(jù)團(tuán)隊(duì)使用,旨在提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期,簡而言之,就是提供一整套工具和方法論,讓數(shù)據(jù)應(yīng)用的開發(fā)和管理更加高效。顯然,這個(gè)定義有點(diǎn)籠統(tǒng)又不明確。

我們一般理解,DataOps的目標(biāo)是為了使數(shù)據(jù)資源和數(shù)據(jù)應(yīng)用的開發(fā)變得更加有序和可控,實(shí)現(xiàn)組件和能力重用以及過程自動(dòng)化,實(shí)現(xiàn)面向用戶的自助式數(shù)據(jù)分析。DataOps在數(shù)據(jù)開發(fā)運(yùn)營體系化方面,可以作為數(shù)據(jù)中臺(tái)建設(shè)必須參考的一個(gè)方法論。DataOps強(qiáng)調(diào)的是數(shù)據(jù)應(yīng)用的開發(fā)和運(yùn)維效率,就像DevOps一樣,DataOps希望通過提供一整套工具和方法論,來讓數(shù)據(jù)應(yīng)用的開發(fā)和管理更加高效。

那Data Fabric和DataOps有什么區(qū)別和聯(lián)系呢?

Data Fabric和DataOps肯定不是相同的概念,但DataOps是將Data Fabric真正落地一個(gè)重要的推動(dòng)者。DataOps的數(shù)據(jù)流程模型、工具和數(shù)據(jù)洞察與用戶數(shù)據(jù)需求之間存在密切的聯(lián)系,該模型與數(shù)據(jù)編織的架構(gòu)具有共生關(guān)系,DataOps數(shù)據(jù)流程模型和思維模式是數(shù)據(jù)編織落地的核心關(guān)鍵。

四、數(shù)據(jù)編織將如何發(fā)展

Data Fabric是近兩年在國外備受追捧的概念,而在國內(nèi)剛剛起步。之前IT技術(shù)從概念到落地大概需要10年左右的時(shí)間,近些年這個(gè)時(shí)間已經(jīng)大大縮短??梢灶A(yù)見的是,Data Fabric在國內(nèi)也將被越來越多的企業(yè)用于解決數(shù)據(jù)資產(chǎn)多樣性、分散性、規(guī)?;蛷?fù)雜性不斷增加以及數(shù)據(jù)使用人群和應(yīng)用場景爆發(fā)式增長帶來的一系列問題。

這個(gè)過程中,依然有一些可以預(yù)見的問題,需要我們?nèi)ブ匾暋?/p>

1、回歸數(shù)據(jù)資源化和服務(wù)化的本源

數(shù)據(jù)編織在落地過程中,還是要回歸數(shù)據(jù)資產(chǎn)化和服務(wù)化這一初衷,不要把多元數(shù)據(jù)的動(dòng)態(tài)管理演變成了打造另外一個(gè)數(shù)據(jù)湖。除了資產(chǎn)化和服務(wù)化,更要關(guān)注平臺(tái)化,要注意數(shù)據(jù)集成,動(dòng)態(tài)的數(shù)據(jù)集成。強(qiáng)調(diào)組件之間的互操作性,通過API和SDK實(shí)現(xiàn)集成層、無縫數(shù)據(jù)傳輸以及自動(dòng)數(shù)據(jù)洞察的獲取。

2、依托統(tǒng)一的異構(gòu)泛在的智能基礎(chǔ)設(shè)施

數(shù)據(jù)編織千萬不能走煙囪式IT建設(shè)的老路,必須面向企業(yè)復(fù)雜的數(shù)據(jù)環(huán)境提供集成整合能力,克服異構(gòu)泛在的云化基礎(chǔ)設(shè)施帶來的挑戰(zhàn)。依托數(shù)據(jù)編織,根據(jù)不斷變化的技術(shù)和業(yè)務(wù)需求,自由地從一系列混合IT基礎(chǔ)架構(gòu)資源中運(yùn)行關(guān)鍵的數(shù)據(jù)業(yè)務(wù)。

3、關(guān)注與物聯(lián)網(wǎng)和邊緣計(jì)算的深度融合

邊緣計(jì)算專為支持物聯(lián)網(wǎng)實(shí)施而構(gòu)建,它是將與數(shù)據(jù)相關(guān)的關(guān)鍵任務(wù)從集中式應(yīng)用程序轉(zhuǎn)移到一個(gè)單獨(dú)的邊緣層,該邊緣層是分布式的,但與數(shù)據(jù)編織緊密相連。通過使數(shù)據(jù)編織適配邊緣計(jì)算,企業(yè)可以從其物聯(lián)網(wǎng)設(shè)備中獲得更多數(shù)據(jù)價(jià)值。

數(shù)據(jù)編織的初衷是實(shí)現(xiàn)泛在的數(shù)據(jù)資產(chǎn)化和自動(dòng)編排,這其中物聯(lián)網(wǎng)和端側(cè)數(shù)據(jù)是必須要充分考慮的重要場景,從目前趨勢(shì)來看,部分關(guān)鍵數(shù)據(jù)任務(wù)一定會(huì)從集中式的算力中心下沉到邊緣計(jì)算節(jié)點(diǎn)。數(shù)據(jù)編織必須實(shí)現(xiàn)與邊緣計(jì)算的深度融合,以便實(shí)現(xiàn)更范圍的數(shù)據(jù)資產(chǎn)化,獲取更大的數(shù)據(jù)價(jià)值。

從國內(nèi)的行業(yè)現(xiàn)狀來看,國內(nèi)還沒有真正意義上的成熟的Data Fabric。究其原因,是跟國內(nèi)廠商在數(shù)據(jù)領(lǐng)域的布局有關(guān),國內(nèi)數(shù)據(jù)廠商大多分布在數(shù)據(jù)庫和數(shù)據(jù)分析等領(lǐng)域,在數(shù)據(jù)整合和治理領(lǐng)域相對(duì)薄弱。在國外的實(shí)踐來看,Data Fabric比較活躍的是從事數(shù)據(jù)整合和數(shù)據(jù)虛擬化的公司。

總的來說,Data Fabric作為一個(gè)新興的概念,還需進(jìn)一步的成熟和完善,但是窗口期不會(huì)太久。

原題:《數(shù)據(jù)領(lǐng)域的新寵,數(shù)據(jù)編織》,作者個(gè)人公眾號(hào):向云而生

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論