什么是數(shù)據(jù)中臺:
阿里提出了“大中臺,小前臺”的概念,即將業(yè)務數(shù)據(jù)化,數(shù)據(jù)業(yè)務化,真正實現(xiàn)數(shù)據(jù)和業(yè)務進行打通。阿里數(shù)據(jù)技術和產(chǎn)品部門的負責人曾說過:“很多人會把數(shù)據(jù)比作石油,馬云也說過,阿里巴巴要成為全球電子商務的水電煤。我們現(xiàn)在搭建的數(shù)據(jù)中臺,就是希望扮演發(fā)電廠的角色。”
數(shù)據(jù)中臺絕對不等于數(shù)據(jù)平臺,差別之一就在于是否具有業(yè)務屬性,這也是數(shù)據(jù)中臺出現(xiàn)的一個非常重要的原因,它可以支撐多個前臺業(yè)務,使得數(shù)據(jù)不再是各前端業(yè)務獨立管理,真正實現(xiàn)不同業(yè)務之間的互通互融。
我就曾經(jīng)參加過的一個項目給大家講講數(shù)據(jù)中臺包含那些東西。
1.數(shù)據(jù)采集
為數(shù)據(jù)中臺提供匯集數(shù)據(jù)的能力,應提供統(tǒng)一的數(shù)據(jù)獲取接入方式,數(shù)據(jù)來源包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),數(shù)據(jù)類型應支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集。傳統(tǒng)的ETL工具仍然可以復用,實現(xiàn)數(shù)據(jù)采集、轉(zhuǎn)換、加載等關鍵處理過程。
2.數(shù)據(jù)計算
為數(shù)據(jù)中臺提供統(tǒng)一的大數(shù)據(jù)計算能力,針對不同大數(shù)據(jù)處理場景,所需提供的數(shù)據(jù)計算能力也不同,一般主要包括批量離線計算、內(nèi)存計算、在線流式計算等,可用到的技術有數(shù)據(jù)挖掘,大數(shù)據(jù)分析,云計算等。
3.數(shù)據(jù)存儲
數(shù)據(jù)中臺中全域數(shù)據(jù)的存儲中心,按照不同的數(shù)據(jù)類型,可以采用圖中一種或多種數(shù)據(jù)存儲系統(tǒng)的“混搭”架構(gòu)。傳統(tǒng)數(shù)據(jù)倉庫(如DB2/ORACLE)是最為穩(wěn)定的數(shù)據(jù)存儲方式,承載著及時性、準確性要求高的企業(yè)核心應用。分布式關系數(shù)據(jù)庫,也常簡稱為MPP數(shù)據(jù)庫,相較于傳統(tǒng)的關系型數(shù)據(jù)庫,具有高性能處理能力、高數(shù)據(jù)吞吐能力的優(yōu)勢。
NoSQL分布式數(shù)據(jù)庫屬于非關系型數(shù)據(jù)庫管理系統(tǒng),在大數(shù)據(jù)簡單存取上具備關系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。分布式文件系統(tǒng)(HDFS)是當前最常見的大數(shù)據(jù)存儲方式,它具極高的性價比,擴展性強。數(shù)據(jù)湖作為一種新的存儲大量復雜格式數(shù)據(jù),避免企業(yè)數(shù)據(jù)孤島化的數(shù)據(jù)架構(gòu)方案,可用來將不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一聚合和存儲。
4.數(shù)據(jù)治理
指的是為了實現(xiàn)對企業(yè)中數(shù)據(jù)資產(chǎn)價值的獲取、管控、交付等目的,基于制定的數(shù)據(jù)規(guī)范,對數(shù)據(jù)資產(chǎn)所做的一系列管理活動。數(shù)據(jù)標準管理指對數(shù)據(jù)口徑、公共術語、參考數(shù)據(jù)、數(shù)據(jù)編碼等制定和實施標準化的管理活動。數(shù)據(jù)模型管理負責對系統(tǒng)中核心的邏輯模型、物理模型、數(shù)據(jù)庫表、字段、視圖等進行統(tǒng)一管控、促進其規(guī)范化。
5.數(shù)據(jù)服務
包括了與業(yè)務相關的、可復用的一些公共技術組件或產(chǎn)品,如數(shù)據(jù)目錄、數(shù)據(jù)標簽、數(shù)據(jù)分析、數(shù)據(jù)開放接口、機器學習算法模型等,它們可以使用SAAS方式直接對外提供服務,也可以以更小粒度如API、消息接口、文件接口、服務接口、SDK軟件包等方式只提供組件能力或數(shù)據(jù)服務,內(nèi)部或外部第三方應用不必關心底層數(shù)據(jù)準備情況,直接調(diào)用數(shù)據(jù)服務模塊對外提供的服務接口,就可以方便進行二次開發(fā),借以增強自身的能力。
為什么要建立數(shù)據(jù)中臺:
業(yè)內(nèi)對于數(shù)據(jù)中臺建設的經(jīng)驗還是不足的,我這里給大家講講如何建立數(shù)據(jù)中臺。
我經(jīng)在手機上??匆姼鞣N公眾號文章提及數(shù)據(jù)中臺這個概念,我也跟各個行業(yè)的一些大公司的 CIO 交流過,發(fā)現(xiàn)很多行業(yè)的大公司都開始組建大數(shù)據(jù)團隊,建設數(shù)據(jù)中臺。結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟對技術的影響。2018 年開始經(jīng)濟下行,生意不好做了,粗放的經(jīng)營已經(jīng)不行了,隨著數(shù)據(jù)時代的來臨,越來越多的企業(yè)想通過數(shù)據(jù)驅(qū)動來進行精細化的運營和數(shù)據(jù)化轉(zhuǎn)型。
對于20人以上的企業(yè)來講,如果不進行精細化運營,那么各種問題可能層出不窮,譬如:小到上演會議室爭奪戰(zhàn),大到各種業(yè)務團隊不互相、辦公溝通增加成本、辦公室物資損耗現(xiàn)象嚴重等等,日復一日地惡性循環(huán),最終不但會使管理者和員工感到精疲力盡,還會驚訝地發(fā)現(xiàn):企業(yè)業(yè)績沒有翻番,管理成本和經(jīng)營成本等費用反倒是陡然躥高,企業(yè)陷入了持續(xù)虧損的泥潭。
這時候,一個連接前后臺,并且為業(yè)務負責的數(shù)據(jù)中臺的出現(xiàn)就非常有必要了,它能更好的幫助企業(yè)進行精細化運營,從而減少甚至杜絕上面提到的任何問題。
如何建立數(shù)據(jù)中臺:
第一步,需要有個完整的地方把所有數(shù)據(jù)串聯(lián)起來;第二步,數(shù)據(jù)需要打通,并被整理好;第三步,數(shù)據(jù)要能夠驅(qū)動業(yè)務增長。其中,只有第二步和軟件架構(gòu)有關系,其它兩步與軟件架構(gòu)的關聯(lián)都不是那么緊密,第一步是信息化,第三步與管理層更緊密。
首先,數(shù)據(jù)中臺一定要與業(yè)務價值對齊。構(gòu)建數(shù)據(jù)中臺,最重要的不是技術,也不是數(shù)據(jù)質(zhì)量好不好,而是數(shù)據(jù)思維和數(shù)據(jù)文化。數(shù)據(jù)思維就是要建立起從數(shù)據(jù)的視角去思考問題的方式;數(shù)據(jù)文化就是要把數(shù)據(jù)和業(yè)務當成一體去看,而不是只將數(shù)據(jù)當作一個支持工具,想清楚業(yè)務對于數(shù)據(jù)的訴求是構(gòu)建數(shù)據(jù)中臺的第一步。不要在業(yè)務場景還沒有明確、優(yōu)先級還不清晰、價值度量體系尚未建立起來的時候,就建立大而全的數(shù)據(jù)平臺,
其次,數(shù)據(jù)中臺應該從小數(shù)據(jù)、小場景做起。數(shù)據(jù)中臺是面向場景而非面向技術的,這種與客戶的業(yè)務、企業(yè)的結(jié)構(gòu)和信息化發(fā)展階段有著緊密的相關性的業(yè)務基礎架構(gòu),是很難買一個大而全的產(chǎn)品來一勞永逸解決的。
一開始的時候需要頂層設計,面向業(yè)務愿景制定中臺的整體規(guī)劃,全面的梳理數(shù)據(jù)創(chuàng)新全景藍圖,這就是上圖左邊的黑色框架部分,通過業(yè)務愿景驅(qū)動出所有的業(yè)務場景探索,從而推導出數(shù)據(jù)中臺的全景架構(gòu)、技術支撐。
但是在實施的時候,要從具體的業(yè)務場景出發(fā)。從高價值數(shù)據(jù)集場景做起,然后順著這個場景豎切,找到數(shù)據(jù)全景圖中的一個或多個數(shù)據(jù)集合,從小數(shù)據(jù)場景落地,這樣才能快速驗證價值。大處思考,全局拉通,避免后續(xù)的數(shù)據(jù)孤島,但是從小數(shù)據(jù)集切入,從可實現(xiàn)性高的場景啟動。然后一個個的場景做起來,業(yè)務價值和中臺能力也就同步建立起來了。
企業(yè)實際案例:
數(shù)據(jù)中臺的建立一定會伴隨著企業(yè)架構(gòu)的調(diào)整,除非兩家企業(yè)的業(yè)務都是一樣的,否則不會存在對一個企業(yè)都適用的數(shù)據(jù)中臺。
企業(yè)建設數(shù)據(jù)中臺,可以通過合理規(guī)劃、復用內(nèi)部現(xiàn)有已經(jīng)完善的大數(shù)據(jù)處理工具來支撐建設,充分借鑒業(yè)界數(shù)據(jù)中臺建設實踐,從核心需求出發(fā),以某垂直業(yè)務的數(shù)據(jù)入手,打通數(shù)據(jù)采集、存儲、計算、治理、服務的工作全流程,逐步擴展到全域數(shù)據(jù)的接入、加工和管理,建設起自有的數(shù)據(jù)中臺。
阿里的業(yè)務中臺包含兩個數(shù)據(jù)庫,一個數(shù)據(jù)生產(chǎn)庫,一個數(shù)據(jù)中臺(歷史庫),包含了所有的歷史數(shù)據(jù)和關鍵算法。以阿里電商為例,用戶如果想買一個手機,在下單頁面就會推薦手機殼、充電寶等相關產(chǎn)品。但值得注意的是,研發(fā)不知道你喜歡上面,在服務的過程中,需要根據(jù)你的一系列消費行為或者其他活動的歷史記錄去分析。
那么問題來了,如果這個數(shù)據(jù)量非常龐大,現(xiàn)查是非常慢的,不可能瞬間就查到結(jié)果,那怎么辦呢?這就是數(shù)據(jù)中臺要做的事情,把用戶在歷史庫里的一堆數(shù)據(jù)做成一序列業(yè)務模型,然后在業(yè)務中臺里要查某一用戶喜歡什么時,它能立馬調(diào)出結(jié)果并反饋,這是數(shù)據(jù)中臺最大的魅力,這個反饋可能是毫秒級的。
這才是數(shù)據(jù)中臺真正發(fā)揮價值的地方,而不是說做個可視化大屏就覺得有了數(shù)據(jù)中臺或是聽說數(shù)據(jù)有價值就去搞個數(shù)據(jù)中臺,這都是沒有真正理解數(shù)據(jù)中臺的表現(xiàn)。從建設的角度來講,一般是先建設業(yè)務中臺,然后有了一定量的數(shù)據(jù),想清楚了這個數(shù)據(jù)該怎么用才去建設數(shù)據(jù)中臺,然后再反過來優(yōu)化業(yè)務能力,讓業(yè)務智能化。
總結(jié):
當企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細化運營,進而產(chǎn)生大規(guī)模數(shù)據(jù)應用需求的時候,就需要建設數(shù)據(jù)中臺。當然,數(shù)據(jù)中臺的建立不是一蹴而就的,每個企業(yè)都應該基于實際打造獨有的中臺能力。