拿著舊地圖是不可能找到新大陸的!
馬云老師早些年在香港青年創(chuàng)業(yè)營上有公開說過DT,阿里巴巴也是較早構(gòu)建數(shù)據(jù)中臺的企業(yè)。但是馬老師沒說數(shù)據(jù)中臺背后的目的和數(shù)據(jù)背后的力量。
本文筆者先講什么是數(shù)據(jù)中臺、然后講理想的數(shù)據(jù)中臺的架構(gòu)、再講駕馭數(shù)據(jù)中臺要懂的技術(shù)、并結(jié)合思維新地圖判斷數(shù)據(jù)中臺會是下一個風口嗎?最后講從數(shù)據(jù)中臺到AI中臺是一種自然生長。
一、什么是數(shù)據(jù)中臺?
(一)、中臺概念的來源
美軍在二戰(zhàn)時,以軍來為單位作戰(zhàn);到了越戰(zhàn)時,以營為單位作戰(zhàn);到了中東戰(zhàn)斗的時候,以7人或者11人的極小班排去作戰(zhàn),這是今天最靈活的軍事組織,也是核心競爭力和打擊能力最強的一個組織。而美軍之所以能靈活作戰(zhàn),敢放這么小的團隊到前方,是因為有非常強的導彈指揮系統(tǒng),有非常強大的中臺能力,能支持這樣的小團隊快速做判斷,并且引領(lǐng)整個打擊。
(二)、商業(yè)中臺的演化
隨著阿里巴巴、華為的業(yè)務發(fā)展,平臺業(yè)務線越來越多,例如:據(jù)筆者LineLian此前的一份調(diào)研,阿里巴巴旗下某中等BU(事業(yè)群),一年生產(chǎn)出來117款產(chǎn)品,順利年終上線的有10幾款,有社會知名度的有幾款,被集團老板馬老師記住的整個部門沒有一款。
分析產(chǎn)生這種問題的原因是,100多條產(chǎn)品線實際領(lǐng)到的任務均是為了大BU淘系服務,且針對淘系廣告相關(guān)的服務,例如圍繞直通車、鉆展等服務的產(chǎn)品,并沒有調(diào)動研發(fā)創(chuàng)造產(chǎn)品的團隊積極性。
所以阿里由美式中臺演化到阿里組織中臺,然后根據(jù)產(chǎn)品是長出來的而不是規(guī)劃出來的隨著阿里各個業(yè)務線數(shù)據(jù)的增長又由組織中臺演化到數(shù)據(jù)中臺。當然數(shù)據(jù)中臺也不是阿里的最終目標。
(三)、數(shù)據(jù)中臺的廣義定義
數(shù)據(jù)中臺是指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時統(tǒng)一標準和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標準數(shù)據(jù),再進行存儲,形成大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務。這些服務跟企業(yè)的業(yè)務有較強的關(guān)聯(lián)性,是這個企業(yè)獨有的且能復用的,它是企業(yè)業(yè)務和數(shù)據(jù)的沉淀,其不僅能降低重復建設、減少煙囪式協(xié)作的成本,上面的阿里巴巴100多個同系列產(chǎn)品同時服務一個淘系就屬于煙囪式。
廣義的數(shù)據(jù)中臺包括了數(shù)據(jù)技術(shù),比如對海量數(shù)據(jù)進行采集、計算、存儲、加工的一系列技術(shù)集合,時下我們談到的數(shù)據(jù)中臺包括數(shù)據(jù)模型,算法服務,數(shù)據(jù)產(chǎn)品,數(shù)據(jù)管理等等,和企業(yè)的業(yè)務有較強的關(guān)聯(lián)性,是企業(yè)獨有的且能復用的,比如企業(yè)自建的2000個基礎模型,300個融合模型,5萬個標簽。
數(shù)據(jù)中臺廣義上是企業(yè)業(yè)務和數(shù)據(jù)的沉淀,其不僅能降低重復建設,減少煙囪式協(xié)作的成本,也是差異化競爭優(yōu)勢所在。
二、理想的數(shù)據(jù)中臺架構(gòu)
我們都知道遠洋運輸中,不論什么合法貨物都能裝進集裝箱里,集裝箱就是很好的架構(gòu),類似理想的數(shù)據(jù)中臺架構(gòu)如下圖:
通過以上架構(gòu)圖,可以看出,數(shù)據(jù)中臺模式有以下一些特點。
首先是對全域數(shù)據(jù)的吸收與存儲,實現(xiàn)對企業(yè)中各業(yè)務類別數(shù)據(jù)的整合和集中化管理。
其次是按照規(guī)范化的數(shù)據(jù)架構(gòu)(數(shù)據(jù)倉庫規(guī)劃、數(shù)據(jù)模型構(gòu)建、指標定義規(guī)范等)統(tǒng)一研發(fā)數(shù)據(jù),實現(xiàn)數(shù)據(jù)口徑、數(shù)據(jù)模型標準化。
再次是建立業(yè)務需求驅(qū)動的幾大數(shù)據(jù)體系,深度萃取數(shù)據(jù)價值。
最后是集成數(shù)據(jù)資產(chǎn)管理能力,從數(shù)據(jù)的運營、應用、管理、分析、可視化五方面統(tǒng)一管理數(shù)據(jù)資產(chǎn)。
三、數(shù)據(jù)中臺需要懂的技術(shù)
(一)、技術(shù)切入點是從構(gòu)建數(shù)據(jù)倉庫+各種數(shù)據(jù)平臺的技術(shù)入手,數(shù)據(jù)倉庫的構(gòu)建如下圖:
上圖可見,最左側(cè)數(shù)據(jù)源這點很好理解,但是很難辦理實現(xiàn)。因為數(shù)據(jù)有個特點是每家的數(shù)據(jù)有每家的業(yè)務特征,但是這些特征難以團聚,即數(shù)據(jù)孤島!
ETL:ETL分別代表:抽取extraction、轉(zhuǎn)換transformation、加載load。抽取(Extract)是從數(shù)據(jù)來源提取指定數(shù)據(jù),數(shù)據(jù)是需要指定的。轉(zhuǎn)換(Transform)是將數(shù)據(jù)轉(zhuǎn)換為指定格式并進行數(shù)據(jù)清洗保證數(shù)據(jù)質(zhì)量。加載(Load)是將轉(zhuǎn)換過后的數(shù)據(jù)加載到目標數(shù)據(jù)倉庫。
DM:數(shù)據(jù)集市可以理解為是一種“小型數(shù)據(jù)倉庫”,一般面向部門、單個主題或特定應用,且之間互不影響。
ODS:全稱是Operational Data Store,操作數(shù)據(jù)存儲。存儲各大業(yè)務型數(shù)據(jù)庫ETL后的數(shù)據(jù),是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,主要目的是為了數(shù)據(jù)集中??傮w上大多是按照源業(yè)務系統(tǒng)的分類方式而分類的,因此會具有鮮明的業(yè)務數(shù)據(jù)庫的特征,甚至還具有一定的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)范式的組織形式。但是不等同于原始數(shù)據(jù),數(shù)據(jù)格式按照數(shù)倉要求統(tǒng)一,并經(jīng)過簡單的清洗。
(二)、技術(shù)實操點
1、實操數(shù)據(jù)存儲
起源數(shù)據(jù)治理平臺管理的數(shù)據(jù)存儲范圍包括:數(shù)據(jù)倉庫中的Topic層和數(shù)據(jù)應用層,存儲方式包括:Hive、MySQL、Kylin、Palo、ES、Druid。如下圖所示:
上圖所示的這些數(shù)據(jù)存儲中的數(shù)據(jù)的加工過程,由數(shù)據(jù)開發(fā)工程師負責,具體采用哪種存儲介質(zhì),由數(shù)據(jù)開發(fā)工程師綜合所需數(shù)據(jù)存儲空間、查詢效率、模型的組織形式等因素決定。但后續(xù)的使用維護都由起源數(shù)據(jù)治理平臺管理,管理方式是通過管理這些數(shù)據(jù)表的元數(shù)據(jù)信息和查詢實現(xiàn)。
數(shù)據(jù)存儲托管之后,數(shù)據(jù)表元數(shù)據(jù)信息變更監(jiān)控、表數(shù)據(jù)生產(chǎn)(存儲空間、生產(chǎn)狀態(tài)及完成時間)監(jiān)控、表數(shù)據(jù)波動(同環(huán)比等)監(jiān)控以及表的使用(模型的構(gòu)建及查詢效率等)監(jiān)控及評估,都由起源數(shù)據(jù)治理平臺自動完成,所有信息的變動都會自動周知對應的負責人,保證數(shù)據(jù)應用的安全和穩(wěn)定。
2、實操元數(shù)據(jù)管理
元數(shù)據(jù)信息宏觀上包括兩大部分:業(yè)務元數(shù)據(jù)信息和數(shù)據(jù)元數(shù)據(jù)信息。其中業(yè)務元數(shù)據(jù)信息包括:指標業(yè)務定義、維度的業(yè)務定義等;數(shù)據(jù)元數(shù)據(jù)信息包括:數(shù)據(jù)表元數(shù)據(jù)信息、模型元數(shù)據(jù)信息、維表與維度的綁定關(guān)系、數(shù)據(jù)模型字段與指標的綁定關(guān)系。
起源平臺為了實現(xiàn)元數(shù)據(jù)信息的管理,設計了四個模塊實現(xiàn),分別是:數(shù)據(jù)表管理模塊、模型管理模塊、指標管理模塊、維度管理模塊。元數(shù)據(jù)管理是起源數(shù)據(jù)治理平臺的核心,起源平臺就是通過控制好元數(shù)據(jù),來驅(qū)動數(shù)據(jù)的生產(chǎn)和消費。
3、實操數(shù)據(jù)表管理模塊:
數(shù)據(jù)表管理模塊管理了數(shù)據(jù)庫信息和數(shù)據(jù)表信息。其中數(shù)據(jù)庫信息包括數(shù)據(jù)庫鏈接信息,數(shù)據(jù)庫信息維護后,起源數(shù)據(jù)治理平臺自動獲取對應庫中表的元數(shù)據(jù)信息。
數(shù)據(jù)表信息包括:表的元數(shù)據(jù)信息(引擎、字段等)、表類型(維表或事實表)、表的使用情況(是否被模型使用)、表對應的ETL、表的負責人、表的推薦度、描述信息、表的監(jiān)控配置及報警歷史、以及樣例數(shù)據(jù)等。上述這些信息為業(yè)務用戶提供指導,為模型管理提供數(shù)據(jù)支持,為數(shù)據(jù)表和數(shù)據(jù)的穩(wěn)定提供監(jiān)控和預警。
4、實操維度管理模塊:
維度管理模塊包括基礎信息和技術(shù)信息,對應著不同人員維護。其中基礎信息對應維度的業(yè)務信息,由業(yè)務管理人員維護,包括維度名稱、業(yè)務定義、業(yè)務分類。技術(shù)信息對應維度的數(shù)據(jù)信息,由數(shù)據(jù)開發(fā)工程師維護,包括是否有維表(是枚舉維度還是有獨立的維表)、是否是日期維、對應code英文名稱和中文名稱、對應name英文名稱和中文名稱。如果維度有維表,則需要和對應的維度表綁定,設置code和name對應的字段;如果維度是枚舉維,則需要填寫對應的code和name。維度的統(tǒng)一管理,有利于以后數(shù)據(jù)表的標準化,也方便用戶的查看。
5、指標管理模塊
指標管理模塊核心包括基礎信息和技術(shù)信息管理,衍生信息包括關(guān)聯(lián)指標、關(guān)聯(lián)應用管理?;A信息對應的就是指標的業(yè)務信息,由業(yè)務人員填寫,主要包括指標名稱、業(yè)務分類、統(tǒng)計頻率、精度、單位、指標類型、指標定義、計算邏輯、分析方法、影響因素、分析維度等信息;基礎信息中還有一個比較重要的部分是監(jiān)控配置,主要是配置指標的有效波動范圍區(qū)間、同環(huán)比波動區(qū)間等,監(jiān)控指標數(shù)據(jù)的正常運行。
技術(shù)信息構(gòu)成比較復雜,包括數(shù)據(jù)類型、指標代碼,但是核心部分是指標與模型的綁定關(guān)系,通過使用演進形成了當前系統(tǒng)兩類綁定關(guān)系:綁定物理模型和構(gòu)建虛擬模型。綁定物理模型是指標與模型管理中的物理模型字段綁定,并配置對應的計算公式,或還包含一些額外的高級配置,如二次計算、模型過濾條件等;創(chuàng)建虛擬模型是通過已有指標和其對應的物理模型,具體步驟首先配置已有指標的計算方式或指標維度的過濾,然后選擇指標已綁定的物理模型,形成一個虛擬模型,虛擬模型的分析維度就是所選指標基礎模型的公共維度。
從以上實操來看,產(chǎn)品、運營、技術(shù)、業(yè)務人員是相互配合完成數(shù)據(jù)中臺的實操,當然了在這里如果某一個崗位人員的技能和經(jīng)驗豐富一些,不排除以人身兼多職的可能。更多相關(guān)實操知識點可以參考筆者LineLian的書籍《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。
四、數(shù)據(jù)中臺會成為下一個風口嗎?
數(shù)據(jù)中臺會不會成為下一個風口,首先筆者LineLian本人不贊成風口輪,更支持一個事物長期的價格是由其本質(zhì)的價值決定的觀點。其次目前的數(shù)據(jù)中臺從產(chǎn)品上看是融合了各種數(shù)據(jù)源,經(jīng)過ETL技術(shù)處理供給給有限的純商業(yè)變現(xiàn)目的。再則數(shù)據(jù)中臺的各個技術(shù)模塊日趨成熟,稀缺的是數(shù)據(jù)的吸取和數(shù)據(jù)的資產(chǎn)變現(xiàn)模式。
所以,一方面看數(shù)據(jù)中臺是剛剛興起,這股興起即使是技術(shù)團隊也是興起不久,例如:筆者LineLian早些時候在一所名校的CS技術(shù)群里討論過數(shù)據(jù)中臺,然后再過一段時間是產(chǎn)品開始討論,然后就會是運營討論,隨后市場銷售也會跟上。
下圖為筆者早期在技術(shù)群里討論數(shù)據(jù)中臺技術(shù)圖:
數(shù)據(jù)中臺的技術(shù)有原來的,也有創(chuàng)新的,但是整體比較成熟,剩下的是在業(yè)務切入方式上,例如:架構(gòu)齊全,但是數(shù)據(jù)值缺失、數(shù)據(jù)孤島等等情況才是現(xiàn)實問題。不論數(shù)據(jù)中臺是不是下一個風口,數(shù)據(jù)中臺的產(chǎn)品都將運行下去,尤其是數(shù)據(jù)中臺的思維理念是:“數(shù)據(jù)共享”。這樣美好的理念值得人人都需要一個數(shù)據(jù)中臺。
五、數(shù)據(jù)中臺與AI中臺
AI 中臺是一個用來構(gòu)建大規(guī)模智能服務的基礎設施,對企業(yè)需要的算法模型提供了分步構(gòu)建和全生命周期管理的服務,讓企業(yè)可以將自己的業(yè)務不斷下沉為一個個算法模型,以達到復用、組合創(chuàng)新、規(guī)模化構(gòu)建智能服務的目的。
從數(shù)據(jù)中臺演進到 AI 中臺!
從 AI 中臺落地實施的方式來看,AI 中臺可以是數(shù)據(jù)中臺的進一步延伸,從數(shù)據(jù)中臺一步一步演進過去。
首先,從基礎設施角度,可以將數(shù)據(jù)中臺智能化所謂的智能化,是指將在數(shù)據(jù)中臺進行的一系列的數(shù)據(jù)服務構(gòu)建操作進行智能化實現(xiàn),讓數(shù)據(jù)的接入、存儲、分析展現(xiàn)、訓練、到構(gòu)建管道(pipeline)都更加自動化。例如,對于通用的 CI/CD 來說,測試不過則會構(gòu)建失敗,那對于 AI 中臺下,就要考慮一個推薦模型構(gòu)建失敗的條件是什么?答案可能是“本次模型的準確率低于上一次構(gòu)建的準確率”的時候,CI 應該被構(gòu)建失敗。在實踐中,這可能是 CI 構(gòu)建過程的維度之一,還會有很多其他指標和維度。我們就需要在現(xiàn)有的數(shù)據(jù)平臺的 CI 中,實現(xiàn)并自動化這些指標和維度,使之更加智能化。更多AI應用案例可見筆者新書《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。
其次,對于我們可想而知數(shù)據(jù)中臺使從來不是目的,數(shù)據(jù)中臺的目的是將數(shù)據(jù)變成數(shù)字資產(chǎn)。這種資產(chǎn)如果僅僅用來租賃,肯定不如智能的應用價值更高,這也是從數(shù)據(jù)中臺到AI中臺的第二點原因。
第三、目前的數(shù)據(jù)中臺的終端應用以直接2C以產(chǎn)生剛性的訂單為主。而我們并不確定這個推薦是否由數(shù)據(jù)中臺的引擎發(fā)揮了人性的作用,而智能應用層直接面向終端,怎么利用元數(shù)據(jù)等功能,組合各自不同模型提供的服務,構(gòu)建出組合效應的創(chuàng)新服務才能更懂用戶的人性。
總結(jié)
不論數(shù)據(jù)中臺會不會是下一個風口!不論業(yè)務、運營、技術(shù)和產(chǎn)品,如何討論的中臺多么熱門,也不用管多少大佬提及過。你只需要懂中臺中該掌握的思維、技術(shù)、實操。然后明白我們開頭的那句話:拿著舊地圖是不可能找到新大陸的!你就能做出智能中臺。下次繼續(xù)分享智能中臺實操案例。