網(wǎng)易嚴(yán)選數(shù)據(jù)中臺(tái)的經(jīng)驗(yàn)和方法論

CIO之家
數(shù)據(jù)中臺(tái)最早是阿里提出的,但真正火起來是 2018 年,我們能感受到行業(yè)文章談?wù)摂?shù)據(jù)中臺(tái)的越來越多。大量的互聯(lián)網(wǎng)、非互聯(lián)網(wǎng)公司都開始建設(shè)數(shù)據(jù)中臺(tái)。為什么很多公司開始建設(shè)數(shù)據(jù)中臺(tái)?

數(shù)據(jù)中臺(tái)最早是阿里提出的,但真正火起來是 2018 年,我們能感受到行業(yè)文章談?wù)摂?shù)據(jù)中臺(tái)的越來越多。大量的互聯(lián)網(wǎng)、非互聯(lián)網(wǎng)公司都開始建設(shè)數(shù)據(jù)中臺(tái)。為什么很多公司開始建設(shè)數(shù)據(jù)中臺(tái)?盡管數(shù)據(jù)中臺(tái)的文章很多,但是一千人眼里有一千個(gè)數(shù)據(jù)中臺(tái),到底什么是數(shù)據(jù)中臺(tái)?數(shù)據(jù)中臺(tái)包含什么?

2017 年開始,當(dāng)網(wǎng)易嚴(yán)選有了一定量的數(shù)據(jù),我們就開始規(guī)劃建設(shè)我們的數(shù)據(jù)中臺(tái),目前我們已經(jīng)完成了數(shù)據(jù)中臺(tái)體系的搭建,我將根據(jù)我們建設(shè)數(shù)據(jù)中臺(tái)的經(jīng)驗(yàn)和方法論試圖解答上面這些問題。

為什么大家開始建設(shè)數(shù)據(jù)中臺(tái)?

2018 年開始,朋友圈里講數(shù)據(jù)中臺(tái)的文章開始逐漸變多,當(dāng)然拿著手機(jī)看世界并不一定看到真實(shí)的世界。我也跟各個(gè)行業(yè)的一些大公司的 CIO 交流,發(fā)現(xiàn)很多行業(yè)的大公司都開始組建大數(shù)據(jù)團(tuán)隊(duì),建設(shè)數(shù)據(jù)中臺(tái)。結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟(jì)對(duì)技術(shù)的影響。2018 年開始經(jīng)濟(jì)下行,生意不好做了,粗放的經(jīng)營(yíng)已經(jīng)不行了,越來越多的企業(yè)想通過數(shù)據(jù)驅(qū)動(dòng)來進(jìn)行精細(xì)化的運(yùn)營(yíng)和數(shù)據(jù)化轉(zhuǎn)型。

如上圖所示,企業(yè)需要數(shù)字化轉(zhuǎn)型,需要更多的觸點(diǎn)去跟自己的用戶 / 客戶建立聯(lián)系,很多企業(yè)就需要做自己的公眾號(hào)、小程序 (各家的小程序) 甚至 app。我們希望用戶更容易找到我們的商品 / 服務(wù),我們就需要搜索。我們希望用戶更多的瀏覽 / 使用我們的商品 / 服務(wù)就需要推薦。我們維護(hù)用戶 / 客戶的生命周期,根據(jù)生命周期采取不同的營(yíng)銷動(dòng)作,就需要 CRM。我們需要拉來更多的新用戶,就需要投放廣告,為了更好的投放效果,我們需要建設(shè)我們的 DMP。當(dāng)我們生意做大,我們需要對(duì)抗黑產(chǎn) (羊毛黨),讓我們的優(yōu)惠能讓真正的用戶享受,我們需要風(fēng)控。這一切都需要底層大數(shù)據(jù)的支持。

企業(yè)需要精細(xì)化運(yùn)營(yíng),就需要不斷的提升運(yùn)營(yíng)的頻次 (如下圖所示) 和粒度。我們需要把運(yùn)營(yíng)的節(jié)奏提升到周級(jí)、天級(jí)甚至實(shí)時(shí)。我們隨時(shí)隨地了解我們企業(yè)經(jīng)營(yíng)狀況,需要不斷的更精細(xì) (細(xì)粒度) 的分析我們的業(yè)務(wù),快速做出業(yè)務(wù)決策。我們就需要能夠快速地構(gòu)建大量的 BI 報(bào)表,在一些重要的節(jié)點(diǎn) (大促) 時(shí),甚至需要盯著數(shù)據(jù)大屏。如果我們有能力,還可以建設(shè)場(chǎng)景化的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的決策。這一切都需要底層大數(shù)據(jù)的支持。

如何快速地利用底層大數(shù)據(jù)的支持,讓我們的數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng)能夠高頻的迭代,這就需要我們的數(shù)據(jù)中臺(tái)提供強(qiáng)有力的支持。

這里也提醒一點(diǎn),當(dāng)我們需要大規(guī)模的數(shù)據(jù)應(yīng)用時(shí) (搜索 / 推薦 /BI 報(bào)表…),我們才需要構(gòu)建數(shù)據(jù)中臺(tái)。因?yàn)榻ㄔO(shè)數(shù)據(jù)中臺(tái)的投入大。打個(gè)比方,當(dāng)我一家人要吃飯,我自己買菜,在自己的廚房用普通的廚具自己做就好了,如果是富士康,幾萬幾十萬人吃飯,就需要建食材的加工配送中心 (類比數(shù)據(jù)中臺(tái))。本質(zhì)上是“需求規(guī)模量級(jí)的變化,導(dǎo)致解決方案的質(zhì)變”。所以我們看到的,基本是大公司在建設(shè)數(shù)據(jù)中臺(tái)。盡管你們可能現(xiàn)在不適合建設(shè)數(shù)據(jù)中臺(tái),但數(shù)據(jù)中臺(tái)的思想大家都可以借鑒。

小結(jié)一下,當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng),進(jìn)而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時(shí)候,就需要建設(shè)數(shù)據(jù)中臺(tái)。

什么是數(shù)據(jù)中臺(tái)?

這是一個(gè)千人千面的問題。我們的定義是“數(shù)據(jù)中臺(tái)是高質(zhì)量、高效賦能數(shù)據(jù)前臺(tái)的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合”。因?yàn)橐?guī)范最終是在系統(tǒng)和服務(wù)中落地的,所以定義中就沒有包含規(guī)范部分。數(shù)據(jù)中臺(tái)的核心職責(zé)是高效地賦能數(shù)據(jù)前臺(tái)為業(yè)務(wù)提供價(jià)值。要想理解數(shù)據(jù)中臺(tái)先要理解數(shù)據(jù)前臺(tái),上文說到的搜索、推薦、BI 報(bào)表、數(shù)據(jù)大屏等都屬于數(shù)據(jù)前臺(tái)。我們來看下面網(wǎng)易嚴(yán)選數(shù)據(jù)體系的圖就更清楚數(shù)據(jù)中臺(tái)的定位了。

數(shù)據(jù)中臺(tái)的下層是數(shù)據(jù)平臺(tái),數(shù)據(jù)平臺(tái)主要解決跟業(yè)務(wù)無關(guān)的問題,主要是大數(shù)據(jù)的存儲(chǔ)和計(jì)算問題。

數(shù)據(jù)中臺(tái)的上層就是數(shù)據(jù)前臺(tái),主要包括 BI 報(bào)表、數(shù)據(jù)產(chǎn)品和業(yè)務(wù)系統(tǒng)。數(shù)據(jù)中臺(tái)首先賦能分析師通過 BI 報(bào)表的形式來驅(qū)動(dòng)業(yè)務(wù)精細(xì)化運(yùn)營(yíng)。如下圖所示,基于數(shù)倉(cāng)里已經(jīng)半加工好的數(shù)據(jù),分析師使用嚴(yán)選有數(shù)敏捷 BI 平臺(tái)可以快速的根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)可視化和數(shù)據(jù)分析。嚴(yán)選有數(shù)現(xiàn)在每周的 UV 超過 800,每天報(bào)表瀏覽次數(shù)超過 12w,目前的圖表數(shù)超過 7W。對(duì)于一個(gè)事業(yè)部級(jí)的 BI 平臺(tái),應(yīng)該算是一個(gè)非常好的成績(jī)。這里特別感謝下我們的分析師團(tuán)隊(duì),她們的辛勤工作才會(huì)有這樣的成績(jī)。

數(shù)據(jù)中臺(tái)還會(huì)賦能業(yè)務(wù)系統(tǒng)開發(fā)通過統(tǒng)一查詢服務(wù) (主要是統(tǒng)一查詢服務(wù)和標(biāo)簽服務(wù)) 來輔助業(yè)務(wù)過程中的決策?;跀?shù)倉(cāng)里面加工好的數(shù)據(jù)模型,業(yè)務(wù)系統(tǒng)開發(fā)人員使用統(tǒng)一查詢服務(wù)獲取到的模型數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中增加輔助決策功能。比如供應(yīng)商系統(tǒng)需要對(duì)供應(yīng)商進(jìn)行評(píng)級(jí),供應(yīng)商評(píng)級(jí)需要供應(yīng)商的商品銷售數(shù)據(jù)、評(píng)論數(shù)據(jù)、退貨數(shù)據(jù)、質(zhì)量數(shù)據(jù),供應(yīng)商采購(gòu)的交期數(shù)據(jù)等等。數(shù)倉(cāng)會(huì)根據(jù)這些數(shù)據(jù)加工模型,供應(yīng)商系統(tǒng)可以通過統(tǒng)一查詢獲取模型在供應(yīng)商系統(tǒng)中使用。在嚴(yán)選,統(tǒng)一查詢服務(wù)已經(jīng)接入了 67 個(gè)應(yīng)用、670 個(gè)模型、每天有 300w 的調(diào)用。

我們自己做的數(shù)據(jù)產(chǎn)品(如下圖所示),基本會(huì)用到我們數(shù)據(jù)中臺(tái)所有的能力支持,包括統(tǒng)一查詢服務(wù)、標(biāo)簽服務(wù)、指標(biāo)監(jiān)控服務(wù)、數(shù)據(jù)產(chǎn)出服務(wù)等數(shù)據(jù)服務(wù),也會(huì)使用嚴(yán)選有數(shù)創(chuàng)建 BI 報(bào)表掛載到數(shù)據(jù)產(chǎn)品中。

數(shù)據(jù)中臺(tái)包含什么?

從上文的圖中,我們已經(jīng)初步了解了數(shù)據(jù)中臺(tái)包含了哪些系統(tǒng)和服務(wù)。概括來說,數(shù)據(jù)中臺(tái)包含數(shù)倉(cāng)體系、數(shù)據(jù)服務(wù)集和 BI 平臺(tái)。

數(shù)倉(cāng)體系

數(shù)倉(cāng)體系是數(shù)據(jù)中臺(tái)的核心,數(shù)據(jù)是新能源,是生產(chǎn)資料。數(shù)倉(cāng)體系包含數(shù)倉(cāng)和一系列的管理系統(tǒng),用來管理數(shù)據(jù),保證數(shù)據(jù)的完整、一致和準(zhǔn)確。數(shù)倉(cāng)體系的構(gòu)成和關(guān)系,如下圖所示。數(shù)倉(cāng)是數(shù)倉(cāng)體系的核心,也是整個(gè)中臺(tái)的核心。數(shù)倉(cāng)的開發(fā)和存儲(chǔ),主要依賴網(wǎng)易猛犸數(shù)據(jù)平臺(tái) (希望詳細(xì)了解的,可以搜索網(wǎng)易猛犸)。

夸父 - 埋點(diǎn)管理系統(tǒng)和精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)從供應(yīng)側(cè)保障數(shù)據(jù)的完整性和質(zhì)量。埋點(diǎn)數(shù)據(jù)由于來源廣 (web 端、ios、android、小程序等)、鏈路長(zhǎng)、格式 (日志的 scheme 約束) 等問題,一直是數(shù)據(jù)質(zhì)量的重災(zāi)區(qū)??涓?- 埋點(diǎn)管理系統(tǒng)提供了埋點(diǎn)的管理、埋點(diǎn)流程協(xié)同和埋點(diǎn)測(cè)試,提供了埋點(diǎn)日志的 scheme,保障了埋點(diǎn)數(shù)據(jù)質(zhì)量。精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)提供數(shù)據(jù)導(dǎo)入數(shù)倉(cāng)及導(dǎo)入時(shí)的驗(yàn)證功能,提升數(shù)據(jù)的完整性。整個(gè)電商的業(yè)務(wù)過程非常多,所有業(yè)務(wù)過程都線上化的過程非常漫長(zhǎng)。當(dāng)我們下游的數(shù)據(jù)應(yīng)用需要某個(gè)業(yè)務(wù)過程的數(shù)據(jù),而這個(gè)業(yè)務(wù)過程還沒有線上化時(shí),就可以通過精衛(wèi) - 數(shù)據(jù)填報(bào)系統(tǒng)導(dǎo)入數(shù)據(jù)到數(shù)倉(cāng),下游就可以使用這份數(shù)據(jù)。

倉(cāng)頡 - 指標(biāo)管理系統(tǒng)和燧人 - 指標(biāo)地圖是從需求側(cè)提升數(shù)據(jù) (指標(biāo)) 的一致性。倉(cāng)頡 - 指標(biāo)管理系統(tǒng)顧名思義是管理指標(biāo)定義,在提供指標(biāo)統(tǒng)一管理的同時(shí),提供了指標(biāo)定義規(guī)范的約束。數(shù)據(jù)開發(fā)可以根據(jù)指標(biāo)定義里的指標(biāo)口徑來進(jìn)行指標(biāo)開發(fā)。燧人 - 指標(biāo)地圖是提供給業(yè)務(wù)方查看當(dāng)前的指標(biāo)分類與指標(biāo)定義。

數(shù)倉(cāng)開發(fā)本身要解決的核心問題是質(zhì)量和效率 (所有開發(fā)也都需要解決),無論是質(zhì)量和效率都需要好的架構(gòu)設(shè)計(jì)。北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)就是來完成數(shù)倉(cāng)設(shè)計(jì)。數(shù)倉(cāng)的開發(fā)原本總是非常的經(jīng)驗(yàn)化,很多知識(shí)都是存在數(shù)據(jù)開發(fā)的腦子里。我們通過北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)來推行數(shù)倉(cāng)先設(shè)計(jì)再開發(fā),通過北斗 - 數(shù)倉(cāng)設(shè)計(jì)管理系統(tǒng)將數(shù)倉(cāng)開發(fā)的經(jīng)驗(yàn)知識(shí)化、標(biāo)準(zhǔn)化、工具化。數(shù)據(jù)質(zhì)量中心 (如下圖所示) 提供全鏈路的數(shù)據(jù)保障體系,提供任務(wù)監(jiān)控、數(shù)據(jù)監(jiān)控、應(yīng)用監(jiān)控、影響范圍評(píng)估和恢復(fù)的支撐。

數(shù)據(jù)服務(wù)集

數(shù)據(jù)服務(wù)主要是數(shù)據(jù)場(chǎng)景下的解決方案的沉淀。數(shù)據(jù)服務(wù)集極大的加速了數(shù)據(jù)應(yīng)用開發(fā)效率。核心的數(shù)據(jù)服務(wù)是統(tǒng)一查詢服務(wù)和標(biāo)簽服務(wù),提供指標(biāo)模型和標(biāo)簽?zāi)P蛯?duì)數(shù)據(jù)應(yīng)用系統(tǒng) (業(yè)務(wù)系統(tǒng)和數(shù)據(jù)產(chǎn)品) 的統(tǒng)一配送。統(tǒng)一查詢服務(wù)核心提供表轉(zhuǎn)接口和數(shù)據(jù)網(wǎng)關(guān)的功能。數(shù)倉(cāng)管理的是數(shù)據(jù)模型表,通過統(tǒng)一查詢,數(shù)據(jù)應(yīng)用系統(tǒng)就可以通過接口的形式來訪問數(shù)據(jù)模型表。統(tǒng)一查詢服務(wù)是數(shù)據(jù)體系和數(shù)據(jù)應(yīng)用系統(tǒng)之間的總網(wǎng)關(guān),需要提供模型級(jí)限流、熔斷等網(wǎng)關(guān)功能。

BI 平臺(tái)

BI 平臺(tái)我們用的是嚴(yán)選有數(shù),也就是在網(wǎng)易有數(shù)在嚴(yán)選的版本。網(wǎng)易有數(shù)是一款敏捷 BI 平臺(tái),在設(shè)計(jì)上通過以終為始的設(shè)計(jì)理念和類 PPT 操作模式,在保障靈活性的基礎(chǔ)上,提供了極大的操作便利。想進(jìn)一步了解的,可以搜索網(wǎng)易有數(shù)。

在性能方面,我們結(jié)合數(shù)據(jù)產(chǎn)出服務(wù)做的基于數(shù)據(jù)產(chǎn)出的緩存策略極大地提升了報(bào)表的性能。圖表首訪緩存命中率基本穩(wěn)定在 100%,整體緩存命中率超過 80%。

數(shù)據(jù)中臺(tái)的內(nèi)容非常長(zhǎng),本文非常概括的從嚴(yán)選實(shí)踐介紹了數(shù)據(jù)中臺(tái)??偨Y(jié)一下:當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng),進(jìn)而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時(shí)候,就需要建設(shè)數(shù)據(jù)中臺(tái)。數(shù)據(jù)中臺(tái)是高質(zhì)量、高效賦能數(shù)據(jù)前臺(tái)的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合。數(shù)據(jù)中臺(tái)包含數(shù)倉(cāng)體系、數(shù)據(jù)服務(wù)集和 BI 平臺(tái)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論