史上最通俗易懂的大數(shù)據(jù)分析解釋

今日頭條
燕飛
隨著大數(shù)據(jù)時(shí)代的來臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。很多人可能會(huì)問,何為大數(shù)據(jù)分析?大數(shù)據(jù)分析就是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。相信類似于這樣概念解釋的文章網(wǎng)上已有許多,這些文章都是千篇一律的概念解讀十分的抽象...

隨著大數(shù)據(jù)時(shí)代的來臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。很多人可能會(huì)問,何為大數(shù)據(jù)分析?大數(shù)據(jù)分析就是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。相信類似于這樣概念解釋的文章網(wǎng)上已有許多,這些文章都是千篇一律的概念解讀十分的抽象不易理解,本文小編將詳細(xì)為大家闡述下史上最通俗易懂的大數(shù)據(jù)分析。

【開胃菜】

十五年前,剛開始工作,從帝都回老家。

某長輩和藹的問我:“工作了啊,做什么的?”

我躊躇半天答曰:“挨踢(IT)。”

長輩不假思索的來了一句:“哦,在中關(guān)村賣光盤啊!”

我......我.....我......(叔叔,你知道的太多了)

【副菜】

五年前,一夜之間,“大數(shù)據(jù)”一詞開始紅遍大江南北,再碰到別人問我時(shí),我終于可以用一個(gè)網(wǎng)紅詞來輕松回答:“做大數(shù)據(jù)的!”

(感謝移動(dòng)互聯(lián)網(wǎng)的發(fā)展,感謝各大IT廠商的炒作,感謝國家的重視和規(guī)劃,感謝所有TV和AV)

但就在上個(gè)周末,跟老媽電話聊家常時(shí),她突然很好學(xué)地問了我一個(gè)很有深度的問題: “我知道你是做大數(shù)據(jù)的,但你們大數(shù)據(jù)到底都在做些什么?”

我一時(shí)詞窮,不知道該從何說起。而類似的問題在知乎上也經(jīng)常被一些即將面臨就業(yè)、被“大數(shù)據(jù)”三個(gè)字圈粉、希望成為數(shù)據(jù)人的莘莘學(xué)子們所追問,因?yàn)槿藨校旧隙紱]有好好回答過。

于是,為了給普及“大數(shù)據(jù)”貢獻(xiàn)點(diǎn)綿薄之力,為了讓邊緣人士們對(duì)大數(shù)據(jù)多一點(diǎn)基本理解,也是為了能回答老媽的問題,我決定寫篇文章(省點(diǎn)電話費(fèi))來介紹一下大數(shù)據(jù)以及數(shù)據(jù)人的日常工作。

大數(shù)據(jù)雖然已經(jīng)是大家耳熟能詳?shù)臒嵩~,但數(shù)據(jù)領(lǐng)域里的許多術(shù)語和概念仍然會(huì)讓人不明就里,所以我準(zhǔn)備從“做飯”這個(gè)普通人應(yīng)該都有基本了解,老媽更是熟稔于心的領(lǐng)域來切入。

【主菜】

正所謂“巧婦難為無米之炊”,做飯首先得有食材,大數(shù)據(jù)也一樣,沒有數(shù)據(jù)說什么都是扯淡,所以數(shù)據(jù)就是數(shù)據(jù)人的食材(只要有數(shù)據(jù),我不用吃飯)。

做飯通常都要包括“買菜~洗菜~配菜~炒菜”這幾個(gè)必需環(huán)節(jié),無論你是開飯店還是家里一日三餐,做飯的規(guī)模大小會(huì)有不同,但流程卻是一樣的。而這幾個(gè)環(huán)節(jié)其實(shí)正好對(duì)應(yīng)了數(shù)據(jù)人的日常工作內(nèi)容:買菜(數(shù)據(jù)采集)~洗菜(數(shù)據(jù)清洗)~配菜(數(shù)據(jù)建模)~炒菜(數(shù)據(jù)加工)。

1、買菜(數(shù)據(jù)采集)

買菜,出門首先要考慮去哪里買,到地之后溜達(dá)溜達(dá)看看買什么食材,看中一個(gè)之后討價(jià)、還價(jià)、交錢,肉、蛋、青菜,各種要買的食材都得按這個(gè)流程來一遍,買齊之后就走人回家了。

對(duì)于數(shù)據(jù)人來說,我們把這個(gè)買菜的過程叫做數(shù)據(jù)采集。

菜市場(chǎng)就是我們通常所說的數(shù)據(jù)源。

買菜的選擇很多:超市(種類較少,質(zhì)量上乘),農(nóng)貿(mào)市場(chǎng)(種類較多,菜品一般),露天早市(啥都可能有,運(yùn)氣好還能吃到野味)。

數(shù)據(jù)源其實(shí)也一樣,數(shù)據(jù)庫(超市)中存儲(chǔ)了結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)、交易數(shù)據(jù),傳感器(農(nóng)貿(mào)市場(chǎng))產(chǎn)生大量半結(jié)構(gòu)化日志數(shù)據(jù)、機(jī)器數(shù)據(jù),網(wǎng)絡(luò)上(早市)。

充斥著各種參差不齊的非結(jié)構(gòu)化數(shù)據(jù)。

到了菜市場(chǎng)我們得選菜,所有的食材我都想吃,但錢永遠(yuǎn)是不夠的,所以我只能有選擇性的買,這個(gè)過程叫數(shù)據(jù)調(diào)研,哪些數(shù)據(jù)是有用的,哪些數(shù)據(jù)用得起,得有個(gè)篩選。

溜達(dá)了一圈,確定要買豬肉、雞蛋和黃瓜,得跟賣家挑肥揀瘦、討價(jià)還價(jià)、敲定斤兩,這個(gè)過程叫數(shù)據(jù)接口規(guī)范。

費(fèi)勁口舌,勞心勞力把菜買齊之后提菜回家,這個(gè)過程叫數(shù)據(jù)傳輸。

根據(jù)買菜方式、習(xí)慣的的不一樣,數(shù)據(jù)采集還可以細(xì)分出很多類型:

肉類保質(zhì)期長,一次買一周的量,可以叫全量采集。

青菜講究新鮮,每次只買當(dāng)天的菜,可以叫增量采集。

每天早上都得去買菜的,可以叫批量采集。

賣家每次上了新菜都主動(dòng)給你往家送的(土豪專用),可以叫流式采集。

2、洗菜(數(shù)據(jù)清洗)

洗菜就很好理解了,無論哪里來的食材,都多少存在衛(wèi)生或者質(zhì)量問題,買回來后都得洗干凈、摘清楚才能吃,不然小則影響口感,大則損害健康。

數(shù)據(jù)也是一樣,拿回來之后得檢查一下,數(shù)據(jù)內(nèi)容有沒有缺斤少兩,數(shù)據(jù)值里有沒有爛菜葉,不然后面的報(bào)表、分析出來的結(jié)果就全是錯(cuò)誤結(jié)論了,我們把這個(gè)檢查、糾正數(shù)據(jù)本身錯(cuò)誤的過程叫做數(shù)據(jù)清洗。

由于數(shù)字世界里各種數(shù)據(jù)源的多樣性、復(fù)雜度遠(yuǎn)遠(yuǎn)高于現(xiàn)實(shí)生活里的菜市場(chǎng),數(shù)據(jù)清洗流程需要面對(duì)和處理的問題也就遠(yuǎn)遠(yuǎn)多于洗菜,為了解決和防范數(shù)據(jù)產(chǎn)生、使用過程中出現(xiàn)的各方面問題,數(shù)據(jù)領(lǐng)域細(xì)分出了一個(gè)專門的研究方向叫數(shù)據(jù)治理,比如:

為了了解各個(gè)菜市場(chǎng)的情況,我們需要記錄每個(gè)菜市場(chǎng)、每個(gè)賣家的豬肉、雞蛋、黃瓜等各種食材的大小、顏色、價(jià)格等特點(diǎn),這個(gè)叫元數(shù)據(jù)管理。

記錄完之后發(fā)現(xiàn)每家的特點(diǎn)都不一樣,完全沒有可比性,于是我們決定對(duì)豬肉、雞蛋、黃瓜的大小、顏色、價(jià)格進(jìn)行統(tǒng)一規(guī)定、統(tǒng)一定價(jià),這個(gè)叫數(shù)據(jù)標(biāo)準(zhǔn)管理。

定完標(biāo)準(zhǔn)之后,我們得定期對(duì)各個(gè)菜市場(chǎng)進(jìn)行檢查,看看他們有沒有按標(biāo)準(zhǔn)辦事,這個(gè)叫數(shù)據(jù)質(zhì)量管理。

3、配菜(數(shù)據(jù)建模)

配菜指的是根據(jù)要炒什么菜,將需要的各種食材事先搭配好放在一起,比如說我們要炒木須肉,那就把豬肉、雞蛋、黃瓜都洗凈、切好放在一個(gè)碗里,這樣在炒菜的時(shí)候可以手到擒來,無需到處找食材,能夠很好的提升炒菜的效率。

一般家庭做飯可能不會(huì)嚴(yán)格這么做,但對(duì)于餐飲行業(yè)來說,這是必備環(huán)節(jié),想想買回來一車的食材,洗凈、切好之后,如果沒有一定的擺放規(guī)律,不能充分保證大廚炒菜時(shí)的效率,客戶半天吃不到菜,那這個(gè)飯店的翻臺(tái)率和回頭率絕對(duì)高不了,還是趁早關(guān)門大吉。(老媽是個(gè)統(tǒng)籌規(guī)劃能力很強(qiáng)的精細(xì)人,無論是宴請(qǐng)賓客還是一日三餐,都會(huì)在炒菜之前把各個(gè)菜所需要的食材進(jìn)行事先搭配,所以讓我得以了解。)

而在數(shù)據(jù)工程里,也同樣有個(gè)專業(yè)性很強(qiáng)甚至被神話的配菜流程,這就是傳說中的數(shù)據(jù)建模。數(shù)據(jù)建模就是建立數(shù)據(jù)存放模型,把各個(gè)數(shù)據(jù)源過來的各種數(shù)據(jù)根據(jù)一定的業(yè)務(wù)規(guī)則或者應(yīng)用需求對(duì)數(shù)據(jù)重新進(jìn)行規(guī)劃、設(shè)計(jì)和整理。

配菜這個(gè)流程也許在做飯過程中不起眼,有時(shí)候可有可無,但是在數(shù)據(jù)工程里,數(shù)據(jù)建模卻是個(gè)非常關(guān)鍵的環(huán)節(jié),所以多說兩句。

數(shù)據(jù)的種類之多、復(fù)雜度之高遠(yuǎn)遠(yuǎn)超過食材,比如一個(gè)銀行,內(nèi)部和業(yè)務(wù)、流程、管理相關(guān)的IT系統(tǒng)一般都超過100個(gè),這也就是100多個(gè)菜市場(chǎng),而每個(gè)菜市場(chǎng)能夠提供的食材少則數(shù)百個(gè),多則成千上萬個(gè),這都放在一起就是幾十萬個(gè)食材,再加上外部更加復(fù)雜的其他數(shù)據(jù)源,這么多不同類型、不同標(biāo)準(zhǔn)的食材放在一起,怎么才能讓后面的炒菜更加高效和科學(xué),其復(fù)雜度和可研究性也的確遠(yuǎn)遠(yuǎn)高于真正的配菜。

正因?yàn)槿绱?,在?shù)據(jù)發(fā)展史上出現(xiàn)了不少專業(yè)的建模(配菜)方法論:

比如說按食材種類進(jìn)行擺放的(豬肉放一堆,雞蛋放一堆,黃瓜放一堆),我們叫范式建模,你要是開個(gè)火鍋店或者準(zhǔn)備吃火鍋,那肯定是采用范式建模來配菜了

比如按菜品種類進(jìn)行擺放的(炒木須肉的放一堆,炒宮保雞丁的放一堆),我們叫維度建模,你要是吃個(gè)家常炒菜,那采用維度建模方法來配菜就更合理了

各種方法論都有其產(chǎn)生背景、適用場(chǎng)景和支持者,為了不引起戰(zhàn)爭(zhēng),這里就不做深入討論了

在這些方法論基礎(chǔ)上,經(jīng)過不斷的實(shí)踐和研究,一些領(lǐng)先的數(shù)據(jù)廠商推出了標(biāo)準(zhǔn)的行業(yè)數(shù)據(jù)模型,什么叫行業(yè)數(shù)據(jù)模型呢,因?yàn)槊總€(gè)行業(yè)的業(yè)務(wù)特點(diǎn)不一樣,比如說銀行業(yè)、電信業(yè)、零售業(yè)的業(yè)務(wù)模式就有很大差異,數(shù)據(jù)也是不一樣的,所以不同行業(yè)的數(shù)據(jù)怎么擺放,數(shù)據(jù)模型怎么設(shè)計(jì),有著很強(qiáng)的行業(yè)獨(dú)特性,所以每個(gè)行業(yè)都需要自己特定的數(shù)據(jù)模型,這叫術(shù)業(yè)有專攻。

上面這段話沒看懂?沒事。簡單來說,行業(yè)數(shù)據(jù)模型就是“飯店籌備攻略”。

比如說你覺得川菜很賺錢,想開個(gè)川菜館,但你只是個(gè)標(biāo)準(zhǔn)吃貨,只吃過豬肉沒看過豬跑,怎么辦?沒事,我這有本“川菜開店籌備攻略”,里面什么都有:

首先,攻略里會(huì)告訴你川菜里有哪些知名、流行、暢銷的菜品(比如水煮肉、毛血旺等等),定期更新,圖文并茂,這樣菜單有了。

其次,每個(gè)菜品應(yīng)該用什么樣的食材,分別的配比是什么樣的,攻略里已經(jīng)終結(jié)出來了,而且是來自各大名廚的經(jīng)驗(yàn)和終結(jié),于是菜譜也有了。

再次,每種食材在后廚的擺放位置是什么樣的,這么擺放能夠在廚房的有限空間里最大化的提高大廚們工作效率,詳細(xì)的設(shè)計(jì)圖紙攻略里也給你畫好了,這樣廚房設(shè)計(jì)圖也有了。

最后,我還告訴你每種食材去哪里能買到,哪里最經(jīng)濟(jì)實(shí)惠,連供應(yīng)鏈都幫你打通了

所以,萬事具備,只欠東風(fēng),你只要找個(gè)門面,雇兩個(gè)藍(lán)翔畢業(yè)生,我們就可以開業(yè)大吉,財(cái)源滾滾了。什么,找門面很麻煩,沒事,我們連店面都可以提供,歡迎加入我們的加盟連鎖計(jì)劃,我們不但提供攻略,連店面也一起提供,帶精裝修的、鍋碗瓢盆一應(yīng)俱全。(傳說中的一體機(jī)要出場(chǎng)了,當(dāng)然,這是另外一個(gè)故事,先不展開了。

當(dāng)然,如果不想開川菜店,我這里還有粵菜、湘菜、魯菜......,嗯,“八大菜系開店攻略”我這里都有。

(以上內(nèi)容稍微有點(diǎn)夸大,開個(gè)飯店不是一本攻略可以搞定的,做大數(shù)據(jù)也不是只有模型就可以的。不過很多時(shí)候,外人眼里的數(shù)據(jù)模型就是這么一本“葵花寶典”。)

說點(diǎn)題外話,由于數(shù)據(jù)建模的專業(yè)性太強(qiáng),非常需要經(jīng)驗(yàn)的積累,于是在數(shù)據(jù)行業(yè)里衍生了一個(gè)專門負(fù)責(zé)配菜的工種叫“模型設(shè)計(jì)師”,某全球知名廠商T公司的模型設(shè)計(jì)師就是業(yè)內(nèi)各大獵頭和甲方的香餑餑,T公司一度被挖成重災(zāi)區(qū)。

4、炒菜(數(shù)據(jù)加工)

炒菜相信大家都不陌生,如果配菜是個(gè)藝術(shù)活,那炒菜就絕對(duì)是個(gè)技術(shù)活了。各位大廚不但要有能力把各種食材組合起來炒熟,還得靈活運(yùn)用油、鹽、醬、醋等多種配料,保證菜品的色香味俱全。而且既然是開門迎客,各種消費(fèi)者的需求都要能夠響應(yīng),而且要響應(yīng)的既快又好。

數(shù)據(jù)加工就是在炒菜,是個(gè)將各種數(shù)據(jù)進(jìn)行計(jì)算、匯總、準(zhǔn)備的流程,是為最后的數(shù)據(jù)應(yīng)用和數(shù)據(jù)消費(fèi)者服務(wù)的??蛻舻囊罂偸乔姘俟值模愿鶕?jù)數(shù)據(jù)消費(fèi)者的需求不同,數(shù)據(jù)加工的形式也是百花齊放。

老板們時(shí)間寶貴,注重宏觀,所以一般只看重要指標(biāo),并且要求圖文并茂、簡單易懂。這就好比皇帝每天都吃滿漢全席,所有菜品都是固定的,但是菜品得色香味俱全、上菜速度得快。所以大廚們得事先把數(shù)據(jù)加工成儀表盤、可視化大屏等讓人對(duì)關(guān)鍵指標(biāo)一目了然、并且賣相高大上的數(shù)據(jù)應(yīng)用,并且采用各種技術(shù)手段保證數(shù)據(jù)應(yīng)用的性能(上菜的速度),不然皇帝餓了的時(shí)候不能及時(shí)上菜,誰都背不起這個(gè)鍋。

官員們各管一攤,每天都要面對(duì)各種日常工作和突發(fā)情況,所以他們對(duì)數(shù)據(jù)的要求是既要有常規(guī)菜品能滿足日常管理需要,也要能有額外菜品來應(yīng)對(duì)突發(fā)情況,而且上菜速度也不能慢,縣官不如現(xiàn)管嘛。所以參考自助餐的模式,數(shù)據(jù)大廚們可以將數(shù)據(jù)加工成多維分析、自助分析這類數(shù)據(jù)應(yīng)用,根據(jù)經(jīng)驗(yàn)和官員們的口味愛好,將有可能用到的菜品通通提供出來,官員們餓了的時(shí)候可以根據(jù)需要隨意品嘗,貼心又暖胃。

員工們也有數(shù)據(jù)需求,但通常需求簡單,難點(diǎn)在于人多、需求量大,所以將數(shù)據(jù)加工成報(bào)表這種類似于快餐的數(shù)據(jù)應(yīng)用就是是最好的方式。

數(shù)據(jù)加工除了滿足以上各種數(shù)據(jù)需求,還有個(gè)不得不提的職責(zé)就是數(shù)據(jù)創(chuàng)新。這就好比為了保證飯店的競(jìng)爭(zhēng)力和消費(fèi)者們的新鮮感,不時(shí)推出新菜品也是大廚們的職責(zé)所在。而在數(shù)據(jù)圈里,通過數(shù)據(jù)進(jìn)行創(chuàng)新已經(jīng)成為潮流和共識(shí),于是,數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家這些角色開始粉末登場(chǎng)。

他們的工作就是通過通過嘗試各種數(shù)據(jù)(食材)和參數(shù)(調(diào)料)的組合方式來探索和發(fā)掘新的業(yè)務(wù)機(jī)會(huì)。而由于食材的量實(shí)在太大,配料比例的波動(dòng)范圍就更是無止境,難以靠人力把各種組合方式進(jìn)行窮盡。于是,隨著數(shù)學(xué)理論和技術(shù)發(fā)展,通過算法讓計(jì)算機(jī)自動(dòng)進(jìn)行食材組合、調(diào)料配比從而產(chǎn)生新的發(fā)現(xiàn)成為可能,也就是我們現(xiàn)場(chǎng)經(jīng)常聽到的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)了。

【甜點(diǎn)】

碼字很累,洋洋灑灑寫了不少,但感覺有些點(diǎn)還沒有寫透,有些方面還寫的比較牽強(qiáng),但領(lǐng)會(huì)精神最重要,放張大圖,大家意會(huì)一下吧。

講透大數(shù)據(jù)分析,我只需要一頓飯!

水平一般,能力有限,拋磚引玉,歡迎各種意見和探討。

(原標(biāo)題:講透大數(shù)據(jù)分析,我只需要一頓飯?。?/p>

THEEND