在大數(shù)據(jù)時(shí)代,人們可以獲得與分析更多的數(shù)據(jù),甚至是與之相關(guān)的所有數(shù)據(jù),而不再依賴于采樣,從而可以帶來(lái)更全面的認(rèn)識(shí),可以更清楚地發(fā)現(xiàn)樣本無(wú)法揭示的細(xì)節(jié)信息。越來(lái)越多的人都在學(xué)習(xí)大數(shù)據(jù)相關(guān)的技術(shù),而今天我們就一起來(lái)了解一下,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析基礎(chǔ)知識(shí)。
一、數(shù)據(jù)分析的定義
數(shù)據(jù)分析就是用合適的方法來(lái)發(fā)揮出數(shù)據(jù)的大價(jià)值,這是一門(mén)結(jié)合了統(tǒng)計(jì)學(xué),高等數(shù)學(xué),工程學(xué),商業(yè)決策等知識(shí)的技能,其中高等數(shù)學(xué),工程學(xué)和統(tǒng)計(jì)學(xué)這些都是硬技能,而商業(yè)決策是屬于軟技能,數(shù)據(jù)分析師就是具備這些技能的崗位。數(shù)據(jù)分析師也有所側(cè)重點(diǎn),有的人是商業(yè)出身,偏向于商業(yè)領(lǐng)域,有的人是統(tǒng)計(jì)學(xué)出身,偏向于統(tǒng)計(jì)領(lǐng)域,有的人是工程學(xué)出身,更偏向于it領(lǐng)域。企業(yè)在進(jìn)行招聘的時(shí)候,他們會(huì)根據(jù)自己的需求選擇合適的數(shù)據(jù)分析師。
顯然,我是工程領(lǐng)域出身,我們的課程是偏向于it領(lǐng)域的,適合往it領(lǐng)域發(fā)展的程序員入門(mén)學(xué)習(xí),或者商業(yè)領(lǐng)域,統(tǒng)計(jì)學(xué)領(lǐng)域的數(shù)據(jù)分析師補(bǔ)充自己。
二、數(shù)據(jù)分析的產(chǎn)生
在如今的互聯(lián)網(wǎng)企業(yè)的發(fā)展中,流量的增長(zhǎng)是一個(gè)永恒不變的話題。我們知道拉一個(gè)新用戶的成本要遠(yuǎn)高于維護(hù)一個(gè)老客戶的成本。既然這樣,如果我們能夠讓老客戶產(chǎn)生價(jià)值,推出合適的營(yíng)銷(xiāo)策略或者老帶新類(lèi)似這樣的方案,就能夠用更少的成本產(chǎn)生更大的價(jià)值,這也就是數(shù)據(jù)分析師存在的理由。
三、數(shù)據(jù)分析的發(fā)展
早期的數(shù)據(jù)分析是使用excel,即使現(xiàn)在也有很多商業(yè)領(lǐng)域的數(shù)據(jù)分析人員依舊在使用。除此之外,還有一些數(shù)據(jù)分析商用的軟件,比如tableau,spss等等。所使用的方式是先從服務(wù)器導(dǎo)出數(shù)據(jù)到軟件當(dāng)中去,然后通過(guò)一個(gè)功能函數(shù)進(jìn)行數(shù)據(jù)的處理,比如excel中可以使用vlookup函數(shù)來(lái)進(jìn)行縱向查找,后再進(jìn)行可視化的處理。顯然,早起的數(shù)據(jù)分析更側(cè)重于呈現(xiàn)結(jié)果,然后根據(jù)結(jié)果對(duì)企業(yè)的發(fā)展作出預(yù)測(cè)。
具體的過(guò)程如下所示:
分析現(xiàn)狀-通過(guò)可視化的現(xiàn)狀來(lái)直觀描述企業(yè)經(jīng)營(yíng)發(fā)展中的情況
發(fā)現(xiàn)問(wèn)題-從呈現(xiàn)結(jié)果中預(yù)測(cè)可能問(wèn)題的原因
收集加工-使用更多的數(shù)據(jù)來(lái)驗(yàn)證問(wèn)題的產(chǎn)生源頭
分析策略-結(jié)合業(yè)務(wù)場(chǎng)景分析用戶或者商品的現(xiàn)狀
提出方案-根據(jù)商業(yè)邏輯和分析結(jié)果提出有效解決方案
我們能夠預(yù)見(jiàn)的是,早期數(shù)據(jù)量比較少,一般都是以G為單位,類(lèi)似于excel,tableau和spss這樣的軟件,所能夠處理的數(shù)據(jù)量是有限的,當(dāng)數(shù)據(jù)量達(dá)到T,TB甚至更大的量級(jí)是,這是無(wú)法處理的。這就需要it領(lǐng)域的知識(shí)來(lái)處理這些海量的數(shù)據(jù),比如使用MySQL,hlive,hbase等等。
四、數(shù)據(jù)分析VS數(shù)據(jù)挖掘
除了數(shù)據(jù)分析之外,你一定還聽(tīng)說(shuō)過(guò)數(shù)據(jù)挖掘,那么他們之間有什么異同呢?先現(xiàn)在的大多數(shù)企業(yè)已經(jīng)模糊了對(duì)數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別,但是他們還是有所差異,具體如下:
數(shù)據(jù)分析更多采用統(tǒng)計(jì)學(xué)的知識(shí),對(duì)源數(shù)據(jù)進(jìn)行描述性和探索性分析,從結(jié)果中發(fā)現(xiàn)價(jià)值信息來(lái)評(píng)估和修正現(xiàn)狀。數(shù)據(jù)挖掘不僅僅用到統(tǒng)計(jì)學(xué)的知識(shí),還要用到機(jī)器學(xué)習(xí)的知識(shí),這里會(huì)涉及到模型的概念。數(shù)據(jù)挖掘具有更深的層次,來(lái)發(fā)現(xiàn)未知的規(guī)律和價(jià)值。
從側(cè)重點(diǎn)上來(lái)說(shuō),相比較而言,數(shù)據(jù)分析更多依賴于業(yè)務(wù)知識(shí),數(shù)據(jù)挖掘更多側(cè)重于技術(shù)的實(shí)現(xiàn),對(duì)于業(yè)務(wù)的要求稍微有所降低。
從數(shù)據(jù)量上來(lái)說(shuō),數(shù)據(jù)挖掘往往需要更大數(shù)據(jù)量,而數(shù)據(jù)量越大,對(duì)于技術(shù)的要求也就越高。
從技術(shù)上來(lái)說(shuō),數(shù)據(jù)挖掘?qū)τ诩夹g(shù)的要求更高,需要比較強(qiáng)的編程能力,數(shù)學(xué)能力和機(jī)器學(xué)習(xí)的能力。
從結(jié)果上來(lái)說(shuō),數(shù)據(jù)分析更多側(cè)重的是結(jié)果的呈現(xiàn),需要結(jié)合業(yè)務(wù)知識(shí)來(lái)進(jìn)行解讀。而數(shù)據(jù)挖掘的結(jié)果是一個(gè)模型,通過(guò)這個(gè)模型來(lái)分析整個(gè)數(shù)據(jù)的規(guī)律,一次來(lái)實(shí)現(xiàn)對(duì)于未來(lái)的預(yù)測(cè),比如判斷用戶的特點(diǎn),用戶適合什么樣的營(yíng)銷(xiāo)活動(dòng)。顯然,數(shù)據(jù)挖掘比數(shù)據(jù)分析要更深一個(gè)層次。
大數(shù)據(jù)分析平臺(tái)表示大數(shù)據(jù)時(shí)代的思維方式要求從自然思維轉(zhuǎn)向智能思維,不斷提升機(jī)器或系統(tǒng)的社會(huì)計(jì)算能力和智能化水平,從而獲得具有洞察力和新價(jià)值的東西,甚至類(lèi)似于人類(lèi)的“智慧”。