數(shù)據(jù)分析的五個(gè)步驟

大數(shù)據(jù)科學(xué)
數(shù)據(jù)對比出現(xiàn)了異常后,我們該怎么辦呢?這時(shí)候就需要用到數(shù)據(jù)細(xì)分了,數(shù)據(jù)細(xì)分通常情況下先分緯度,再分粒度。緯度也就是時(shí)間或者是地域、來源、受訪等。粒度也就是按照天、還是按照小時(shí)。

一、概念

什么是數(shù)據(jù)分析呢?數(shù)據(jù)分析是指基于商業(yè)理論,依賴統(tǒng)計(jì)工具,洞悉數(shù)據(jù)背后的規(guī)律,從而為企業(yè)創(chuàng)造最大價(jià)值。其主要運(yùn)用在:監(jiān)控異常的數(shù)據(jù)、建立模型并預(yù)測、關(guān)鍵變量分析并預(yù)測、預(yù)測性分析。

二、數(shù)據(jù)分析得五個(gè)步驟

1、數(shù)據(jù)收集

當(dāng)我們進(jìn)行數(shù)據(jù)分析時(shí),首先解決的問題就是數(shù)據(jù)源的問題。分為兩大類。

第一類:直接能夠獲取的數(shù)據(jù),也就是內(nèi)部數(shù)據(jù)。

第二類:外部數(shù)據(jù),經(jīng)加工整理后獲得數(shù)據(jù)。

2、數(shù)據(jù)清理

清洗數(shù)據(jù)的目的也就是從大量的、雜亂無章的數(shù)據(jù)中抽取以及推導(dǎo)出對解決問題有價(jià)值的、有意義的數(shù)據(jù)。清洗后保留下來的真正有價(jià)值、有條理的數(shù)據(jù),為后面的數(shù)據(jù)分析減少分析障礙。

3、數(shù)據(jù)對比

對比也就是數(shù)據(jù)分析的切入口。因?yàn)槿绻麤]有參照物的話,數(shù)據(jù)也就沒有一個(gè)定量的評估標(biāo)準(zhǔn)。通常情況下,我們會(huì)進(jìn)行橫向?qū)Ρ群涂v向?qū)Ρ?。橫向?qū)Ρ?,與行業(yè)平均數(shù)據(jù),和競爭對手?jǐn)?shù)據(jù)比較,縱向?qū)Ρ?,是與自己家產(chǎn)品的歷史數(shù)據(jù)比較,圍繞著時(shí)間軸比較。

4、數(shù)據(jù)細(xì)分

數(shù)據(jù)對比出現(xiàn)了異常后,我們該怎么辦呢?這時(shí)候就需要用到數(shù)據(jù)細(xì)分了,數(shù)據(jù)細(xì)分通常情況下先分緯度,再分粒度。緯度也就是時(shí)間或者是地域、來源、受訪等。粒度也就是按照天、還是按照小時(shí)。

而緯度結(jié)合粒度進(jìn)行細(xì)分,就可以將對比的差異值逐級鎖定問題區(qū)域,就可以更為容易找出發(fā)生問題的原因了。

5、數(shù)據(jù)溯源

通過數(shù)據(jù)細(xì)分基本上我們就可以分析出大多數(shù)問題的原因,但也會(huì)遇到特殊的情況,因此這時(shí)候我們就需要進(jìn)行進(jìn)一步的分析,也就是通過數(shù)據(jù)溯源就能找出問題的原因。依據(jù)鎖定的這個(gè)緯度和粒度作為搜索條件,查詢所涉及的原日志,源記錄,然后基于此分析和反思用戶的行為,往往會(huì)有不一樣的發(fā)現(xiàn)。又或者結(jié)合用戶使用場景去思考。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論