大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘的區(qū)別是,大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘更多是針對內(nèi)部企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘,數(shù)據(jù)分析就是進行做出針對性的分析和診斷,大數(shù)據(jù)需要分析的是趨勢和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷。
具體分析如下:
1、大數(shù)據(jù)(big data):
指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn);
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》 中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性) 。
2、數(shù)據(jù)分析:
是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
數(shù)據(jù)分析的數(shù)學基礎(chǔ)在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學與計算機科學相結(jié)合的產(chǎn)物。
3、數(shù)據(jù)挖掘(英語:Data mining):
又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
簡而言之:
大數(shù)據(jù)是范圍比較廣的數(shù)據(jù)分析和數(shù)據(jù)挖掘。
按照數(shù)據(jù)分析的流程來說,數(shù)據(jù)挖掘工作較數(shù)據(jù)分析工作靠前些,二者又有重合的地方,數(shù)據(jù)挖掘側(cè)重數(shù)據(jù)的清洗和梳理。
數(shù)據(jù)分析處于數(shù)據(jù)處理的末端,是最后階段。
數(shù)據(jù)分析和數(shù)據(jù)挖掘的分界、概念比較模糊,模糊的意思是二者很難區(qū)分。
大數(shù)據(jù)概念更為廣泛,是把創(chuàng)新的思維、信息技術(shù)、統(tǒng)計學等等技術(shù)的綜合體,每個人限于學術(shù)背景、技術(shù)背景,概述的都不一樣。