究竟什么是大數(shù)據(jù)?如何對(duì)大數(shù)據(jù)進(jìn)行定義?大數(shù)據(jù)有哪些特征?了解了這些才能更好的知道自己學(xué)習(xí)是怎樣的一門技術(shù),以及它的前景如何。本文小編就帶大家一起了解大數(shù)據(jù)!
DT時(shí)代,人人言必稱大數(shù)據(jù),所有的新系統(tǒng)幾乎都是基于大數(shù)據(jù),有人認(rèn)為用了MongoDB就是大數(shù)據(jù),也有人用了Hadoop就是大數(shù)據(jù),或者認(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù)。
更有甚者,筆者看到一篇新聞報(bào)道,說某企業(yè)成功實(shí)施大數(shù)據(jù)項(xiàng)目,結(jié)果只是SQL-Server集群……天吶,這可是上世紀(jì)的技術(shù)了!
說了這么多到底什么是大數(shù)據(jù)呢,其實(shí)大數(shù)據(jù)并沒有教科書式的明確定義,但是卻有比較公認(rèn)的特性描述,符合這些特性的就可以稱作大數(shù)據(jù),即大數(shù)據(jù)的4個(gè)V。
第一個(gè)V——高容量
這個(gè)最好理解,數(shù)據(jù)量一定要大,才好意思稱自己為大數(shù)據(jù)嘛。大到什么程度呢?依目前行情來看,至少也要到TB級(jí),很多案例都是PB甚至更高。但如果是GB級(jí),非說自己是大數(shù)據(jù)也不是不可以,就是有點(diǎn)無顏見江東父老啊……
第二個(gè)V——多樣化
這個(gè)很關(guān)鍵了!是區(qū)別于以往海量數(shù)據(jù)挖掘的最主要特征。它有兩層含義,一是數(shù)據(jù)來源多樣化,系統(tǒng)數(shù)據(jù)、設(shè)備日志、傳感器、文件系統(tǒng)等等來源。二是數(shù)據(jù)結(jié)構(gòu)多樣化,這是核心特征!要包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)(包括所謂半結(jié)構(gòu)化數(shù)據(jù))。
總結(jié)起來就是,多源異構(gòu)。這就是為什么有人認(rèn)為使用NoSQL數(shù)據(jù)庫(如MongoDB)就是大數(shù)據(jù)了,因?yàn)闈M足了多樣化的特征,但其實(shí)還不夠。
第三個(gè)V——高速
即時(shí)效性,基本上至少也要達(dá)到億級(jí)數(shù)據(jù)一秒查詢,做的比較好的可以達(dá)到千億級(jí)數(shù)據(jù)一秒查詢。這個(gè)特征幾乎決定了傳統(tǒng)技術(shù)架構(gòu)無法滿足要求,因此Hadoop架構(gòu)的出現(xiàn)催化了大數(shù)據(jù)的發(fā)展,也是有人認(rèn)為Hadoop就是大數(shù)據(jù)的原因。
第四個(gè)V——價(jià)值
這個(gè)很好理解,數(shù)據(jù)一定要有價(jià)值、而后才能產(chǎn)生價(jià)值。就好比存商品的叫才能倉庫,存垃圾的叫垃圾填滿坑一樣。沒價(jià)值的數(shù)據(jù)就像一個(gè)垃圾填滿坑,這也是為什么數(shù)據(jù)治理在大數(shù)據(jù)實(shí)施中非常重要的原因之一。
最后,也是最重要的,以上4個(gè)V是邏輯與的關(guān)系,即需同時(shí)、注意是同時(shí)滿足上述四個(gè)特征,就可以放心的說自己是大數(shù)據(jù)了!