“大數(shù)據”這個詞相信你已經聽了無數(shù)遍。如今無論是IT圈兒里人還是圈外人都在談論大數(shù)據,仿佛你不說點有關大數(shù)據的東西,那么你就與這個 世界脫軌了,然而在這眾多討論者中真正了解大數(shù)據的人卻是少之又少。
本人從事數(shù)據分析多年,有著自己的理解,今天就簡單說說自己的看法,讓你三分鐘讀懂大數(shù)據。
大數(shù)據(big data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。這是百度的說法。
大數(shù)據,就是信息量多的爆炸,以前的處理方法已經玩不轉,才有新方法去處理大量數(shù)據,這一系列相關的統(tǒng)稱為大數(shù)據。
大數(shù)據,不是字面上的很大的數(shù)據,它是一個集合,包括對數(shù)據收集、存儲、傳輸、利用等一系列的方法理論和工具。
為什么會成為大數(shù)據呢?而不是叫別的呢?現(xiàn)在社會的信息爆炸,增長非???,有研究報告表明,2020年全球新建和復制的信息量達到40ZB(2010年是1.2ZB),1ZB大家肯定沒什么概念,40ZB=4X10^23字節(jié),換算成1G一部的電影,就是4X10^15部電影,夠你看到地球爆炸。這個就是最直接的數(shù)據特征,信息量非常的龐大,就直接叫大數(shù)據。(還有其他的特征,如高速、多樣、低價值密度、真實性)。
有人會說,大數(shù)據只是信息集合,不包含那個理論和工具,我個人認為把信息集合和工具分開,單獨談大數(shù)據,沒什么意義,不能產生價值,單純是個名詞。而集合在在一起,能定義,能處理,有價值,更合適。
(原標題:三分鐘知曉大數(shù)據是什么)