大數(shù)據(jù)學習的三個“敲門磚”

快資訊
首席數(shù)據(jù)師
什么是大數(shù)據(jù)?可能有人會說寫字樓的所有人的資料信息就是個大數(shù)據(jù)。NO!這里的數(shù)據(jù)只能說比較大,但卻不能稱之為大數(shù)據(jù)。百度百科上給出了很明確的解釋“大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟...

什么是大數(shù)據(jù)?可能有人會說寫字樓的所有人的資料信息就是個大數(shù)據(jù)。NO!這里的數(shù)據(jù)只能說比較大,但卻不能稱之為大數(shù)據(jù)。百度百科上給出了很明確的解釋“大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。”

“第一磚”從相認到相識

現(xiàn)在我們“從相認到相識”,清楚的認識什么是大數(shù)據(jù),如果區(qū)分大數(shù)據(jù)和數(shù)據(jù)大,是我們學習大數(shù)據(jù)走的第一步。

“第二磚”拜師學藝,融匯百家

擁有了“第一磚”后就是你即將選擇師門的時候了,敲開山門的“第二磚”則是學習大數(shù)據(jù)的基礎,就如同在門派中修煉內(nèi)功,有助你行走江湖,話不多說我們來看看會涉及到哪些基礎吧!

1、 javaSE,EE(SSM)

2、 MySQL(必須需要掌握的)

3、Linux

“第三磚”進階提高,力挽狂瀾

學習了大數(shù)據(jù)基礎后,我們要做到就是在實際的數(shù)據(jù)分析上,如何去解決問題,所以如何分析數(shù)據(jù)就是我們的重點了,在數(shù)據(jù)中分析出有利于我們的數(shù)據(jù)則是我們的目標,我總結了以下幾種方法,供大家參考,但方法是死的,人是活的,如何融會貫通就靠我們自己不斷是嘗試學習哦!

1、大數(shù)據(jù)離線分析

一般處理T+1數(shù)據(jù)(T是指日、周、月、年),處理歷史數(shù)據(jù)

模塊1:Hadoop

包括四大塊(common、yarn、MapReduce、HDFS)

主要掌握環(huán)境搭建、處理數(shù)據(jù)的思想

模塊2:Hive

大數(shù)據(jù)數(shù)據(jù)倉庫

通過寫SQL對數(shù)據(jù)進行操作,類似于mysql數(shù)據(jù)庫中的sql

模塊3:HBase

基于HDFS的NOSQL數(shù)據(jù)庫 面向列的存儲

2、大數(shù)據(jù)機器學習

spark MLlib:機器學習庫

pyspark編程:Python和spark的結合

推薦系統(tǒng)

python數(shù)據(jù)分析

Python機器學習

THEEND