大數(shù)據(jù)技術(shù)與應(yīng)用

學(xué)習(xí)強(qiáng)國
大數(shù)據(jù)已經(jīng)不像前些年給人一種虛無縹緲的感覺,而當(dāng)下最重要的是對大數(shù)據(jù)進(jìn)行分析,只有經(jīng)過分析的數(shù)據(jù),才能對用戶產(chǎn)生最重要的價值,越來越多人開始對什么是大數(shù)據(jù)分析產(chǎn)生聯(lián)想,所以大數(shù)據(jù)的分析方式在整個IT領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。

總算懂得大數(shù)據(jù)學(xué)什么?

目前,不少人都會對大數(shù)據(jù)分析有著濃厚的興趣,那么什么是大數(shù)據(jù)分析?大數(shù)據(jù)分析是指對海量的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)有4個顯著的特點(diǎn),海量數(shù)據(jù)、急速、種類繁多、數(shù)據(jù)真實(shí)。大數(shù)據(jù)被稱為當(dāng)今最有潛質(zhì)的IT詞匯,接踵而來的的數(shù)據(jù)挖掘、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)存儲等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn)。以下是小編為你整理的大數(shù)據(jù)專業(yè)學(xué)什么

大數(shù)據(jù)分析的具體含義如下:

數(shù)據(jù)分析可以讓人們對數(shù)據(jù)產(chǎn)生更加優(yōu)質(zhì)的詮釋,而具有預(yù)知意義的分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)分析后的結(jié)果做出一些預(yù)測性的推斷。

大數(shù)據(jù)的分析與存儲和數(shù)據(jù)的管理是一些數(shù)據(jù)分析層面的最佳實(shí)踐。通過按部就班的流程和工具對數(shù)據(jù)進(jìn)行分析可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。

不管使用者是數(shù)據(jù)分析領(lǐng)域中的專家,還是普通的用戶,可作為數(shù)據(jù)分析工具的始終只能是數(shù)據(jù)可視化??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己表達(dá),讓客戶得到理想的結(jié)果。

大數(shù)據(jù)已經(jīng)不像前些年給人一種虛無縹緲的感覺,而當(dāng)下最重要的是對大數(shù)據(jù)進(jìn)行分析,只有經(jīng)過分析的數(shù)據(jù),才能對用戶產(chǎn)生最重要的價值,越來越多人開始對什么是大數(shù)據(jù)分析產(chǎn)生聯(lián)想,所以大數(shù)據(jù)的分析方式在整個IT領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。

學(xué)大數(shù)據(jù)要準(zhǔn)備什么?

工欲善其事必先利其器。學(xué)習(xí)大數(shù)據(jù),對電腦的配置建議:i5、i7第六代起(最好不是低電壓版),內(nèi)存16G起,安裝固態(tài)硬盤。

筆記本便攜,臺式機(jī)相同價位配置更好,根據(jù)個人需要選擇。

大數(shù)據(jù)專業(yè)是學(xué)什么?

大數(shù)據(jù)技術(shù)專業(yè)屬于交叉學(xué)科:以統(tǒng)計學(xué)、數(shù)學(xué)、計算機(jī)為三大支撐性學(xué)科;生物、醫(yī)學(xué)、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)、社會學(xué)、管理學(xué)為應(yīng)用拓展性學(xué)科。還需要學(xué)習(xí)數(shù)據(jù)采集、分析、處理軟件,學(xué)習(xí)數(shù)學(xué)建模軟件及計算機(jī)編程語言等,知識結(jié)構(gòu)是二專多能復(fù)合的跨界人才(有專業(yè)知識、有數(shù)據(jù)思維)。

大數(shù)據(jù)專業(yè)主要學(xué):統(tǒng)計學(xué)、數(shù)學(xué)、社會學(xué)、經(jīng)濟(jì)金融、計算機(jī)

以中國人民大學(xué)為例

基礎(chǔ)課程:數(shù)學(xué)分析、高等代數(shù)、普通物理數(shù)學(xué)與信息科學(xué)概論、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)科學(xué)導(dǎo)論、程序設(shè)計導(dǎo)論、程序設(shè)計實(shí)踐。

必修課:離散數(shù)學(xué)、概率與統(tǒng)計、算法分析與設(shè)計、數(shù)據(jù)計算智能、數(shù)據(jù)庫系統(tǒng)概論、計算機(jī)系統(tǒng)基礎(chǔ)、并行體系結(jié)構(gòu)與編程、非結(jié)構(gòu)化大數(shù)據(jù)分析。

選修課:數(shù)據(jù)科學(xué)算法導(dǎo)論、數(shù)據(jù)科學(xué)專題、數(shù)據(jù)科學(xué)實(shí)踐、互聯(lián)網(wǎng)實(shí)用開發(fā)技術(shù)、抽樣技術(shù)、統(tǒng)計學(xué)習(xí)、回歸分析、隨機(jī)過程。

另外學(xué)習(xí)大數(shù)據(jù)必須要學(xué)習(xí)大數(shù)據(jù)中心常識,大數(shù)據(jù)技術(shù)體系很復(fù)雜,與物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、人工智能、云核算等都有著精密的關(guān)系。所以,Haoop生態(tài)體系、HDFS技術(shù)、HBASE技術(shù)、Sqoop運(yùn)用流程、數(shù)據(jù)倉庫東西HIV、大數(shù)據(jù)離線剖析Spark、Python言語、數(shù)據(jù)實(shí)時剖析Storm等都是學(xué)習(xí)大數(shù)據(jù)需要了解和掌握的。

從事大數(shù)據(jù)工作,免不了要分析數(shù)據(jù)。如果從事數(shù)據(jù)剖析師,就需要了解一定的數(shù)學(xué)常識。需要有一定的公式核算能力,了解常用計算模型算法。而如果從事數(shù)據(jù)發(fā)掘工程師,就需要能夠熟練運(yùn)用各類算法,對數(shù)學(xué)的要求是很高的。

雅虎的開源代碼

Pig(ad-hoc腳本):

由yahoo!開源,設(shè)計動機(jī)是提供一種基于MapReduce的ad-hoc(計算在query時發(fā)生)數(shù)據(jù)分析工具

Pig定義了一種數(shù)據(jù)流語言—Pig Latin,它是MapReduce編程的復(fù)雜性的抽象,Pig平臺包括運(yùn)行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語言(Pig Latin)。

其編譯器將Pig Latin翻譯成MapReduce程序序列將腳本轉(zhuǎn)換為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于進(jìn)行離線分析。

Sqoop(數(shù)據(jù)ETL/同步工具):

Sqoop是SQL-to-Hadoop的縮寫,主要用于傳統(tǒng)數(shù)據(jù)庫和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是Mapreduce程序,充分利用了MR的并行化和容錯性。

Sqoop利用數(shù)據(jù)庫技術(shù)描述數(shù)據(jù)架構(gòu),用于在關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和Hadoop之間轉(zhuǎn)移數(shù)據(jù)。

Flume(日志收集工具):

Cloudera開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯、易于定制和擴(kuò)展的特點(diǎn)。

它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。

同時,F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進(jìn)行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力。

總的來說,F(xiàn)lume是一個可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。當(dāng)然也可以用于收集其他類型數(shù)據(jù)

大數(shù)據(jù)相對而言自學(xué)門檻較高。網(wǎng)上教程不少,為了盡快學(xué)會能在工作中運(yùn)用的知識和技術(shù),應(yīng)當(dāng)如何選擇才能避免彎路?

你需要尋找一個以“學(xué)以致用”為目標(biāo)的大數(shù)據(jù)學(xué)習(xí)路線圖。

外行看熱鬧內(nèi)行看門道。一份能指導(dǎo)程序員找到高薪大數(shù)據(jù)崗位工作的學(xué)習(xí)路線圖,應(yīng)該是重視基礎(chǔ)、強(qiáng)調(diào)實(shí)戰(zhàn)、緊跟企業(yè)需求的。

在選定學(xué)習(xí)路線圖的時候,不妨多了解制訂學(xué)習(xí)路線圖的學(xué)校是不是緊跟技術(shù)發(fā)展?有沒有教學(xué)經(jīng)驗?教出來的學(xué)生就業(yè)狀況如何?

有了大數(shù)據(jù)學(xué)習(xí)路線圖,現(xiàn)在要做的就是按照路線圖的順序?qū)ふ医坛塘耍@一步同樣需要認(rèn)真仔細(xì)挑選真正高品質(zhì)的教程,視頻、書籍不限。

學(xué)習(xí)過程中難免遇到疑難,多加幾個學(xué)習(xí)群,跟同好交流探討,也可以在懈怠的時候互相打氣。

實(shí)戰(zhàn)項目就是檢驗?zāi)銓W(xué)習(xí)成果的時候了。經(jīng)過一段時間的學(xué)習(xí),你已經(jīng)有了經(jīng)驗,項目的尋找難度并不大,這里不再贅述。

論風(fēng)險性:

在大數(shù)據(jù)風(fēng)控這個行業(yè)里混,需要了解用戶,了解場景,而這些往往都可以通過數(shù)據(jù)間接反映出來。

比如,用戶在某一時期內(nèi)在多家機(jī)構(gòu)申請過貸款,那說明該用戶目前借錢意愿強(qiáng)烈,即使歷史征信良好,也要用策略攔住他的申請,因為他很可能出現(xiàn)拆東墻補(bǔ)西墻的可能。

因此,用數(shù)據(jù)說話是一種方法論。不同數(shù)據(jù)對于風(fēng)險的作用不同,獲取難度也不同,這就決定了并非對每個用戶都能獲取到其各個維度的信息。

同時,有很多特征只有很少的用戶才會有,也因此造就了數(shù)據(jù)的稀疏性。

如何將稀疏數(shù)據(jù)用在各種機(jī)器學(xué)習(xí)模型中,則正是要考察模型人員對于風(fēng)險及產(chǎn)品理解的時候了。

要做好大數(shù)據(jù)風(fēng)控,除了數(shù)據(jù),模型就是最重要的了。模型有很多,如一般的線性回歸,Logistic回歸以及深度學(xué)習(xí)等,在實(shí)際的業(yè)務(wù)場景中,有的可能單一模型就能達(dá)到很好的效果,有的則需要幾個模型的結(jié)合,而具體使用哪個模型用哪些特征,則是要考察模型人員對業(yè)務(wù)和算法的理解了。

再說一下大數(shù)據(jù)風(fēng)控的直觀感受。傳統(tǒng)風(fēng)控更像是冷兵器時代的戰(zhàn)爭,雖有協(xié)作但更多的是各作戰(zhàn)單位憑借個人能力的大混戰(zhàn);而大數(shù)據(jù)風(fēng)控則像是現(xiàn)代戰(zhàn)爭中的立體作戰(zhàn),各個作戰(zhàn)單位(數(shù)據(jù))在統(tǒng)一的指揮中樞(算法)里高度協(xié)同作戰(zhàn)。大數(shù)據(jù)風(fēng)控能將相似的人更精準(zhǔn)的分群,會讓你看到形形色色更加的人,會讓你從紛繁的單一的數(shù)據(jù)中看到其背后的萬千世界。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論