大數(shù)據(jù)分析的優(yōu)勢是什么?數(shù)據(jù)怎么樣才能升華為智慧

Spark大數(shù)據(jù)開發(fā)
一開始這個大數(shù)據(jù)并不大,你想象原來才有多少數(shù)據(jù)?現(xiàn)在大家都去看電子書,上網(wǎng)看新聞了,在我們80后小時候,信息量沒有那么大,也就看看書,看看報,一個星期的報紙加起來才有多少字啊。

大數(shù)據(jù)分析能夠給大家?guī)硎裁礃拥暮锰幠??大?shù)據(jù)想要成為有用的信息需要經(jīng)過哪些過程?想要學(xué)習(xí)大數(shù)據(jù)分析的朋友,現(xiàn)在可以和加米谷大數(shù)據(jù)一起先了解下這個知識點。

數(shù)據(jù)不大也包含智慧

一開始這個大數(shù)據(jù)并不大,你想象原來才有多少數(shù)據(jù)?現(xiàn)在大家都去看電子書,上網(wǎng)看新聞了,在我們80后小時候,信息量沒有那么大,也就看看書,看看報,一個星期的報紙加起來才有多少字啊,如果你不在一個大城市,一個普通的學(xué)校的圖書館加起來也沒幾個書架,是后來隨著信息化的到來,信息才會越來越多。

首先我們來看一下大數(shù)據(jù)里面的數(shù)據(jù),就分三種類型,一種叫結(jié)構(gòu)化的數(shù)據(jù),一種叫非結(jié)構(gòu)化的數(shù)據(jù),還有一種叫半結(jié)構(gòu)化的數(shù)據(jù)。什么叫結(jié)構(gòu)化的數(shù)據(jù)呢?叫有固定格式和有限長度的數(shù)據(jù)。例如填的表格就是結(jié)構(gòu)化的數(shù)據(jù),國籍:中華人民共和國,民族:漢,性別:男,這都叫結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)在越來越多的就是非結(jié)構(gòu)化的數(shù)據(jù),就是不定長,無固定格式的數(shù)據(jù),例如網(wǎng)頁,有時候非常長,有時候幾句話就沒了,例如語音,視頻都是非結(jié)構(gòu)化的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是一些xml或者h(yuǎn)tml的格式的,不從事技術(shù)的可能不了解,但也沒有關(guān)系。

數(shù)據(jù)怎么樣才能對人有用呢?其實數(shù)據(jù)本身不是有用的,必須要經(jīng)過一定的處理。例如你每天跑步帶個手環(huán)收集的也是數(shù)據(jù),網(wǎng)上這么多網(wǎng)頁也是數(shù)據(jù),我們稱為Data,數(shù)據(jù)本身沒有什么用處,但是數(shù)據(jù)里面包含一個很重要的東西,叫做信息Information,數(shù)據(jù)十分雜亂,經(jīng)過梳理和清洗,才能夠稱為信息。信息會包含很多規(guī)律,我們需要從信息中將規(guī)律總結(jié)出來,稱為知識knowledge,知識改變命運。信息是很多的,但是有人看到了信息相當(dāng)于白看,但是有人就從信息中看到了電商的未來,有人看到了直播的未來,所以人家就牛了,你如果沒有從信息中提取出知識,天天看朋友圈,也只能在互聯(lián)網(wǎng)滾滾大潮中做個看客。有了知識,然后利用這些知識去應(yīng)用于實戰(zhàn),有的人會做得非常好,這個東西叫做智慧intelligence。有知識并不一定有智慧,例如好多學(xué)者很有知識,已經(jīng)發(fā)生的事情可以從各個角度分析的頭頭是道,但一到實干就歇菜,并不能轉(zhuǎn)化成為智慧。而很多的創(chuàng)業(yè)家之所以偉大,就是通過獲得的知識應(yīng)用于實踐,最后做了很大的生意。

所以數(shù)據(jù)的應(yīng)用分這四個步驟:數(shù)據(jù),信息,知識,智慧。這是很多商家都想要的,你看我收集了這么多的數(shù)據(jù),能不能基于這些數(shù)據(jù)來幫我做下一步的決策,改善我的產(chǎn)品,例如讓用戶看視頻的時候旁邊彈出廣告,正好是他想買的東西,再如讓用戶聽音樂的時候,另外推薦一些他非常想聽的其他音樂。用戶在我的應(yīng)用或者網(wǎng)站上隨便點點鼠標(biāo),輸入文字對我來說都是數(shù)據(jù),我就是要將其中某些東西提取出來,指導(dǎo)實踐,形成智慧,讓用戶陷入到我的應(yīng)用里面不可自拔,上了我的網(wǎng)就不想離開,手不停的點,不停的買,很多人說雙十一我都想斷網(wǎng)了,我老婆在上面不斷的買買買,買了A又推薦B,老婆大人說,“哎呀,B也是我喜歡的啊,老公我要買”。你說這個程序怎么這么牛,這么有智慧,比我還了解我老婆,這件事情是怎么做到的呢?

數(shù)據(jù)如何升華為智慧

數(shù)據(jù)的處理分幾個步驟,完成了才最后會有智慧。

第一個步驟叫數(shù)據(jù)的收集。首先得有數(shù)據(jù),數(shù)據(jù)的收集有兩個方式,第一個方式是拿,專業(yè)點的說法叫抓取或者爬取,例如搜索引擎就是這么做的,它把網(wǎng)上的所有的信息都下載到它的數(shù)據(jù)中心,然后你一搜才能搜出來。比如你去搜索的時候,結(jié)果會是一個列表,這個列表為什么會在搜索引擎的公司里面呢,就是因為他把這個數(shù)據(jù)啊都拿下來了,但是你一點鏈接,點出來這個網(wǎng)站就不在搜索引擎它們公司了。比如說新浪有個新聞,你拿百度搜出來,你不點的時候,那一頁在百度數(shù)據(jù)中心,一點出來的網(wǎng)頁就是在新浪的數(shù)據(jù)中心了。另外一個方式就是推送,有很多終端可以幫我收集數(shù)據(jù),比如說小米手環(huán),可以將你每天跑步的數(shù)據(jù),心跳的數(shù)據(jù),睡眠的數(shù)據(jù)都上傳到數(shù)據(jù)中心里面。

第二個步驟是數(shù)據(jù)的傳輸。一般會通過隊列方式進(jìn)行,因為數(shù)據(jù)量實在是太大了,數(shù)據(jù)必須經(jīng)過處理才會有用,可是系統(tǒng)處理不過來,只好排好隊,慢慢的處理。

第三個步驟是數(shù)據(jù)的存儲。現(xiàn)在數(shù)據(jù)就是金錢,掌握了數(shù)據(jù)就相當(dāng)于掌握了錢。要不然網(wǎng)站怎么知道你想買什么呢?就是因為它有你歷史的交易的數(shù)據(jù),這個信息可不能給別人,十分寶貴,所以需要存儲下來。

第四個步驟是數(shù)據(jù)的處理和分析。上面存儲的數(shù)據(jù)是原始數(shù)據(jù),原始數(shù)據(jù)多是雜亂無章的,有很多垃圾數(shù)據(jù)在里面,因而需要清洗和過濾,得到一些高質(zhì)量的數(shù)據(jù)。對于高質(zhì)量的數(shù)據(jù),就可以進(jìn)行分析,從而對數(shù)據(jù)進(jìn)行分類,或者發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)系,得到知識。比如盛傳的沃爾瑪超市的啤酒和尿布的故事,就是通過對人們的購買數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了男人一般買尿布的時候,會同時購買啤酒,這樣就發(fā)現(xiàn)了啤酒和尿布之間的相互關(guān)系,獲得知識,然后應(yīng)用到實踐中,將啤酒和尿布的柜臺弄的很近,就獲得了智慧。

第五個步驟就是對于數(shù)據(jù)的檢索和挖掘。檢索就是搜索,所謂外事不決問google,內(nèi)事不決問百度。內(nèi)外兩大搜索引擎都是講分析后的數(shù)據(jù)放入搜索引擎,從而人們想尋找信息的時候,一搜就有了。另外就是挖掘,僅僅搜索出來已經(jīng)不能滿足人們的要求了,還需要從信息中挖掘出相互的關(guān)系。比如財經(jīng)搜索,當(dāng)搜索某個公司股票的時候,該公司的高管是不是也應(yīng)該被挖掘出來呢?如果僅僅搜索出這個公司的股票發(fā)現(xiàn)漲的特別好,于是你就去買了,其實其高管發(fā)了一個聲明,對股票十分不利,第二天就跌了,這不坑害廣大股民么?所以通過各種算法挖掘數(shù)據(jù)中的關(guān)系,形成知識庫,十分重要。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論