大數(shù)據(jù)的發(fā)展越來越貼近我們的生活,但是很多卻依然不是很了解什么是大數(shù)據(jù),大數(shù)據(jù)有什么作用?,F(xiàn)在大數(shù)據(jù)不僅僅是網(wǎng)絡(luò)資訊,技術(shù)論壇甚至新聞上都有它的身影。說明不僅僅是企業(yè),連國家都在部署大數(shù)據(jù)戰(zhàn)略,但是很多人卻依然云里霧里不清楚這個到底是個啥?直到有一天發(fā)現(xiàn),只要你無意中搜索過什么,那么網(wǎng)頁、APP等都會跳出你搜索過得相關(guān)產(chǎn)品或者關(guān)聯(lián)事物,淘寶推薦的商品也越來越符合你的心意.
其實(shí)大數(shù)據(jù),就是算法!它可以“算”出你的“心意”。
那么問題來了,大數(shù)據(jù)技術(shù)是怎么樣采集到信息的呢?
數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是通過一種設(shè)備,從系統(tǒng)外部采集到數(shù)據(jù)輸入到系統(tǒng)內(nèi)部的一種技術(shù)。
在如今互聯(lián)網(wǎng)行業(yè)技術(shù)快速發(fā)展的今天,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,例如攝像頭、麥克風(fēng)等,都是數(shù)據(jù)采集的工具。數(shù)據(jù)采集系統(tǒng)還集合了信號、傳感器、激勵器、信號調(diào)理、數(shù)據(jù)采集設(shè)備和軟件應(yīng)用。
現(xiàn)在是一個數(shù)據(jù)大爆炸的互聯(lián)網(wǎng)時代,數(shù)據(jù)類型同樣也是復(fù)雜多樣的,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化最常見,就是具有模式的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,包括所有格式的辦公文檔、文本、圖片、XML,HTML、各類報(bào)表、圖像和音頻/視頻信息等等。
大數(shù)據(jù)采集是大數(shù)據(jù)分析至關(guān)重要的的一個環(huán)節(jié),也是大數(shù)據(jù)分析的入口。
我們首先來了解一下數(shù)據(jù)采集的三大要點(diǎn):
(1)全面性:數(shù)據(jù)量足夠具有分析價(jià)值、數(shù)據(jù)面足夠支撐分析需求。
比如對于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時的環(huán)境信息、會話、以及背后的用戶id,最后需要統(tǒng)計(jì)這一行為在某一時段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。
(2)多維性:數(shù)據(jù)更重要的是能滿足分析需求。
靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。比如“查看商品詳情”這一行為,通過埋點(diǎn),我們才能知道用戶查看的商品是什么、價(jià)格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什么類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進(jìn)入了商品詳情頁。
(3)高效性:高效性包含技術(shù)執(zhí)行的高效性、團(tuán)隊(duì)內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實(shí)現(xiàn)的高效性。
也就是說采集數(shù)據(jù)一定要明確采集目的,帶著問題搜集信息,使信息采集更高效、更有針對性。
此外,還要考慮數(shù)據(jù)的及時性。不同應(yīng)用領(lǐng)域的大數(shù)據(jù)其特點(diǎn)、數(shù)據(jù)量、用戶群體均不相同,不同領(lǐng)域根據(jù)數(shù)據(jù)源的物理性質(zhì)及數(shù)據(jù)分析的目標(biāo)采取不同的數(shù)據(jù)采集方法。
下面我們來了解一下常用的數(shù)據(jù)采集方法:
1、傳感器采集方法
傳感器通常用于測量物理變量,一般包括聲音、溫濕度、距離、電流等,將測量值轉(zhuǎn)化為數(shù)字信號,傳送到數(shù)據(jù)采集點(diǎn),讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。
2、網(wǎng)絡(luò)爬蟲采集方法
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOFA社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。(百度百科)最常見的爬蟲便是我們經(jīng)常使用的搜索引擎,如百度,360搜索等。此類爬蟲統(tǒng)稱為通用型爬蟲,對于所有的網(wǎng)頁進(jìn)行無條件采集。
3、系統(tǒng)日志采集方法
很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。
4、其他數(shù)據(jù)采集方法
對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。
數(shù)據(jù)分析
數(shù)據(jù)的采集是挖掘數(shù)據(jù)“石油”的第一步,當(dāng)數(shù)據(jù)量越來越大時,可發(fā)掘的有價(jià)值的信息也就更多,反應(yīng)信息也就越加全面。只有更加充分的利用數(shù)據(jù)化處理平臺,便可以保證分析結(jié)果的有效性和準(zhǔn)確性,只有這樣才能更加有效的助力企業(yè)實(shí)現(xiàn)驅(qū)動的數(shù)據(jù)化。