如何獲取大數(shù)據(jù)中的價(jià)值?

市場(chǎng)前沿早知道
大數(shù)據(jù)是指那些超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫(kù)系統(tǒng)。

大數(shù)據(jù)時(shí)代,數(shù)據(jù)即是資源是本世紀(jì)最為珍貴的財(cái)產(chǎn)。然而,數(shù)據(jù)本身是沒有價(jià)值的,它并不能做任何事情,只有不斷從數(shù)據(jù)中進(jìn)行分析洞察,將數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí),才能真正成為智慧。那么,我們?cè)撊绾潍@取大數(shù)據(jù)中的價(jià)值?

大數(shù)據(jù)是指那些超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫(kù)系統(tǒng)。為了獲取大數(shù)據(jù)中的價(jià)值,我們必須選擇另一種方式來(lái)處理它。數(shù)據(jù)中隱藏著有價(jià)值的模式和信息,在以往需要相當(dāng)?shù)臅r(shí)間和成本才能提取這些信息。而當(dāng)今的各種資源,如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為方便和廉價(jià)。因此,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的海量數(shù)據(jù)如何進(jìn)行專業(yè)化處理。

對(duì)于企業(yè)組織和政府機(jī)構(gòu)而言,大數(shù)據(jù)的價(jià)值主要體現(xiàn)在兩個(gè)方面:大數(shù)據(jù)的分析使用和二次開發(fā)。對(duì)大數(shù)據(jù)進(jìn)行分析能揭示隱藏其中的信息。例如零售業(yè)中對(duì)門店銷售、地理和社會(huì)信息的分析能提升對(duì)客戶的理解。

大數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)與速度快(Velocity)的“4V”特征,而業(yè)務(wù)需求和競(jìng)爭(zhēng)壓力又對(duì)大數(shù)據(jù)處理的實(shí)時(shí)性、有效性提出了更高要求,從而使得傳統(tǒng)的以處理器為中心的數(shù)據(jù)分析處理技術(shù)根本無(wú)法應(yīng)付。在大數(shù)據(jù)環(huán)境下,需要采取以數(shù)據(jù)為中心的模式,減少數(shù)據(jù)移動(dòng)帶來(lái)的開銷。一個(gè)完整的大數(shù)據(jù)處理流程至少應(yīng)滿足以下四個(gè)步驟:

步驟1(數(shù)據(jù)采集):大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是用戶的并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。

步驟2(數(shù)據(jù)導(dǎo)入和預(yù)處理):雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。

步驟3(數(shù)據(jù)統(tǒng)計(jì)與分析):統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。其中,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。

步驟4(數(shù)據(jù)挖掘):主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,以實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。

目前,隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,特別是近年來(lái)云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類社會(huì)的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)悄然到來(lái)。數(shù)據(jù)正在從簡(jiǎn)單的處理對(duì)象開始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題。大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生,大數(shù)據(jù)正在“吞噬”和重構(gòu)很多傳統(tǒng)行業(yè),并已在眾多的行業(yè)領(lǐng)域得到了成功應(yīng)用。

(原標(biāo)題:為了獲取大數(shù)據(jù)中的價(jià)值,該怎么做?)

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論