近幾年,大數(shù)據(jù)發(fā)展十分火爆,上至八十歲老人,下至三歲孩童兒都知道大數(shù)據(jù),好像不講點(diǎn)大數(shù)據(jù)就會(huì)被社會(huì)淘汰掉。那么,究竟什么是大數(shù)據(jù),大數(shù)據(jù)的應(yīng)用又有哪些,相信很多人都對(duì)此也都是云里霧里說(shuō)不清楚。本文將從讀者易懂的方面簡(jiǎn)單為大家分析下大數(shù)據(jù)的應(yīng)用及概念。
從本世紀(jì)初進(jìn)入互聯(lián)網(wǎng)時(shí)代以來(lái),快速發(fā)展的信息技術(shù)領(lǐng)域正在面臨各種計(jì)算處理能力和計(jì)算需求之間的平衡和相互融合的挑戰(zhàn),對(duì)這些問(wèn)題挑戰(zhàn)的迎擊又演變成新的契機(jī),如此的起伏形成一波又一波的浪潮:從互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算直到現(xiàn)在的大數(shù)據(jù)。科多大數(shù)據(jù)培訓(xùn)給大家來(lái)解釋一下大數(shù)據(jù)的概念,以及分析大數(shù)據(jù)的應(yīng)用。
要想感受當(dāng)前社會(huì)對(duì)大數(shù)據(jù)投入的熱情,只需要簡(jiǎn)單通過(guò)搜索大數(shù)據(jù)這樣的關(guān)鍵詞或查閱當(dāng)前各大主要信息產(chǎn)業(yè)類(lèi)新聞報(bào)道中的熱點(diǎn)專(zhuān)欄就能一目了然。其原因主要有兩點(diǎn):首先,從復(fù)雜的專(zhuān)業(yè)性科學(xué)/商業(yè)計(jì)算到基于互聯(lián)網(wǎng)的消費(fèi)型計(jì)算的數(shù)據(jù)每時(shí)每刻都在呈爆炸性的增長(zhǎng),這些龐大的數(shù)據(jù)記錄了各種目標(biāo)結(jié)果和可能性,形成了難以估價(jià)的數(shù)據(jù)資源及信息資產(chǎn)。其次,由上述實(shí)際數(shù)據(jù)衍生而來(lái)的決策信息直接給企業(yè)帶來(lái)長(zhǎng)中短期各個(gè)階段可見(jiàn)的巨大經(jīng)濟(jì)價(jià)值和效益,并成為推動(dòng)大數(shù)據(jù)研究尤其是應(yīng)用的主要?jiǎng)恿Α?/p>
大數(shù)據(jù)應(yīng)用也有很多現(xiàn)實(shí)的案例。在電子商務(wù)領(lǐng)域,客觀反應(yīng)市場(chǎng)經(jīng)濟(jì)活力的重要經(jīng)濟(jì)體即中小型企業(yè)在通常的融資渠道(銀行)很難獲得資助,由阿里巴巴金融帶來(lái)的融資服務(wù)則通過(guò)中小微型客戶(hù)在阿里電子商務(wù)體系中長(zhǎng)期的注冊(cè)信息、歷史交易記錄、客戶(hù)交互行為、海關(guān)進(jìn)出口信息、納稅、水電繳費(fèi)以及阿里體系外的網(wǎng)上社交行為記錄等多種信息與性格特征測(cè)試的數(shù)據(jù)匯總,來(lái)進(jìn)行信用評(píng)級(jí)以資助中小微型企業(yè)的運(yùn)作,并直接挑戰(zhàn)銀行的傳統(tǒng)金融體系,為中小微型企業(yè)的發(fā)展提供了一種難得的、值得嘗試的新途徑。
在金融領(lǐng)域,當(dāng)分析發(fā)現(xiàn)大規(guī)模對(duì)沖基金已經(jīng)積聚在某相同的金融資產(chǎn)上,如果該金融資產(chǎn)突然出現(xiàn)嚴(yán)重脆弱跡象并破產(chǎn),該下挫價(jià)格的行為,迫使其他基金尾隨賣(mài)出,加速資產(chǎn)價(jià)格下挫;關(guān)聯(lián)的諸多基金可能在短時(shí)間內(nèi)就會(huì)連鎖破產(chǎn),對(duì)整個(gè)金融系統(tǒng)的健康和穩(wěn)定造成極大的安全威脅。此種前提下,國(guó)家金融監(jiān)督機(jī)構(gòu)通過(guò)各種金融監(jiān)控手段從金融交易中獲得社會(huì)規(guī)模的數(shù)據(jù),并基于這些數(shù)據(jù)進(jìn)行災(zāi)難建模,將是預(yù)測(cè)并阻止下一場(chǎng)金融危機(jī)的一種積極可行的手段。
2012年國(guó)際著名的咨詢(xún)機(jī)構(gòu)Gartner發(fā)布大數(shù)據(jù)技術(shù)成熟度曲線(xiàn)(圖1),分析提出了當(dāng)前大數(shù)據(jù)面臨的技術(shù)挑戰(zhàn)和問(wèn)題。主要包括對(duì)數(shù)據(jù)的內(nèi)在規(guī)律的揭示、計(jì)算/存儲(chǔ)/管理的提升、數(shù)據(jù)復(fù)雜度理論、數(shù)據(jù)感知(價(jià)值判斷、態(tài)勢(shì)預(yù)測(cè)、溯源、異常檢測(cè)等)、數(shù)據(jù)安全等。
什么是大數(shù)據(jù)
數(shù)據(jù)發(fā)展歷程上出現(xiàn)過(guò)類(lèi)似的術(shù)語(yǔ)有超大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)等。“超大規(guī)模”一般表示對(duì)應(yīng)GB(1GB=1024MB)級(jí)別的數(shù)據(jù),“海量”一般表示的是TB(1TB=1024GB)級(jí)的數(shù)據(jù),而現(xiàn)在的“大數(shù)據(jù)”則是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)級(jí)別以上的數(shù)據(jù)。2013年Gartner預(yù)測(cè)世界上存儲(chǔ)的數(shù)據(jù)將達(dá)到1。2ZB,如果將這些數(shù)據(jù)刻錄到CD-R只讀光盤(pán)上,并堆起來(lái),其高度將是地球到月球距離的5倍。不同規(guī)模的背后隱含的是不同的技術(shù)問(wèn)題或挑戰(zhàn)性研究難題。
在“超大規(guī)模”下,我們研究的主要是關(guān)系數(shù)據(jù)模型的高效實(shí)現(xiàn)技術(shù)、事務(wù)管理與故障恢復(fù)技術(shù)、索引與查詢(xún)優(yōu)化技術(shù)等,創(chuàng)建了一套關(guān)系數(shù)據(jù)庫(kù)的理論與技術(shù)體系,并在商業(yè)上取得了成功。
在“海量數(shù)據(jù)”下主要考慮各種非結(jié)構(gòu)化數(shù)據(jù)的有效管理、多數(shù)據(jù)源的集成問(wèn)題。對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),由于不存在顯式的模式結(jié)構(gòu),所以缺乏必要的手段來(lái)管理這些數(shù)據(jù)。它關(guān)心的主要問(wèn)題是如何統(tǒng)一表達(dá)非結(jié)構(gòu)化數(shù)據(jù),如何實(shí)現(xiàn)基于語(yǔ)義的非結(jié)構(gòu)化數(shù)據(jù)的集成和檢索,如何解決與應(yīng)用緊密相關(guān)的功能與數(shù)據(jù)管理系統(tǒng)融合等。
而大數(shù)據(jù),一般意義上,是指無(wú)法在可容忍的時(shí)間內(nèi)用現(xiàn)有IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。所謂數(shù)據(jù)“大的程度”,本文認(rèn)為是數(shù)據(jù)關(guān)聯(lián)復(fù)雜度×價(jià)值尺度×發(fā)掘難度。
現(xiàn)有大數(shù)據(jù)發(fā)展可分為兩種類(lèi)型,第一種類(lèi)型大數(shù)據(jù),是指企業(yè)自身的產(chǎn)品和服務(wù)產(chǎn)生了大量的密集型“超大規(guī)模”或“海量數(shù)據(jù)”,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行深入的挖掘分析,改進(jìn)自身業(yè)務(wù),改進(jìn)后的業(yè)務(wù)吸引更多用戶(hù)或客戶(hù),產(chǎn)生更大量的數(shù)據(jù),形成正向的循環(huán)。第二種類(lèi)型大數(shù)據(jù),是網(wǎng)絡(luò)大數(shù)據(jù),通常是指在互聯(lián)網(wǎng)上發(fā)生的、蘊(yùn)含有豐富的、可被發(fā)掘的具有社會(huì)價(jià)值、商業(yè)價(jià)值或科研價(jià)值的大數(shù)據(jù)。
大數(shù)據(jù)具有的4V特性(Volume規(guī)模巨大,Ve-locity速度極快,Variety模態(tài)多樣,Veracity真?zhèn)坞y辨)導(dǎo)致的規(guī)模與復(fù)雜度為我們帶來(lái)的技術(shù)挑戰(zhàn)主要集中在數(shù)據(jù)的異構(gòu)性和不完備性、數(shù)據(jù)處理的實(shí)效性、數(shù)據(jù)的隱私保護(hù)、大數(shù)據(jù)價(jià)值服務(wù)的有效性發(fā)掘、大數(shù)據(jù)的再分析處理等方面。而針對(duì)第二類(lèi)型的諸多企業(yè)等實(shí)體面臨的這些4V問(wèn)題更加嚴(yán)峻,也正在積極嘗試解決以探索下一個(gè)階段的可行商業(yè)開(kāi)發(fā)和應(yīng)用形態(tài)。
大數(shù)據(jù)的規(guī)模和復(fù)雜度的增長(zhǎng)超出了計(jì)算機(jī)軟硬件能力增長(zhǎng)的摩爾定律,對(duì)現(xiàn)有的IT架構(gòu)以及計(jì)算能力帶來(lái)了極大挑戰(zhàn),也為人們深度挖掘和充分利用大數(shù)據(jù)的大價(jià)值帶來(lái)了巨大機(jī)遇。機(jī)遇是一直是給有準(zhǔn)備的人的,想要為自己的未來(lái)做打算,可以選擇大數(shù)據(jù)培訓(xùn)進(jìn)入大數(shù)據(jù)行業(yè),再不斷的扎實(shí)自己的技術(shù),做一個(gè)優(yōu)秀的大數(shù)據(jù)專(zhuān)業(yè)人才,科多大數(shù)據(jù)一直為你提供專(zhuān)業(yè)的大數(shù)據(jù)學(xué)習(xí)平臺(tái)。
(原標(biāo)題:什么是大數(shù)據(jù)?大數(shù)據(jù)詳細(xì)解析以及大數(shù)據(jù)應(yīng)用)