智慧城市大數(shù)據(jù)及技術(shù)盤點(diǎn)

中慧云控
數(shù)據(jù)質(zhì)量是關(guān)鍵,企業(yè)采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理,面臨的挑戰(zhàn)是數(shù)據(jù)源帶來(lái)大量低質(zhì)量數(shù)據(jù)。

信息技術(shù)經(jīng)過了計(jì)算機(jī)、互聯(lián)網(wǎng)時(shí)代,進(jìn)入了云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)應(yīng)用及移動(dòng)互聯(lián)、體感交互技術(shù)突破的階段。

鮮明地展現(xiàn)出,新一代信息技術(shù)融合、產(chǎn)品軟化、開放與服務(wù)等基本特征和趨勢(shì);產(chǎn)生了人的智慧參與、可持續(xù)創(chuàng)新,面向服務(wù)的頂層設(shè)計(jì)等新理念。

成為推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的創(chuàng)新引擎,知識(shí)成為社會(huì)生產(chǎn)力中最活躍的要素,社會(huì)發(fā)展到了一個(gè)新階段——知識(shí)社會(huì),呼喚著新的社會(huì)(城市)形態(tài)——智慧城市的出現(xiàn)。

大數(shù)據(jù)

大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi),用常規(guī)軟件工具進(jìn)行抽取、管理和處理的數(shù)據(jù)集合;是需要新處理模式才能產(chǎn)生更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

《大數(shù)據(jù)時(shí)代》指出:大數(shù)據(jù)不能用隨機(jī)分析法(抽樣調(diào)查)等簡(jiǎn)單方法,而是要對(duì)所有數(shù)據(jù)進(jìn)行分析處理。

大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。當(dāng)前的主流的平臺(tái)是:并行數(shù)據(jù)庫(kù)、MapReduce,及基于兩者的混合架構(gòu)。

研究機(jī)構(gòu)(Gartner)對(duì)大數(shù)據(jù)的定義:需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資源。

麥肯錫研究所對(duì)大數(shù)據(jù)的的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。

上述定義綜合起來(lái),揭示了大數(shù)據(jù)的價(jià)值、特點(diǎn)和人們應(yīng)該做出的相應(yīng)的改變:即具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的信息資源。

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。

若把大數(shù)據(jù)比作一個(gè)產(chǎn)業(yè),它實(shí)現(xiàn)盈利的關(guān)鍵是:提高對(duì)數(shù)據(jù)的“加工能力”;通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣。大數(shù)據(jù)無(wú)法用單臺(tái)計(jì)算機(jī)進(jìn)行處理,必須依托云計(jì)算的分布式架構(gòu)、分布式數(shù)據(jù)庫(kù)和云存貯、虛擬化技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。

大數(shù)據(jù)的特點(diǎn),5V:Volume(大量)、Velocity(快速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。

數(shù)據(jù)體量巨大,從TB級(jí)別,躍升到PB級(jí)別;數(shù)據(jù)類型繁多,包括:網(wǎng)絡(luò)日志、視頻、音頻、圖片、文本、地理位置信息等;處理速度快,可從各種類型的數(shù)據(jù)中,快速獲得高價(jià)值的信息(1秒定律)。這是和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)本質(zhì)的差別;

數(shù)據(jù)本身價(jià)值密度低(不取樣),但是,因量大而價(jià)值高,也可以這樣理解大數(shù)據(jù)的特點(diǎn):容量,數(shù)據(jù)的體量決定其價(jià)值和潛在信息的多少;種類,數(shù)據(jù)類型的多樣性,來(lái)源多渠道;速度,獲得數(shù)據(jù)的速度快;處理快可變性,要求處理和有效地管理數(shù)據(jù)的過程快

數(shù)據(jù)的體量決定其價(jià)值和潛在信息的多少。

大數(shù)據(jù)的價(jià)值,同云計(jì)算一樣,大數(shù)據(jù)也是新觀念(價(jià)值觀)和思維邏輯轉(zhuǎn)變的產(chǎn)物。由于數(shù)據(jù)采集能力(感知手段)和存貯能力的增強(qiáng),系統(tǒng)可以容易地獲得巨量的數(shù)據(jù),并把它保存起來(lái)。但麻煩隨之而來(lái)。

通常認(rèn)為:數(shù)據(jù)價(jià)值在于它載有的表面信息,沒有價(jià)值的是垃圾。在大量垃圾中找出有價(jià)值的數(shù)據(jù)又變得很困難(存貯量大)。要求人們對(duì)數(shù)據(jù)的價(jià)值有新的觀念。

新觀念則看到:巨量數(shù)據(jù)所具有的潛在價(jià)值是所有數(shù)據(jù)共性信息的價(jià)值。巨量數(shù)據(jù)所具有的潛在價(jià)值是所有數(shù)據(jù)共性信息的價(jià)值。

大數(shù)據(jù)的核心價(jià)值是預(yù)測(cè),將為人類的生活創(chuàng)造前所未有的可量化的維度,使人們具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。

傳統(tǒng)處理方法理解數(shù)據(jù)的表面信息,獲得數(shù)據(jù)價(jià)值。而大數(shù)據(jù)是挖掘所有數(shù)據(jù)的共性信息,得到具有趨勢(shì)性和預(yù)測(cè)性的信息,是增值信息。思維模式轉(zhuǎn)變的催化劑是新一代信息技術(shù),它能夠應(yīng)對(duì)大數(shù)據(jù)分析3V的挑戰(zhàn)。

大數(shù)據(jù)又稱數(shù)據(jù)礦藏(DATA MINING),中譯為數(shù)據(jù)挖掘。既說明大數(shù)據(jù)價(jià)值所在,又指出獲得價(jià)值的方法—挖掘。

必須指出:前面出現(xiàn)的“數(shù)據(jù)”是個(gè)泛指的概念。在數(shù)據(jù)流程中,前端設(shè)備產(chǎn)生的內(nèi)容稱為信息,經(jīng)轉(zhuǎn)換(結(jié)構(gòu)化)才稱為數(shù)據(jù),存入數(shù)據(jù)庫(kù);挖掘之后,產(chǎn)生增值信息。

隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)越來(lái)越的受關(guān)注。大數(shù)據(jù)可視為大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí),會(huì)花費(fèi)很多時(shí)間和成本。

大數(shù)據(jù)技術(shù)

1.Hadoop

應(yīng)用最普遍的有:Hadoop,是目前應(yīng)用最廣泛的大數(shù)據(jù)技術(shù),特別是針對(duì)文本及視頻等非結(jié)構(gòu)化數(shù)據(jù)。除分布式文件系統(tǒng)之(HDFS)外,伴隨Hadoop同時(shí)出現(xiàn)的還有大數(shù)據(jù)集處理MapReduce架構(gòu)。

Hadoop是由Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶不用了解分布式底層細(xì)節(jié),就可開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。

Hadoop框架核心是:HDFS(分布式文件系統(tǒng)Hadoop Distributed File System)和MapReduce。HDFS為海量數(shù)據(jù)提供存儲(chǔ);MapReduce為海量數(shù)據(jù)提供計(jì)算。

Hadoop特點(diǎn)是:高效,通過并行處理加快處理速度,在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)并保證各節(jié)點(diǎn)的動(dòng)態(tài)平衡,可處理理PB級(jí)數(shù)據(jù);

Hadoop框架的核心是:HDFS和MapReduce。

其特點(diǎn):高可靠,按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴;高擴(kuò)展性,在可用的計(jì)算機(jī)集群間分配數(shù)據(jù),并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中;高容錯(cuò)性,能自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且自動(dòng)將失敗的任務(wù)重新分配;低成本,可輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它可運(yùn)行在廉價(jià)設(shè)備

總之,Hadoop是一種分布式數(shù)據(jù)和計(jì)算的框架。特別適于存儲(chǔ)大量的半結(jié)構(gòu)化的數(shù)據(jù)集。

2.Spark

Spark,專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎(加州大學(xué)伯克利分校AMP lab)。

擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);不同于MapReduce的是:Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等

Spark是與Hadoop相似的開源集群計(jì)算環(huán)境,在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越。換句話說,它啟用內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可優(yōu)化工作負(fù)載。

Spark是在Scala語(yǔ)言中實(shí)現(xiàn)的,將Scala用作其應(yīng)用程序框架。

Spark的特點(diǎn),主要有三個(gè):高級(jí)API不用關(guān)注于集群本身,Spark應(yīng)用開發(fā)者可以專注于應(yīng)用所要做的計(jì)算本身;運(yùn)算速度快,支持交互式計(jì)算和復(fù)雜算法;是通用引擎,可用它來(lái)完成各種各樣的運(yùn)算,包括SQL查詢、文本處理、機(jī)器學(xué)習(xí)等,在Spark出現(xiàn)之前,我們需要學(xué)習(xí)各種各樣的引擎來(lái)分別處理這些速度運(yùn)算。

3.NoSQL數(shù)據(jù)庫(kù)

NoSQL數(shù)據(jù)庫(kù),泛指非關(guān)系型的數(shù)據(jù)庫(kù)。隨著互聯(lián)網(wǎng)的深入發(fā)展,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在應(yīng)付超大規(guī)模和高并發(fā)數(shù)據(jù)方面,已經(jīng)顯得力不從心,暴露了很多難以克服的問題;因而,非關(guān)系型的數(shù)據(jù)庫(kù)由于其本身的特點(diǎn)得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫(kù)的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合、多重?cái)?shù)據(jù)種類帶來(lái)的挑戰(zhàn),尤其是大數(shù)據(jù)應(yīng)用難題。

NoSQL的流行與火起來(lái)是近年來(lái)的事,但已經(jīng)開始了第二代的階段。早期,堆棧代碼只能算是一種實(shí)驗(yàn),然而,現(xiàn)在的系統(tǒng)已經(jīng)更加的成熟穩(wěn)定,且技術(shù)越來(lái)越成熟,以至于原來(lái)很好的NoSQL數(shù)據(jù)存儲(chǔ)不得不進(jìn)行重寫,這可能就是V2.0版本。

我們生活的時(shí)代,相對(duì)穩(wěn)定的數(shù)據(jù)庫(kù)市場(chǎng)中還在出現(xiàn)一些新的技術(shù),而且在未來(lái)幾年,它們會(huì)發(fā)揮作用。

NoSQL數(shù)據(jù)庫(kù)本身就包含了幾種新技術(shù)??傮w而言,它們關(guān)注關(guān)系型數(shù)據(jù)庫(kù)引擎的限制,如索引流媒體和高訪問量的網(wǎng)站服務(wù)等。在這些領(lǐng)域,NoSQL相較關(guān)系型數(shù)據(jù)庫(kù)引擎,效率明顯更高。

4.內(nèi)存分析

內(nèi)存分析,Gartner評(píng)選的2012年十大戰(zhàn)略技術(shù)之一。內(nèi)存分析在個(gè)人消費(fèi)電子設(shè)備及其他嵌入式設(shè)備中的應(yīng)用得到快速的發(fā)展。

隨著越來(lái)越多的價(jià)格低廉的內(nèi)存應(yīng)用于數(shù)據(jù)中心,如何利用內(nèi)存分析對(duì)軟件進(jìn)行最大限度的優(yōu)化就成為關(guān)鍵的問題。內(nèi)存分析以其實(shí)時(shí)、高性能的特性,成為大數(shù)據(jù)分析時(shí)代下的“新寵兒”。如何讓大數(shù)據(jù)轉(zhuǎn)化為最佳的洞察力,也許內(nèi)存分析就是答案。

集成設(shè)備,隨著數(shù)據(jù)倉(cāng)庫(kù)設(shè)備(Data Warehouse Appliance)的出現(xiàn),商業(yè)智能以及大數(shù)據(jù)分析的潛能也被激發(fā)出來(lái)。企業(yè)將利用數(shù)據(jù)倉(cāng)庫(kù)新技術(shù)的優(yōu)勢(shì)提升自身競(jìng)爭(zhēng)力。

集成設(shè)備將企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)硬件、軟件整合在一起;提升查詢性能、擴(kuò)充存儲(chǔ)空間,并獲得更多的分析功能;能夠提供同傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)一樣的優(yōu)勢(shì)。在大數(shù)據(jù)時(shí)代,集成設(shè)備將成為企業(yè)應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)的一個(gè)重要利器。

準(zhǔn)確、深入的理解大數(shù)據(jù),要從三個(gè)層面著手:

理論,是認(rèn)知的首要途徑。從大數(shù)據(jù)的定義、特征、價(jià)值的理解,探討大數(shù)據(jù)之所在,洞悉其發(fā)展趨勢(shì);從隱私的視角,審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。

技術(shù),是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和進(jìn)步的基礎(chǔ)。從云、分布式處理、存儲(chǔ)和感知技術(shù)的發(fā)展,理解大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程。

實(shí)踐,是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。從互聯(lián)網(wǎng)、政府、企業(yè)和個(gè)人大數(shù)據(jù)四個(gè)方面。展望其的美好景象將實(shí)現(xiàn)的藍(lán)圖。

大數(shù)據(jù)應(yīng)用,是非常廣泛的。如:洛杉磯警察局利用大數(shù)據(jù),預(yù)測(cè)犯罪的發(fā)生。google利用搜索關(guān)鍵詞,預(yù)測(cè)禽流感的傳播。統(tǒng)計(jì)學(xué)家(Nate Silver)利用大數(shù)據(jù),預(yù)測(cè)美國(guó)大選結(jié)果;麻省理工學(xué)院利用手機(jī)定位和交通數(shù)據(jù),制定城市規(guī)劃;梅西百貨根據(jù)需求和庫(kù)存數(shù)據(jù),建立實(shí)時(shí)定價(jià)機(jī)制,對(duì)多達(dá)7300萬(wàn)種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià);醫(yī)療行業(yè)通過大數(shù)據(jù),特別是處理海量、非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù),調(diào)配醫(yī)、藥資源和醫(yī)保資金管理。

大數(shù)據(jù)發(fā)展趨勢(shì),大數(shù)據(jù)是信息化浪潮中的一朵浪花。數(shù)據(jù)的資源化,大數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,并成為大家爭(zhēng)奪的新領(lǐng)域。與云計(jì)算深度融合,云計(jì)算為大數(shù)據(jù)提供了彈性、可拓展的基礎(chǔ)平臺(tái);大數(shù)據(jù)技術(shù)已開始和云計(jì)算技術(shù)緊密融合。

物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等也助力大數(shù)據(jù)產(chǎn)生更大的影響力。

理論的突破,大數(shù)據(jù)很可能是新一輪的技術(shù)革命,隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等可能改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。

數(shù)據(jù)科學(xué)和數(shù)據(jù)產(chǎn)業(yè),數(shù)據(jù)科學(xué)將成為專門的學(xué)科。

各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè);社會(huì)將出現(xiàn)數(shù)據(jù)產(chǎn)業(yè),催生一批與之相關(guān)的新的就業(yè)崗位。數(shù)據(jù)泄露泛濫,未來(lái)幾年,數(shù)據(jù)泄露事件的增長(zhǎng)率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。

可以預(yù)見:未來(lái),大型企業(yè)都會(huì)面臨數(shù)據(jù)攻擊,無(wú)論他們是否已經(jīng)做好安全防范。而所有企業(yè),無(wú)論規(guī)模大小,都需要重新審視今天的安全定義。

總之、大數(shù)據(jù)像一把雙刃劍,利害同在。

數(shù)據(jù)管理成核心競(jìng)爭(zhēng)力,當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,數(shù)據(jù)管理便有了新的定位。

數(shù)據(jù)質(zhì)量是關(guān)鍵,企業(yè)采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理,面臨的挑戰(zhàn)是數(shù)據(jù)源帶來(lái)大量低質(zhì)量數(shù)據(jù)。要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)。

數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化,大數(shù)據(jù)世界是一個(gè)由設(shè)備、設(shè)施、服務(wù)提供商等一系列參與者共同構(gòu)建的生態(tài)系統(tǒng)。今后,這一生態(tài)系統(tǒng)的復(fù)合化程度逐漸增強(qiáng)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論