一篇文章詳解大數(shù)據(jù)技術和應用場景

今日頭條
互聯(lián)網(wǎng)Java架構
什么是大數(shù)據(jù) 說起大數(shù)據(jù),估計大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大數(shù)據(jù)公司,業(yè)務形態(tài)則有幾百種,感覺不是很好理解,所以我建議還...

什么是大數(shù)據(jù)

說起大數(shù)據(jù),估計大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大數(shù)據(jù)公司,業(yè)務形態(tài)則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數(shù)據(jù),在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數(shù)據(jù)時代》提到了大數(shù)據(jù)的4個特征:

一個是數(shù)量大

一個是價值大

一個是速度快

一個是多樣性

第一個是數(shù)量比較大,只有數(shù)據(jù)體量達到了PB級別以上,才能被稱為大數(shù)據(jù)。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個G的數(shù)據(jù)。

第二個是價值大,你如果有1PB以上的全國所有20-35年輕人的上網(wǎng)數(shù)據(jù)的時候,那么它自然就有了商業(yè)價值,比如通過分析這些數(shù)據(jù),我們就知道這些人的愛好,進而指導產(chǎn)品的發(fā)展方向等等。如果有了全國幾百萬病人的數(shù)據(jù),根據(jù)這些數(shù)據(jù)進行分析就能預測疾病的發(fā)生,這些都是大數(shù)據(jù)的價值。

第三個就是多樣性,如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒有了價值,比如只有單一的個人數(shù)據(jù),或者單一的用戶提交數(shù)據(jù),這些數(shù)據(jù)還不能稱為大數(shù)據(jù),所以說大數(shù)據(jù)還需要是多樣性的,比如當前的上網(wǎng)用戶中,年齡,學歷,愛好,性格等等每個人的特征都不一樣,這個也就是大數(shù)據(jù)的多樣性,當然了如果擴展到全國,那么數(shù)據(jù)的多樣性會更強,每個地區(qū),每個時間段,都會存在各種各樣的數(shù)據(jù)多樣性。

第四個是速度快,就是通過算法對數(shù)據(jù)的邏輯處理速度非??欤?秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。

大數(shù)據(jù)的行業(yè)應用

大數(shù)據(jù)無處不在,大數(shù)據(jù)應用于各個行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。

制造業(yè),利用工業(yè)大數(shù)據(jù)提升制造業(yè)水平,包括產(chǎn)品故障診斷與預測、分析工藝流程、改進生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應鏈分析與優(yōu)化、生產(chǎn)計劃與排程。

金融行業(yè),大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風險分析三大金融創(chuàng)新領域發(fā)揮重大作用。

汽車行業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。

互聯(lián)網(wǎng)行業(yè),借助于大數(shù)據(jù)技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。

電信行業(yè),利用大數(shù)據(jù)技術實現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。

能源行業(yè),隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術分析用戶用電模式,可以改進電網(wǎng)運行,合理設計電力需求響應系統(tǒng),確保電網(wǎng)運行安全。

物流行業(yè),利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡,提高物流效率,降低物流成本。

城市管理,可以利用大數(shù)據(jù)實現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。

生物醫(yī)學,大數(shù)據(jù)可以幫助我們實現(xiàn)流行病預測、智慧醫(yī)療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。

體育娛樂,大數(shù)據(jù)可以幫助我們訓練球隊,決定投拍哪種題財?shù)挠耙曌髌罚约邦A測比賽結果。

安全領域,政府可以利用大數(shù)據(jù)技術構建起強大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡攻擊,警察可以借助大數(shù)據(jù)來預防犯罪。

個人生活, 大數(shù)據(jù)還可以應用于個人生活,利用與每個人相關聯(lián)的“個人大數(shù)據(jù)”,分析個人生活行為習慣,為其提供更加周到的個性化服務。

大數(shù)據(jù)的價值,遠遠不止于此,大數(shù)據(jù)對各行各業(yè)的滲透,大大推動了社會生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠的影響。

大數(shù)據(jù)使用的技術

說起大數(shù)據(jù),大數(shù)據(jù)有三個層數(shù)據(jù)采集、存儲、計算三層。

第一個是數(shù)據(jù)采集層,以App、saas為代表的服務。

大數(shù)據(jù)基礎階段需掌握的技術有:Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

第二個數(shù)據(jù)存儲層,比如云存儲,需掌握的技術有:hbase、hive、sqoop等。

比如:Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認為是hdfs的封裝,本質是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。

HBase是一種Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。

第三個是數(shù)據(jù)計算應用層,以數(shù)據(jù)為基礎,為將來的移動社交、交通、教育,金融進行服務,涉及到大數(shù)據(jù)架構設計階段需掌握的技術有:Flume分布式、Zookeeper、Kafka等,以及大數(shù)據(jù)實時計算階段需掌握的技術有:Mahout、Spark、storm。

大數(shù)據(jù)的崗位

1.數(shù)據(jù)分析師Data analyst

指熟悉相關業(yè)務,熟練搭建數(shù)據(jù)分析框架,掌握和使用相關的分析常用工具和基本的分析方法,進行數(shù)據(jù)搜集、整理、分析,針對數(shù)據(jù)分析結論給管理銷售運營提供指導意義的分析意見。

2.數(shù)據(jù)架構師Data architect

對Hadoop解決方案的整個生命周期進行引導,包括需求分析,平臺選擇,技術架構設計,應用設計和開發(fā),測試和部署。深入掌握如何編寫MapReduce的作業(yè)及作業(yè)流的管理完成對數(shù)據(jù)的計算,并能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態(tài)系統(tǒng)的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠實現(xiàn)對平臺監(jiān)控、輔助運維系統(tǒng)的開發(fā)。

3.大數(shù)據(jù)工程師Big DataEngineer

收集和處理大規(guī)模的原始數(shù)據(jù)(包括腳本編寫,網(wǎng)頁獲取,調用APIs,編寫SQL查詢等);將非結構化數(shù)據(jù)處理成適合分析的一種形式,然后進行分析;根據(jù)所需要的和專案分析商業(yè)決策。

4.數(shù)據(jù)倉庫管理員

Data warehousemanager:指定并實施信息管理策略;協(xié)調和管理的信息管理解決方案;多個項目的范圍,計劃和優(yōu)先順序安排;管理倉庫的各個方面,比如數(shù)據(jù)外包,移動,質量,設計和實施。

5.數(shù)據(jù)庫管理員Database manager

提高數(shù)據(jù)庫工具和服務的有效性;確保所有的數(shù)據(jù)符合法律規(guī)定;確保信息得到保護和備份;做定期報告;監(jiān)控數(shù)據(jù)庫性能;改善使用的技術;建立新的數(shù)據(jù)庫;檢測數(shù)據(jù)錄入程序;故障排除。

6.商業(yè)智能分析員Businessintelligence analyst

就工具,報告或者元數(shù)據(jù)增強來進行傳播信息;進行或協(xié)調測試,以確保情報的定義與需求相一致;使用商業(yè)智能工具來識別或監(jiān)測現(xiàn)有和潛在的客戶;綜合目前的商業(yè)只能和趨勢數(shù)據(jù),來支持采取行動的建議;維護或更新的商業(yè)智能工具,數(shù)據(jù)庫,儀表板,系統(tǒng)或方法;及時的管理用戶流量的商業(yè)情報。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論