5G商用,物聯(lián)網(wǎng)加速落地,人工智能快速發(fā)展,必將產生大量的數(shù)據(jù),形成數(shù)據(jù)洪流,給數(shù)據(jù)的管理分析帶來巨大挑戰(zhàn)!
一、全球超過一半數(shù)據(jù)創(chuàng)建于過去兩年,只有2%的數(shù)據(jù)經(jīng)過了分析
根據(jù)IDC2018年11月公布的數(shù)據(jù),全球超過一半數(shù)據(jù)產生于過去兩年。2018年,僅中國數(shù)據(jù)量就達到 7.6 ZB。2025年將達到 48.6 ZB,年均增長30%。其中只有2%的數(shù)據(jù)經(jīng)過了分析,數(shù)據(jù)只有經(jīng)過分析才有價值,從統(tǒng)計結果看顯然,數(shù)據(jù)分析還遠遠不夠普及。
數(shù)據(jù)洪流和數(shù)據(jù)分析發(fā)展曲線
數(shù)據(jù)分析非常復雜,從大的方向來劃分,可以分為軟件解決方案和硬件解決方案,下面我們分別了解下兩種解決方案。
二、數(shù)據(jù)分析軟件解決方案生態(tài)及典型工具
mattturck.com網(wǎng)站每年會發(fā)布數(shù)據(jù)及AI生態(tài)圖譜,下圖是最新的2019年圖譜,可以看到和數(shù)據(jù)相關的企業(yè)非常多,涉及的領域也非常復雜。
從圖譜來看,大的模塊如下:
基礎架構:Hadpoop生態(tài),關系數(shù)據(jù)庫、內存數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、圖數(shù)據(jù)庫、存儲等
數(shù)據(jù)分析工具:數(shù)據(jù)分析平臺、數(shù)據(jù)科學平臺、BI、可視化、日志分析、社交分析等
企業(yè)應用數(shù)據(jù)分析:銷售、市場、客服、人力資源、法律、財務、安全
APP應用數(shù)據(jù)分析:廣告、教育、健康、生命科學、交通等
云廠商數(shù)據(jù)分析(往往提供從基礎架構到解決方案):AWS、微軟、谷歌、IBM、VMware、甲骨文
下面我們在來看看在一些不同領域,典型的數(shù)據(jù)分析工具:
1. Excel
Excel可以說是隨手可得的數(shù)據(jù)分析工具,對于數(shù)據(jù)量不大的情況,使用Excel可以輕松分析,Excel提供的函數(shù)可以滿足更復雜的分析要求,提供的VBA工具還可以編程,但是對于數(shù)據(jù)量特別大的分析,Excel就難以勝任了。
2. Hadoop
Hadoop是數(shù)據(jù)分析重量級的解決方案,如今已經(jīng)形成生態(tài),有不同的商業(yè)發(fā)行版和上下游企業(yè)。Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop實現(xiàn)了分布式文件系統(tǒng)(HDFS),Hadoop的框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce則為海量的數(shù)據(jù)提供了計算。
3. R語言
R語言常用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,并且是開源的。R語音是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言:可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。另外,在數(shù)據(jù)處理領域,Python也是常有的語言。
4. Tableau
Tableau是比較成功的數(shù)據(jù)分析工具,尤其是BI方面,今年6月份,Salesforce.com斥資153億美元收購Tableau。Tableau的數(shù)據(jù)分析和展現(xiàn)做的比較好,很容易上手,兼容性也很好,同時支持Windows、Linux、MacOS等各種平臺。。
5. Splunk
Splunk是最成功的商業(yè)日志管理分析工具,目前市值接近200億美金。Splunk 收集、分析基礎設施、安全系統(tǒng)和業(yè)務應用的數(shù)據(jù),并將數(shù)據(jù)分析結果可視化。支持多平臺,可以滿足復雜的日志分析需求。
6.Elasticsearch
Shay Banon在2004年創(chuàng)造了Elasticsearch的前身,稱為Compass。Shay Banon在2010年2月發(fā)布了Elasticsearch的第一個版本。Elasticsearch是開源的實時全文搜索和分析引擎,提供搜集、分析、存儲數(shù)據(jù)三大功能。ElasticSearch提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。
軟件方案一般門檻高,有學習成本,在數(shù)據(jù)量比較大的時候,要快速提升數(shù)據(jù)分析能力,使用硬件方案是好的選擇。
筆者在英特爾網(wǎng)站發(fā)現(xiàn)了一份通過硬件提升數(shù)據(jù)分析能力的白皮書,基于英特爾®“傲騰™”數(shù)據(jù)中心級持久內存可以顯著提升數(shù)據(jù)分析能力,筆者仔細閱讀了白皮書,將其中重要的部分摘抄出來,和大家分享下。
三、數(shù)據(jù)分析加速利器-英特爾®“傲騰™”數(shù)據(jù)中心級持久內存
1. 英特爾®“傲騰™”數(shù)據(jù)中心級持久內存原理
為了讓數(shù)據(jù)分析的速度提升,英特爾®推出的新一代的至強可擴展平臺,是一套真正體現(xiàn)“以數(shù)據(jù)為中心”宗旨的產品技術組合,不僅僅配備第二代英特爾®至強®可擴展處理器,并且與之搭配的英特爾®“傲騰™”數(shù)據(jù)中心級持久內存更為搶眼,隨之而來的是數(shù)據(jù)處理和分析平臺在內存和存儲結構上的真正革新,也是破解數(shù)據(jù)分析難題癥結的一劑良方。
英特爾®推出的新一代的至強可擴展平臺
“傲騰™”數(shù)據(jù)中心級持久內存與普通服務器的DRAM的不同之處,在于“傲騰™”能以更經(jīng)濟的成本來擴展出更高的容量,具備數(shù)據(jù)持久性,且與DRAM內存有相近的數(shù)據(jù)讀寫和延時性能。
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存和英特爾“傲騰™”固態(tài)盤存儲結構
如圖所示,添加了英特爾®“傲騰™”數(shù)據(jù)中心級持久內存和英特爾“傲騰™”固態(tài)盤后的全新內存和存儲結構,為數(shù)據(jù)存存儲到技術,從冷到熱提供了更為精細的分層結果,更多的緩存,讓數(shù)據(jù)的流動、處理、分析更為流暢。
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存特點
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存具有低成本大容量特點,單一模塊可以提供128GB/256GB/512GB三種選擇,與傳統(tǒng)的DDR4 DRAM內存一同安裝在基于至強可擴展處理器平臺上時,可以更經(jīng)濟的在八路系統(tǒng)上實現(xiàn)高達24TB的容量(每路最高3TB)。
2. 英特爾®“傲騰™”數(shù)據(jù)中心級持久內存工作模式
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存,即可以做內存,也可以做存儲,有三種玩法。
工作模式一:內存模式
使用“傲騰™”技術,處理器控制器將DRAM視為緩存,將“傲騰™”數(shù)據(jù)中心級內存用做可尋址的主內存,讓數(shù)據(jù)以高性價比一直運行在內存中成為可能。由于“傲騰™”的高性價比,可以一次性將數(shù)據(jù)加載到內存中處理,大大提升了數(shù)據(jù)處理效果。
云計算的關鍵技術,虛擬化和容器可以以最快的速度直接從這種模式中收益,可以直接提升虛擬機或者容器性能,進一步提升單機的虛擬化密度。
工作模式二:App Direct模式
操作系統(tǒng)將DRAM和“傲騰™”數(shù)據(jù)中心級內存視為兩個獨立的內存池,“傲騰™”數(shù)據(jù)中心級內存可以像內存一樣尋址,像存儲設備一樣具備數(shù)據(jù)持久性。在機器重啟期間也能保留之前加載的數(shù)據(jù),從而增加系統(tǒng)的業(yè)務彈性,縮短重啟時間,提升業(yè)務恢復的速度。
工作模式三:雙重模式
可以通過與配置的方式,部分處于內存模式,企業(yè)部分處于App Direct模式,用來滿足用戶即對內存模式有需求,又有工作負載需要運行在App Direct模式。
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存三種工作模式
3. 案例:良好的效果
百度Feed流服務
百度Feed流服務的核心模塊Feed-Cube從僅配置DRAM內存的模式,遷移至同時使用DRAM與英特爾®“傲騰™”數(shù)據(jù)中心級持久內存混合配置模式,再到全面部署在英特爾®“傲騰™”數(shù)據(jù)中心級持久內存上的模式,卓有成效的降低了總體擁有成本(TCO)。
百度Feed-Cube在不同內存配置模式下測試效果對比
SAP HANA
SAP測試了HANA在3TB DRAM內存平臺,以及在3TB DRAM內存+6TB英特爾®“傲騰™”數(shù)據(jù)中心級持久內存平臺上的表現(xiàn),讓系統(tǒng)重新啟動從20分鐘縮短到90秒,實現(xiàn)了13倍的提示,并使每TB數(shù)據(jù)庫容量成本節(jié)約39%。
SAP HANA測試效果
英特爾®“傲騰™”數(shù)據(jù)中心級持久內存基于英特爾®至強®可擴展平臺,英特爾®至強®可擴展平臺有許多革命性的改進,我們再來簡單介紹下英特爾®至強®可擴展平臺。
四、英特爾®至強®可擴展平臺介紹
到2020年,全球2000強跨國公司中有半數(shù)公司的成功將取決于打造數(shù)字化增強型產品、服務和體驗的能力,背后的推動力便是技術的進步和由此帶來的新模式。這使得全球對靈活計算、網(wǎng)絡和存儲的需求激增,數(shù)據(jù)中心需要演進,英特爾®至強®可擴展的數(shù)據(jù)中心平臺實現(xiàn)了敏捷性和可擴展性的飛躍,并且能夠提高效率并降低TCO。
英特爾®至強®可擴展平臺內置人工智能加速并已針對工作負載進行優(yōu)化,提供了多云與智能邊緣之間無障礙性能切換的基礎,平臺搭載第二代英特爾®至強®可擴展處理器,將性能的一致性、普遍性和突破性提升到了新的高度。
英特爾®至強®可擴展平臺為數(shù)據(jù)分析、人工智能、混合云、網(wǎng)絡專線、HPC提供專用解決方案。
為5G就緒云優(yōu)化網(wǎng)絡
英特爾®至強®可擴展平臺提供的架構能夠輕松擴展和改造,第二代英特爾®至強®可擴展處理器“N”SKU,專門用于網(wǎng)絡/NFV,開源數(shù)據(jù)平面開發(fā)套件(DPDK)在英特爾架構上實現(xiàn)了優(yōu)化的通信操作。
總結:5G時代,數(shù)據(jù)分析能力才是王道
目前,數(shù)據(jù)洪流已經(jīng)到來,隨著5G的到來,數(shù)據(jù)洪流還要加劇。數(shù)據(jù)是企業(yè)的血液,是企業(yè)生產的根本,數(shù)據(jù)如何存儲、分析,產生更大的價值,是每家企業(yè)都要面臨的挑戰(zhàn),企業(yè)需要從軟件和硬件方面同時著手。英特爾®至強®可擴展平臺是應對數(shù)據(jù)洪流的利器,英特爾®“傲騰™”數(shù)據(jù)中心級持久內存是加速數(shù)據(jù)分析的利器,可以讓企業(yè)在數(shù)據(jù)處理方面走的更快更穩(wěn)。