大數據的價值開始日益受到重視,人們對數據處理的實時性和有效性的要求也在不斷提高?,F(xiàn)在對大數據的應用己經不局限于BI(商業(yè)智能)領域,在公共服務、科學研究等各方面,大數據也都在發(fā)揮著巨大的影響力,而且應用面要寬得多。
大數據的意義并不在于大容量、多樣性等特征,而在于我們如何對數據進行管理和分析,以及因此而發(fā)掘出的價值。如果在分析處理上缺少相應的技術支撐,大數據的價值將無從談起。
傳統(tǒng)的處理和分析技術在這些需求面前開始遭遇瓶頸,而云計算的出現(xiàn),不僅為我們提供了一種挖掘大數據價值使其得以凸顯的工具,也使大數據的應用具有了更多可能性。
就目前技術發(fā)展來看,云計算以數據為中心,以虛擬化技術為手段來整合服務器、存儲、網絡、應用等在內的各種資源,并利用SOA架構為用戶提供安全、可靠、便捷的各種應用數據服務;它完成了系統(tǒng)架構從組件走向層級然后走向資源池的過程,實現(xiàn)IT系統(tǒng)不同平臺(硬件、系統(tǒng)和應用)層面的“通用”化,打破物理設備障礙,達到集中管理、動態(tài)調配和按需使用的目的。
借助“云”的力量,可以實現(xiàn)對多格式、多模式的大數據的統(tǒng)一管理、高效流通和實時分析,挖掘大數據的價值,發(fā)揮大數據的真正意義。
大數據對技術提出高要求
大數據處理首先是獲取和記錄數據;其次是完成數據的抽取、清潔和標注以及數據的整合、聚集和表達等重要的預處理或處理(取決于實際問題)工作;再次需要一個完整的數據分析步驟,通常包括數據過濾、數據摘要、數據分類或聚類等預處理過權最后進入分析階段,在這個階段,各種算法和計算工具會施加到數據上,以求能得到分析者想要看到的或者可以進行解釋的結果。
涉及到龐大的數據量,這一整套處理流程在各個不同階段都會對傳統(tǒng)的技術手段提出挑戰(zhàn)。比如,海量的網絡化設備、海量的在線用戶、不間斷的網絡聯(lián)接,都在時刻生成大量的、多格式的內容數據和狀態(tài)信息,這些經由各種客戶端(網頁、應用或是傳感器等)采集而來的信息數據,連同成千上萬的訪問和操作請求,會以高并發(fā)的方式向系統(tǒng)服務器施加壓力。
通常為了避免由于服務能力的不足而造成服務請求排隊的問題,會來用負載均衡技術將單個服務器的壓力進行分攤,大幅提高服務性能;在數據采集時,也會通過在采集端部署大量的數據庫來對系統(tǒng)性能提供支撐,然后對采集到的數據(包括各種結構化、非結構化和半結構化數據等)進行數據清理、去重、正規(guī)化以及相應的格式轉換處理。在按照預定規(guī)則進行過濾后,輸出到分布式數據存儲系統(tǒng)中進行存儲,為之后的分析和展示做準備。
在分析階段,為了完成數據挖掘的目的,通常需要處理海量的歷史數據,構建復雜的數學統(tǒng)計和分析模型(比如計算冬天的氣溫水平對特定厚度的羽絨服銷量的影響),并針對大量的結果之間的關聯(lián)性做出高效正確的處理,同時還要支持數據更新帶來的重新評估;而在展示階段,則應當隱藏諸如數據存儲拓撲和數據存儲結構等實現(xiàn)細節(jié),對業(yè)務應用暴露規(guī)范的數據訪問接口,對復雜的數據訪問需求提供透明支撐,大大減小業(yè)務應用的構建難度。
這些復雜的需求對技術實現(xiàn)和底層計算資源提出了高要求。所以,為應對這些復雜的大數據處理工作,需要從服務器、網絡、存儲、軟件等各個環(huán)節(jié)構建一個兼具高可用性和高可靠性的系統(tǒng)環(huán)境,提供端到端的全面解決方案。
大數據與云計算相輔相成
傳統(tǒng)的單機處理模式不但成本越來越高,而且不易擴展,并且隨著數據量的遞增、數據處理復雜度的增加,相應的性能和擴展瓶頸將會越來越大。在這種情況下,云計算所具備的彈性伸縮和動態(tài)調配、資源的虛擬化和系統(tǒng)的透明性、支持多租戶、支持按量計費或按需使用,以及綠色節(jié)能等基本要素正好契合了新型大數據處理技術的需求;而以云計算為典型代表的新一代計算模式,以及云計算平臺這種支撐一切上層應用服務的底層基礎架構,以其高可靠性、更強的處理能力和更大的存儲空間、可平滑遷移、可彈性伸縮、對用戶的透明性以及可統(tǒng)一管理和調度等特性,正在成為解決大數據問題的未來計算技術發(fā)展的重要方向。
基于云計算技術構建的大數據平臺,能夠提供聚合大規(guī)模分布式系統(tǒng)中離散的通訊、存儲和處理能力,并以靈活、可靠、透明的形式提供給上層平臺和應用。它同時還提供針對海量多格式、多模式數據的跨系統(tǒng)、跨平臺、跨應用的統(tǒng)一管理手段和高可用、敏捷響應的機制體系來支持快速變化的功能目標、系統(tǒng)環(huán)境和應用配置。
比如在基于云計算平臺而構建的新型企業(yè)信息系統(tǒng)中,在以分布式集群技術構建高性能、高延展的存儲平臺之后,我們可以實現(xiàn)對不同業(yè)務應用中不同格式、不同訪問模式的海量數據的統(tǒng)一存儲,相關的數據分析系統(tǒng)則構建于分布式工作流和調度系統(tǒng)框架之上,采用分布式計算手段面向多模式海量數據提供數據的轉換、關聯(lián)、提取、聚合和數據挖掘等功能。在企業(yè)信息系統(tǒng)中經常提到的BI的具體業(yè)務功能,比如決策支撐、銷售預測等,就可以由上層業(yè)務應用通過調用數據分析系統(tǒng)所提供的功能附加業(yè)務邏輯來實現(xiàn)。
云計算使大數據應用成為可能;沒有云計算的出現(xiàn),大數據將仍是空中樓閣,缺乏根基和落地可能。借助云計算技術,可以提高系統(tǒng)整體的彈性和靈活性,降低管理成本和風險,并且改進應用服務的可用性和可靠性;云計算不僅為大數據處理打造一個高效、可靠的系統(tǒng)環(huán)境,而且充分發(fā)揮云計算平臺的優(yōu)勢,為大數據應用找到更多樣化的出口。
如果說大數據是一座蘊含巨大價值的礦藏,云計算則可以被看作是采礦作業(yè)的得力工具;沒有云計算的處理能力,大數據的信息沉淀再豐富,或許也只能望洋興嘆,入寶山而空手回;但從另外的角度說,云計算也是為了解決大數據等“大”問題發(fā)展而來的技術趨勢,沒有大數據的信息沉淀,云計算的功用將得不到完全發(fā)揮。因此,從整體上看,大數據與云計算是相輔相成的。