1.大數(shù)據(jù)的關(guān)鍵問題
大數(shù)據(jù)來源非常豐富且數(shù)據(jù)類型多樣,存儲和分析挖掘的數(shù)據(jù)量龐大,對數(shù)據(jù)展現(xiàn)的要求較高,并且重視處理大素聚的高效性和可用性。
(1)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)處理
如何處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)是一項重要的研究課題。如果把通過數(shù)據(jù)挖掘提取粗糙知識的過程稱為一次挖掘過程,那么將粗糙知識與被量化后的主觀知識,包括具體的經(jīng)驗、常識、本能、情境知識和用戶偏好相結(jié)合而產(chǎn)生智能知識的過程就叫做二次挖掘。從一次挖掘到二次挖掘是由量到質(zhì)的飛躍。
由于大數(shù)據(jù)所具有的半結(jié)構(gòu)化和非結(jié)構(gòu)化特點,基于大數(shù)據(jù)的數(shù)據(jù)挖掘所產(chǎn)生的結(jié)構(gòu)化的粗糙知識(潛在模式)也伴有一些新的特征。這些結(jié)構(gòu)化的粗糙知識可以被主觀知識加工處理并轉(zhuǎn)化,生成半結(jié)構(gòu)化和非結(jié)構(gòu)化的智能知識。尋求智能知識反映了大數(shù)據(jù)研究的核心價值。
(2)大數(shù)據(jù)復(fù)雜性與系統(tǒng)建模
大數(shù)據(jù)復(fù)雜性、不確定性特征描述的方法及大數(shù)據(jù)的系統(tǒng)建模這一問題的突破是實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的前提和關(guān)鍵。從長遠(yuǎn)角度來看,大數(shù)據(jù)的個體復(fù)雜性和隨機性所帶來的挑戰(zhàn)將促使大數(shù)據(jù)數(shù)學(xué)結(jié)構(gòu)的形成,從而導(dǎo)致大數(shù)據(jù)統(tǒng)一理論的完備。從近期來看,應(yīng)該建立一種一般性的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)之間的轉(zhuǎn)化原則,以支持大數(shù)據(jù)的交叉工業(yè)應(yīng)用。管理科學(xué),尤其是基于最優(yōu)化的理論將在大數(shù)據(jù)知識的一般性方法和規(guī)律性中發(fā)揮重要的作用。
現(xiàn)實世界中的大數(shù)據(jù)春雨里問題復(fù)雜多樣,難以有一種單一的計算模式能涵蓋所有不同的大數(shù)據(jù)計算需求。研究和實際應(yīng)用中發(fā)現(xiàn),MapReduce主要適合于進(jìn)行大數(shù)據(jù)離線批處理方式,不適應(yīng)面向低延遲、具有復(fù)雜數(shù)據(jù)關(guān)系和復(fù)雜計算的大數(shù)據(jù)處理,Storm平臺適合于在線流式大數(shù)據(jù)處理。
大數(shù)據(jù)的復(fù)雜形勢導(dǎo)致許多與粗糙知識的度量和評估相關(guān)的研究問題。已知的最優(yōu)化、數(shù)據(jù)包絡(luò)分析、期望理論、管理科學(xué)中的效用理論可以被應(yīng)用到研究如何將主觀知識融合到數(shù)據(jù)挖掘產(chǎn)生的粗糙知識的二次挖掘過程中,人機交互將起到至關(guān)重要的作用。
(3)大數(shù)據(jù)異構(gòu)性與決策異構(gòu)性影響知識發(fā)現(xiàn)
由于大數(shù)據(jù)本身的復(fù)雜性,致使傳統(tǒng)的數(shù)據(jù)挖掘理論和技術(shù)已不大適應(yīng)大數(shù)據(jù)知識發(fā)現(xiàn)。在大數(shù)據(jù)環(huán)境下,管理決策面臨著兩個異構(gòu)性問題,即數(shù)據(jù)易構(gòu)性和決策異構(gòu)性問題。決策結(jié)構(gòu)的變化要求人們?nèi)ヌ接懭绾螢橹С指邔哟蔚臎Q策而去做二次挖掘。無論大數(shù)據(jù)帶來了何種數(shù)據(jù)異構(gòu)性,大數(shù)據(jù)中的粗糙知識仍可被看做一次挖掘的范疇。通過尋找二次挖掘而產(chǎn)生的智能知識來作為數(shù)據(jù)異構(gòu)性和決策異構(gòu)性之間的連接橋梁。
尋找大數(shù)據(jù)的科學(xué)模式將帶來對大數(shù)據(jù)研究的一般性方法的探究,如果能夠找到將非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的方法,已知的數(shù)據(jù)挖掘方法將成為大數(shù)據(jù)挖掘的工具。
2.大數(shù)據(jù)的關(guān)鍵技術(shù)
針對上述的大數(shù)據(jù)關(guān)鍵問題,大數(shù)據(jù)的關(guān)鍵技術(shù)主要包括流處理、并行化、摘要索引和可視化。
(1)流處理
隨著業(yè)務(wù)流程的復(fù)雜化,大數(shù)據(jù)趨勢日益明顯,流式數(shù)據(jù)處理技術(shù)已成為重要的處理技術(shù)。應(yīng)用六十?dāng)?shù)據(jù)處理技術(shù)可以完成實時處理,能夠處理隨時發(fā)生的數(shù)據(jù)流的架構(gòu)。
例如,計算一組數(shù)據(jù)的平均值,可以使用傳統(tǒng)的方法實現(xiàn)。對于移動數(shù)據(jù)平均值的計算,不論是到達(dá)、增長還是一個又一個的單元,需要更高效的算法。但是想創(chuàng)建的是一個數(shù)據(jù)流統(tǒng)計集,那需要對此逐步添加或移除數(shù)據(jù)塊,進(jìn)行移動平均計算。
(2)并行化
小數(shù)據(jù)的情形類似于桌面環(huán)境,磁盤存儲能力在1GB~10GB之間,中數(shù)據(jù)的數(shù)據(jù)量在10GB~1TB之間,大數(shù)據(jù)分布式地存儲在多臺機器上,包含1TB到多個PB的數(shù)據(jù)。如果在分布式數(shù)據(jù)環(huán)境中工作,并且需要在很短的時間內(nèi)處理數(shù)據(jù),這就需要分布式處理。
(3)摘要索引
摘要索引是一個對數(shù)據(jù)創(chuàng)建預(yù)計算摘要,以加速查詢運行的過程。摘要索引的問題是,必須為要執(zhí)行的查詢做好計劃。數(shù)據(jù)增長飛速,對摘要索引的要求永遠(yuǎn)不會停止,不論是基于長期還是短期考慮,必須對摘要索引的制定有一個確定的策略。
(4)可視化
數(shù)據(jù)可視化包括科學(xué)可視化和信息可視化。可視化工具是實現(xiàn)可視化的重要基礎(chǔ),可視化工具包括兩大類。
探索性可視化描述工具可以幫助決策者和分析師挖掘不同數(shù)據(jù)之間的關(guān)系,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView等。
敘事可視化工具可以獨特的方式探索數(shù)據(jù)。例如,如果需要以可視化的方式在一個時間序列中按照地域查看一個企業(yè)的銷售業(yè)績,可視化格式將被預(yù)先創(chuàng)建。數(shù)據(jù)將按照地域逐月展示,并根據(jù)預(yù)定義的公式排序。
想學(xué)習(xí)大數(shù)據(jù)的同學(xué),私信回復(fù) “領(lǐng)取”既可獲取大數(shù)據(jù)學(xué)習(xí)資料下載鏈接~ 祝大家學(xué)習(xí)愉快!