大數(shù)據(jù)流量龐大 三招教你搞定

今日頭條
科多大數(shù)據(jù)KeDuo
雁過留痕。互聯(lián)網(wǎng)時(shí)代,我們每天都會(huì)產(chǎn)生大量的數(shù)據(jù),從網(wǎng)購(gòu)、打電話、上網(wǎng)沖浪到訪問各類社交網(wǎng)站,每一分鐘都會(huì)產(chǎn)生大量的新數(shù)據(jù)。海量數(shù)據(jù)相聚,如何存儲(chǔ)就成為了一大難題。 大數(shù)據(jù)培訓(xùn)一定要知道的知識(shí)點(diǎn):由...

雁過留痕?;ヂ?lián)網(wǎng)時(shí)代,我們每天都會(huì)產(chǎn)生大量的數(shù)據(jù),從網(wǎng)購(gòu)、打電話、上網(wǎng)沖浪到訪問各類社交網(wǎng)站,每一分鐘都會(huì)產(chǎn)生大量的新數(shù)據(jù)。海量數(shù)據(jù)相聚,如何存儲(chǔ)就成為了一大難題。

大數(shù)據(jù)培訓(xùn)一定要知道的知識(shí)點(diǎn):由于數(shù)據(jù)源的多樣性,數(shù)據(jù)集由于干擾、冗余和一致性因素的影響具有不同的質(zhì)量。從需求的角度,一些數(shù)據(jù)分析工具和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量有著嚴(yán)格的要求。因此在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)的質(zhì)量。科多大數(shù)據(jù)和大家來討論三種主要的數(shù)據(jù)預(yù)處理技術(shù)。

1、數(shù)據(jù)集成(Dataintegration)

數(shù)據(jù)集成技術(shù)在邏輯上和物理上把來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集中,為用戶提供一個(gè)統(tǒng)一的視圖。數(shù)據(jù)集成在傳統(tǒng)的數(shù)據(jù)庫(kù)研究中是一個(gè)成熟的研究領(lǐng)域,如數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)和數(shù)據(jù)聯(lián)合(datafederation)方法。數(shù)據(jù)倉(cāng)庫(kù)又稱為ETL,由3個(gè)步驟構(gòu)成:提取、變換和裝載。

•提?。哼B接源系統(tǒng)并選擇和收集必要的數(shù)據(jù)用于隨后的分析處理。

•變換:通過一系列的規(guī)則將提取的數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式。

•裝載:將提取并變換后的數(shù)據(jù)導(dǎo)入目標(biāo)存儲(chǔ)基礎(chǔ)設(shè)施。

數(shù)據(jù)聯(lián)合則創(chuàng)建一個(gè)虛擬的數(shù)據(jù)庫(kù),從分離的數(shù)據(jù)源查詢并合并數(shù)據(jù)。虛擬數(shù)據(jù)庫(kù)并不包含數(shù)據(jù)本身,而是存儲(chǔ)了真實(shí)數(shù)據(jù)及其存儲(chǔ)位置的信息或元數(shù)據(jù)。

然而,這兩種方法并不能滿足流式和搜索應(yīng)用對(duì)高性能的需求,因此這些應(yīng)用的數(shù)據(jù)高度動(dòng)態(tài),并且需要實(shí)時(shí)處理。一般地,數(shù)據(jù)集成技術(shù)最好能與流處理引擎或搜索引擎集成在一起。

2、數(shù)據(jù)清洗(Datacleansing)

數(shù)據(jù)清洗是指在數(shù)據(jù)集中發(fā)現(xiàn)不準(zhǔn)確、不完整或不合理數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行修補(bǔ)或移除以提高數(shù)據(jù)質(zhì)量的過程。一個(gè)通用的數(shù)據(jù)清洗框架由5個(gè)步驟構(gòu)成:定義錯(cuò)誤類型,搜索并標(biāo)識(shí)錯(cuò)誤實(shí)例,改正錯(cuò)誤,文檔記錄錯(cuò)誤實(shí)例和錯(cuò)誤類型,修改數(shù)據(jù)錄入程序以減少未來的錯(cuò)誤。

此外,格式檢查、完整性檢查、合理性檢查和極限檢查也在數(shù)據(jù)清洗過程中完成。數(shù)據(jù)清洗對(duì)保持?jǐn)?shù)據(jù)的一致和更新起著重要的作用,因此被用于如銀行、保險(xiǎn)、零售、電信和交通的多個(gè)行業(yè)。

在電子商務(wù)領(lǐng)域,盡管大多數(shù)數(shù)據(jù)通過電子方式收集,但仍存在數(shù)據(jù)質(zhì)量問題。影響數(shù)據(jù)質(zhì)量的因素包括軟件錯(cuò)誤、定制錯(cuò)誤和系統(tǒng)配置錯(cuò)誤等。Kohavi等討論了通過檢測(cè)爬蟲和定期執(zhí)行客戶和帳戶的重復(fù)數(shù)據(jù)刪除(de-duping),對(duì)電子商務(wù)數(shù)據(jù)進(jìn)行清洗。

在RFID領(lǐng)域,文獻(xiàn)研究了對(duì)RFID數(shù)據(jù)的清洗。RFID技術(shù)用于許多應(yīng)用,如庫(kù)存檢查和目標(biāo)跟蹤等。然而原始的RFID數(shù)據(jù)質(zhì)量較低并包含許多由于物理設(shè)備的限制和不同類型環(huán)境噪聲導(dǎo)致的異常信息。Zhao等在中提出了一個(gè)概率模型解決移動(dòng)環(huán)境中的數(shù)據(jù)丟失問題。Khoussainova等在中設(shè)計(jì)了一個(gè)能根據(jù)應(yīng)用定義的全局完整性約束自動(dòng)修正輸入數(shù)據(jù)錯(cuò)誤的系統(tǒng)。

文獻(xiàn)則實(shí)現(xiàn)了一個(gè)框架BIO-AJAX,用于對(duì)生物數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。在該框架的輔助下,生物數(shù)據(jù)中的錯(cuò)誤和副本可以消除,數(shù)據(jù)挖掘技術(shù)能夠更高效地運(yùn)行。

數(shù)據(jù)清洗對(duì)隨后的數(shù)據(jù)分析非常重要,因?yàn)樗芴岣邤?shù)據(jù)分析的準(zhǔn)確性。但是數(shù)據(jù)清洗依賴復(fù)雜的關(guān)系模型,會(huì)帶來額外的計(jì)算和延遲開銷,必須在數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進(jìn)行平衡。

3、冗余消除(Redundancyelimination)

數(shù)據(jù)冗余是指數(shù)據(jù)的重復(fù)或過剩,這是許多數(shù)據(jù)集的常見問題。數(shù)據(jù)冗余無疑會(huì)增加傳輸開銷,浪費(fèi)存儲(chǔ)空間,導(dǎo)致數(shù)據(jù)不一致,降低可靠性。因此許多研究提出了數(shù)據(jù)冗余減少機(jī)制,例如冗余檢測(cè)和數(shù)據(jù)壓縮。這些方法能夠用于不同的數(shù)據(jù)集和應(yīng)用環(huán)境,提升性能,但同時(shí)也帶來一定風(fēng)險(xiǎn)。例如,數(shù)據(jù)壓縮方法在進(jìn)行數(shù)據(jù)壓縮和解壓縮時(shí)帶來了額外的計(jì)算負(fù)擔(dān),因此需要在冗余減少帶來的好處和增加的負(fù)擔(dān)之間進(jìn)行折中。

由廣泛部署的攝像頭收集的圖像和視頻數(shù)據(jù)存在大量的數(shù)據(jù)冗余。在視頻監(jiān)控?cái)?shù)據(jù)中,大量的圖像和視頻數(shù)據(jù)存在著時(shí)間、空間和統(tǒng)計(jì)上的冗余。視頻壓縮技術(shù)被用于減少視頻數(shù)據(jù)的冗余,許多重要的標(biāo)準(zhǔn)(如MPEG-2,MPEG-4,H.263,H.264/AVC)已被應(yīng)用以減少存儲(chǔ)和傳輸?shù)呢?fù)擔(dān)。Tsai等在中研究了通過視頻傳感器網(wǎng)絡(luò)進(jìn)行智能視頻監(jiān)控的視頻壓縮技術(shù)。通過發(fā)現(xiàn)場(chǎng)景中背景和前景目標(biāo)相聯(lián)系的情境冗余,他們提出了一種新的冗余減少方法。

對(duì)于普遍的數(shù)據(jù)傳輸和存儲(chǔ),數(shù)據(jù)去重(datadeduplication)技術(shù)是專用的數(shù)據(jù)壓縮技術(shù),用于消除重復(fù)數(shù)據(jù)的副本。在存儲(chǔ)去重過程中,一個(gè)唯一的數(shù)據(jù)塊或數(shù)據(jù)段將分配一個(gè)標(biāo)識(shí)并存儲(chǔ),該標(biāo)識(shí)會(huì)加入一個(gè)標(biāo)識(shí)列表。當(dāng)去重過程繼續(xù)時(shí),一個(gè)標(biāo)識(shí)已存在于標(biāo)識(shí)列表中的新數(shù)據(jù)塊將被認(rèn)為是冗余的塊。該數(shù)據(jù)塊將被一個(gè)指向已存儲(chǔ)數(shù)據(jù)塊指針的引用替代。通過這種方式,任何給定的數(shù)據(jù)塊只有一個(gè)實(shí)例存在。去重技術(shù)能夠顯著地減少存儲(chǔ)空間,對(duì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)具有非常重要的作用。

除了前面提到的數(shù)據(jù)預(yù)處理方法,還有一些對(duì)特定數(shù)據(jù)對(duì)象進(jìn)行預(yù)處理的技術(shù),如特征提取技術(shù),在多媒體搜索和DNS分析中起著重要的作用。這些數(shù)據(jù)對(duì)象通常具有高維特征矢量。數(shù)據(jù)變形技術(shù)則通常用于處理分布式數(shù)據(jù)源產(chǎn)生的異構(gòu)數(shù)據(jù),對(duì)處理商業(yè)數(shù)據(jù)非常有用。Gunter在文獻(xiàn)中提出了MapLan,對(duì)瑞士國(guó)家銀行的調(diào)查信息進(jìn)行影射和變形。Wang等在中提出了一種在分布式存儲(chǔ)系統(tǒng)中異構(gòu)感知的數(shù)據(jù)重生成機(jī)制,在異構(gòu)鏈路上傳遞最少的數(shù)據(jù)以保持?jǐn)?shù)據(jù)的完整性。

然而,沒有一個(gè)統(tǒng)一的數(shù)據(jù)預(yù)處理過程和單一的技術(shù)能夠用于多樣化的數(shù)據(jù)集,大家在處理具體問題時(shí),一定要考慮數(shù)據(jù)集的特性、需要解決的問題、性能需求和其他因素選擇合適的數(shù)據(jù)預(yù)處理方案。

(原標(biāo)題:大數(shù)據(jù)流量太龐大?教你三招預(yù)處理)

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論