數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。打江山容易,守江山難,收集數(shù)據(jù)簡(jiǎn)單,維護(hù)數(shù)據(jù)難。為提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)的有效性,很多公司都會(huì)運(yùn)用數(shù)據(jù)清洗的方式對(duì)數(shù)據(jù)流經(jīng)的每一環(huán)節(jié)進(jìn)行考察,從而得到滿足預(yù)期要求的數(shù)據(jù)。
1,分析數(shù)據(jù)并定義清洗規(guī)則
首先定義錯(cuò)誤類型,通過全面詳盡的數(shù)據(jù)分析來檢測(cè)數(shù)據(jù)中的錯(cuò)誤或不一致情況,包括手工檢查數(shù)據(jù)樣本和通過計(jì)算機(jī)自動(dòng)分析程序來發(fā)現(xiàn)數(shù)據(jù)集中存在的缺陷。然后,根據(jù)數(shù)據(jù)分析的結(jié)果來定義數(shù)據(jù)清洗規(guī)則,并選擇合適的數(shù)據(jù)清洗算法。
2,搜尋并標(biāo)識(shí)錯(cuò)誤實(shí)例
手工檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤需要花費(fèi)大量時(shí)間和精力,成本高昂且這個(gè)過程本身容易出錯(cuò)。因此,一般傾向于利用高效的檢測(cè)方法來自動(dòng)榴尋數(shù)據(jù)集中存在的各婁錯(cuò)誤,佩括數(shù)。據(jù)佰是否符合字段域、業(yè)務(wù)規(guī)則,或是否存在重復(fù)記錄等。常用的檢測(cè)方法主要有:基于統(tǒng)計(jì)的方法、聚類方法和關(guān)聯(lián)規(guī)則方法。消除重復(fù)記錄首先要檢測(cè)出標(biāo)識(shí)同一個(gè)實(shí)體的重復(fù)記錄,即匹配與合并過程。檢測(cè)重復(fù)記錄的算法主要有:字段匹配算法、Smith-Waterman算法和Cosine相似度函數(shù)。
3,糾正發(fā)現(xiàn)的錯(cuò)誤
在原始數(shù)據(jù)集上執(zhí)行預(yù)定義并已得到驗(yàn)證的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則,修正檢測(cè)到的錯(cuò)誤數(shù)據(jù),或處理冗余和不一致的數(shù)據(jù)。需要注意,當(dāng)在源數(shù)據(jù)上進(jìn)行數(shù)據(jù)清洗時(shí),應(yīng)備份源數(shù)據(jù),以防需要撤銷清洗操作。根據(jù)“臟”數(shù)據(jù)存在的形式,執(zhí)行一系列的數(shù)據(jù)清除和數(shù)據(jù)格式轉(zhuǎn)換步驟來解決模式層和實(shí)例層的數(shù)據(jù)質(zhì)量問題。為了使數(shù)據(jù)匹配和合并變得方便,應(yīng)該將數(shù)據(jù)屬性值轉(zhuǎn)換成統(tǒng)一的格式。
4,“干凈”數(shù)據(jù)回流
當(dāng)完成數(shù)據(jù)清洗后,應(yīng)用文檔記錄錯(cuò)誤實(shí)例和錯(cuò)誤類型,并修改數(shù)據(jù)錄入程序以減少可能的錯(cuò)誤。同時(shí),用“干凈”的數(shù)據(jù)替換原始數(shù)據(jù)集中的“臟”數(shù)據(jù),以便提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免再次抽取數(shù)據(jù)后進(jìn)行重復(fù)的清洗工作。,
5,數(shù)據(jù)清洗的評(píng)判
數(shù)據(jù)清洗執(zhí)行完畢后,有必要對(duì)數(shù)據(jù)清洗的效果進(jìn)行評(píng)價(jià)。數(shù)據(jù)清洗的評(píng)價(jià)標(biāo)準(zhǔn)主要包括兩個(gè)方面:數(shù)據(jù)的可信性和數(shù)據(jù)的可用性。數(shù)據(jù)可信性包括數(shù)據(jù)精確性、完整性、一致性、有效性和唯一性等指標(biāo)。精確性描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致;完整性描述數(shù)據(jù)是否存在缺失記錄或缺失宇段:一致性描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致:有效性描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的閡值范圍內(nèi);唯一性描述數(shù)據(jù)是否存在重復(fù)記錄。
數(shù)據(jù)的可用性考察指標(biāo)主要包括時(shí)間性和穩(wěn)定性。時(shí)間性描述數(shù)據(jù)據(jù)還是歷史數(shù)據(jù);穩(wěn)定性描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。
需要指出的是,數(shù)據(jù)清洗是一項(xiàng)十分繁重的工作,數(shù)據(jù)清洗在提高數(shù)據(jù)質(zhì)量的同時(shí)要付出一定的代價(jià),包括投入的時(shí)間、人力和物力成本。通常情況下,大數(shù)據(jù)集的數(shù)據(jù)清洗是一個(gè)系統(tǒng)性的工作,需要多方配合以及大量人員的參與,還需要多種資源的支持。
(原標(biāo)題:大數(shù)據(jù):數(shù)據(jù)清洗流程)