企業(yè)如何進(jìn)行數(shù)據(jù)治理,會(huì)采用不同的方法和路徑。就大部分企業(yè)而言,以下三步是數(shù)據(jù)治理方案落地的必經(jīng)之路。
第一步對(duì)企業(yè)數(shù)據(jù)進(jìn)行歸集和標(biāo)準(zhǔn)化。
信息化領(lǐng)域有一個(gè)說(shuō)法就是“垃圾進(jìn),垃圾出”,意指用臟亂的數(shù)據(jù)做樣本,產(chǎn)生的研究成果也是毫無(wú)價(jià)值的。數(shù)據(jù)的污染可能發(fā)生在數(shù)據(jù)產(chǎn)生、采集、傳輸、流轉(zhuǎn)、加工、存儲(chǔ)、提取、交換等各個(gè)環(huán)節(jié),因此要保證數(shù)據(jù)治理目標(biāo)的實(shí)現(xiàn),就必須對(duì)數(shù)據(jù)進(jìn)行全流程的管控,要在數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)文件交換、元數(shù)據(jù)、數(shù)據(jù)生命周期、主輔數(shù)據(jù)源、數(shù)據(jù)安全、數(shù)據(jù)責(zé)任等方面形成統(tǒng)一的數(shù)據(jù)治理規(guī)范。
第二步就是數(shù)據(jù)模型管理和標(biāo)簽梳理。
數(shù)據(jù)治理的核心是數(shù)據(jù)模型管理。目前企業(yè)原始數(shù)據(jù)庫(kù)中存在大量的字段和表沒(méi)有注釋,意思含糊不清,同名不同義、同義不同名,冗余字段、枚舉值不一致的現(xiàn)象普遍存在。這些問(wèn)題都會(huì)直接影響系統(tǒng)對(duì)數(shù)據(jù)的識(shí)別。數(shù)據(jù)建模讓數(shù)據(jù)結(jié)構(gòu)更加豐富和結(jié)構(gòu)清晰化,便于數(shù)據(jù)口徑統(tǒng)一。企業(yè)沉淀了大量數(shù)據(jù)模型之后,要及時(shí)做保留或刪除管理,不做數(shù)據(jù)模型管控,那么這些歷史問(wèn)題會(huì)給新一代系統(tǒng)改造帶來(lái)很多困擾。
除此之外,數(shù)據(jù)標(biāo)簽是對(duì)數(shù)據(jù)實(shí)體特征的符號(hào)表示,每一個(gè)數(shù)據(jù)標(biāo)簽都是我們認(rèn)識(shí)、觀察和描述數(shù)據(jù)實(shí)體的一個(gè)角度。因此內(nèi)部統(tǒng)一標(biāo)簽也至關(guān)重要。商品標(biāo)簽包含了條碼、規(guī)格、口味、圖片、包裝等信息。顧客標(biāo)簽包括性別、年齡、地區(qū)、興趣愛(ài)好、產(chǎn)品偏好、購(gòu)買力、忠誠(chéng)度等等。
在實(shí)際的數(shù)據(jù)治理中,數(shù)據(jù)資源目錄、數(shù)據(jù)分類、數(shù)據(jù)標(biāo)簽是相互配合、相輔相成的。建立良好的數(shù)據(jù)資源目錄的第一步就是明確數(shù)據(jù)資源的分類,根據(jù)數(shù)據(jù)分類去組織資源、編目,之后是為數(shù)據(jù)資源打上數(shù)據(jù)標(biāo)簽,讓數(shù)據(jù)資源更貼近用戶、更容易管理,以便充分發(fā)揮出數(shù)據(jù)的價(jià)值。
第三步是企業(yè)算法和人工智能應(yīng)用。
在對(duì)企業(yè)數(shù)據(jù)進(jìn)行歸集和標(biāo)準(zhǔn)化,并對(duì)數(shù)據(jù)模型進(jìn)行管控和標(biāo)簽梳理之后,就可以對(duì)數(shù)據(jù)進(jìn)行管理,并輔之以相應(yīng)算法和人工智能,在具體業(yè)務(wù)場(chǎng)景應(yīng)用。
以數(shù)據(jù)模型管理為例:人工智能可以幫助企業(yè)實(shí)現(xiàn)經(jīng)驗(yàn)?zāi)P团c計(jì)算機(jī)模型的完美融合,構(gòu)建商品和會(huì)員的知識(shí)圖譜。
以元數(shù)據(jù)管理為例:人工智能實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集和關(guān)鍵信息的提取,并實(shí)現(xiàn)元數(shù)據(jù)的維護(hù)和整理。
再以主數(shù)據(jù)管理為例:主數(shù)據(jù)是企業(yè)核心業(yè)務(wù)實(shí)體的數(shù)據(jù),是在整個(gè)價(jià)值鏈上被重復(fù)、共享應(yīng)用與多個(gè)業(yè)務(wù)流程的,并與各個(gè)業(yè)務(wù)部門與各個(gè)系統(tǒng)之間共享的基礎(chǔ)數(shù)據(jù)。在復(fù)雜數(shù)據(jù)主數(shù)據(jù)系統(tǒng)中,機(jī)器學(xué)習(xí),自然語(yǔ)言處理等人工智能技術(shù)可以幫助定義和維護(hù)數(shù)據(jù)匹配規(guī)則,以及確定與主數(shù)據(jù)相關(guān)的記錄,建立交叉引用等規(guī)則。