判定一個數(shù)據(jù)治理計劃的成功與否,也許并沒有一個嚴(yán)格的標(biāo)準(zhǔn)。但總體來說,一個成功的數(shù)據(jù)治理計劃,往往需要通過一定的策略、標(biāo)準(zhǔn)和流程,在整個組織架構(gòu)中有效地、適當(dāng)?shù)厥褂酶哔|(zhì)量數(shù)據(jù)。對于搭建了“數(shù)據(jù)湖”環(huán)境,并且希望借此獲得高質(zhì)量數(shù)據(jù)分析結(jié)果的組織來說,如何對數(shù)據(jù)湖進行治理,也就成為了組織整個數(shù)據(jù)治理計劃的一個重要部分。
但是,如何“打理”好一個龐大的數(shù)據(jù)湖,為組織的IT部門提出了各種挑戰(zhàn)。在開始討論數(shù)據(jù)湖治理的挑戰(zhàn)之前,我們首先有必要明確一下數(shù)據(jù)湖的定義:它是數(shù)據(jù)平臺類型的一種,可容納大量原始數(shù)據(jù),通常以其原生格式保留——直到需要將其用于分析時。
傳統(tǒng)的數(shù)據(jù)倉庫將數(shù)據(jù)存儲在關(guān)系表中,而數(shù)據(jù)湖則使用平面架構(gòu)。每個數(shù)據(jù)元素被分配一個唯一的標(biāo)識符,并用一組元數(shù)據(jù)標(biāo)簽進行標(biāo)記。因此,與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖的結(jié)構(gòu)更少。在訪問數(shù)據(jù)湖中的數(shù)據(jù),將其用于分析時(而不是將數(shù)據(jù)加載到數(shù)據(jù)湖中),將對數(shù)據(jù)進行分類和組織。
有效的數(shù)據(jù)治理使組織能夠提高數(shù)據(jù)質(zhì)量和一致性,并最大程度地利用數(shù)據(jù)進行業(yè)務(wù)決策,從而改善業(yè)務(wù)規(guī)劃和財務(wù)績效。應(yīng)用于數(shù)據(jù)治理的數(shù)據(jù)管理細(xì)分學(xué)科領(lǐng)域包括數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理和數(shù)據(jù)安全性——這些因素都會影響到數(shù)據(jù)湖治理。以下是數(shù)據(jù)湖治理的五個常見挑戰(zhàn):
識別正確的數(shù)據(jù)源,并對其進行維護
在許多數(shù)據(jù)湖中,來源元數(shù)據(jù)往往并沒有被捕獲,或根本不可用,這使得數(shù)據(jù)湖內(nèi)容的有效性并不那么可信。例如,記錄系統(tǒng)或數(shù)據(jù)集的業(yè)務(wù)所有者可能并未列出,或者明顯冗余的數(shù)據(jù)可能都會給數(shù)據(jù)分析人員帶來問題。至少應(yīng)記錄數(shù)據(jù)湖中所有數(shù)據(jù)的來源元數(shù)據(jù),讓用戶可以借此來了解數(shù)據(jù)的來源。
元數(shù)據(jù)管理問題
元數(shù)據(jù)為我們提供了數(shù)據(jù)集內(nèi)容的各種相關(guān)信息,并且能夠使數(shù)據(jù)在應(yīng)用程序中更易于理解和使用。但是許多數(shù)據(jù)湖的實施方案往往忽略了一點,對于收集的數(shù)據(jù)應(yīng)該使用正確的數(shù)據(jù)定義。而且,由于原始數(shù)據(jù)都會被加載到數(shù)據(jù)湖中,因此許多組織并沒有相應(yīng)的步驟去驗證數(shù)據(jù)或?qū)?shù)據(jù)使用組織化的標(biāo)準(zhǔn)。數(shù)據(jù)湖中的數(shù)據(jù)若缺少適當(dāng)?shù)脑獢?shù)據(jù)管理,那么這些數(shù)據(jù)對于分析的用處可能就不會很大。
數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量之間缺乏協(xié)調(diào)
數(shù)據(jù)湖治理和數(shù)據(jù)質(zhì)量工作的不協(xié)調(diào),會使劣質(zhì)數(shù)據(jù)進入數(shù)據(jù)湖。當(dāng)數(shù)據(jù)用于分析且助力業(yè)務(wù)決策時,可能會導(dǎo)致結(jié)果準(zhǔn)確度有所降低,進一步,甚至將使整個組織對數(shù)據(jù)湖喪失信心以及對數(shù)據(jù)的普遍不信任。有效的數(shù)據(jù)湖實施方案,需要數(shù)據(jù)質(zhì)量分析師和工程師與數(shù)據(jù)治理團隊和業(yè)務(wù)數(shù)據(jù)管理員密切合作,以應(yīng)用數(shù)據(jù)質(zhì)量策略,分析數(shù)據(jù)并采取必要的措施來提高其質(zhì)量。
數(shù)據(jù)治理和數(shù)據(jù)安全之間缺乏協(xié)調(diào)
在這種情況下,未在治理流程中正確應(yīng)用的數(shù)據(jù)安全標(biāo)準(zhǔn)和規(guī)則,可能會在訪問受隱私法規(guī)保護的個人數(shù)據(jù)和其他類型的敏感數(shù)據(jù)時遇到一些問題。盡管數(shù)據(jù)湖本身旨在成為一個相當(dāng)開放的數(shù)據(jù)源,但仍需要安全性和訪問控制措施,并且數(shù)據(jù)治理和數(shù)據(jù)安全團隊?wèi)?yīng)在數(shù)據(jù)湖設(shè)計、數(shù)據(jù)裝載過程以及正在進行的數(shù)據(jù)治理工作中協(xié)同努力。
使用同一個數(shù)據(jù)湖的業(yè)務(wù)部門之間可能產(chǎn)生沖突
不同部門對于相似的數(shù)據(jù)可能會有不同的業(yè)務(wù)規(guī)則,可能會因此無法調(diào)和數(shù)據(jù)間的差異來獲得準(zhǔn)確的分析結(jié)果。擁有一個有效的數(shù)據(jù)治理程序,并具有關(guān)于數(shù)據(jù)策略、標(biāo)準(zhǔn)、過程和定義的企業(yè)全局視圖,比如企業(yè)業(yè)務(wù)詞匯表,可以減少當(dāng)多個業(yè)務(wù)部門使用一個數(shù)據(jù)湖時出現(xiàn)的問題。如果企業(yè)有多個數(shù)據(jù)湖,則每個數(shù)據(jù)湖都應(yīng)包含在數(shù)據(jù)治理流程中,并為其分配業(yè)務(wù)數(shù)據(jù)管理員。
總而言之,通過在企業(yè)整個系統(tǒng)架構(gòu)環(huán)境的設(shè)計、建設(shè)和維護過程中,制定有效且合理的數(shù)據(jù)治理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全方案,并由經(jīng)驗豐富的專業(yè)人員積極參與,可以大大提高數(shù)據(jù)湖的價值。否則的話,企業(yè)的數(shù)據(jù)湖很可能將劣化為數(shù)據(jù)沼澤。