“數(shù)據(jù)目錄”這一概念其實并不新鮮,早在大型機時代,企業(yè)就開始通過數(shù)據(jù)目錄跟蹤、管理其數(shù)據(jù)資產(chǎn)。數(shù)據(jù)目錄保存的是與數(shù)據(jù)有關(guān)的數(shù)據(jù),或稱之為元數(shù)據(jù)。一個企業(yè)的數(shù)據(jù)目錄需要記錄遍及整個公司的所有數(shù)據(jù)庫和文件,并為其添加描述,例如,如果有可能的話,對文件與文件之間的關(guān)系進行記錄。
數(shù)據(jù)目錄允許業(yè)務(wù)用戶快速找到他們所需的信息源——無論是資產(chǎn)數(shù)據(jù)、公司的地理位置,還是產(chǎn)品和供應(yīng)商的信息。但是,數(shù)據(jù)目錄只有在保持最新的情況下才能保證有效——而在一個快速變化的行業(yè)中,這可能很難做到。
元數(shù)據(jù)和數(shù)據(jù)目錄
理解元數(shù)據(jù)的一個簡單方法是用電影來類比。電影存儲在廣播公司的電影庫中,但是您需要保存的不僅僅是電影的標(biāo)題。重要的是要知道這部電影的時長是多少、里面有哪些演員、誰是導(dǎo)演、誰是編劇、以及關(guān)于劇本的信息,所有這些都是關(guān)于電影的元數(shù)據(jù)。
想必大家對數(shù)據(jù)目錄、數(shù)據(jù)字典和業(yè)務(wù)術(shù)語表等概念也已經(jīng)大概了解了。業(yè)務(wù)術(shù)語表針對的是業(yè)務(wù)用戶,而數(shù)據(jù)詞典針對的是更懂技術(shù)的受眾,兩者之間存在著細微的差別。不過這三個概念都明顯與元數(shù)據(jù)有關(guān)——而且它們都面臨著類似的挑戰(zhàn)。
企業(yè)數(shù)據(jù)目錄的挑戰(zhàn)
早期的數(shù)據(jù)目錄主要關(guān)注技術(shù)數(shù)據(jù),比如數(shù)據(jù)庫中有多少字段、字段是基于數(shù)字還是基于字符、字段有多長以及它是否有一個有效值范圍。后來,該定義被擴展為包括關(guān)于業(yè)務(wù)數(shù)據(jù)類型的信息,甚至包括該數(shù)據(jù)的定義,例如什么是“客戶”、“產(chǎn)品”或“資產(chǎn)”。
其中有一個關(guān)鍵問題在于,企業(yè)數(shù)據(jù)目錄可能會過時。通常情況下,熱心的員工會輸入關(guān)于各種系統(tǒng)和數(shù)據(jù)庫內(nèi)容的信息,但是卻沒有什么動力來時刻保證這些信息都是最新的。當(dāng)新系統(tǒng)部署完成、整個公司被收購且它們的系統(tǒng)被添加到企業(yè)投資組合中,或者進行重組時,那些費力輸入的描述性元數(shù)據(jù)會變得過時,以至于不再受信任,然后就不用了。
雖然許多公司花了很多精力來實現(xiàn)有效的目錄,但是隨著業(yè)務(wù)的快速變化,很少有公司會持續(xù)努力保持企業(yè)數(shù)據(jù)目錄完全同步。因此,盡管今年來有幾家軟件供應(yīng)商提供了數(shù)據(jù)目錄、數(shù)據(jù)字典和業(yè)務(wù)術(shù)語表等產(chǎn)品服務(wù),但并未得到真正意義上的廣泛普及。
AI和企業(yè)數(shù)據(jù)目錄
在數(shù)據(jù)量和數(shù)據(jù)種類不斷增加的時代,讓企業(yè)數(shù)據(jù)目錄保持最新,已經(jīng)變得越來越困難。但是,人工智能等技術(shù)的應(yīng)用,獲取可以對此狀況有所改變。
機器學(xué)習(xí)應(yīng)用程序可以篩選企業(yè)數(shù)據(jù)目錄和文件系統(tǒng),自動收集元數(shù)據(jù)標(biāo)記,整個過程類似于谷歌在互聯(lián)網(wǎng)上搜索網(wǎng)站并進行編目和索引的方式。將此技術(shù)應(yīng)用于數(shù)據(jù)目錄,可以幫助企業(yè)實現(xiàn)自動填充和更新——不需要人工干預(yù)。這可以解決阻礙企業(yè)數(shù)據(jù)目錄的關(guān)鍵問題:需要人工做許多繁復(fù)的工作??梢灶A(yù)見,人工智能很可能將幫助數(shù)據(jù)目錄市場蓬勃發(fā)展。
原文作者:Andy Hayler