本文來自微信公眾號“談數(shù)據(jù)(ID:learning-bigdata)”,作者石秀峰。
對企業(yè)來講,資產(chǎn)盤點不是一個新鮮的事。
所有企業(yè)都會定期或不定期地對公司的資產(chǎn)、存貨進(jìn)行全部或部分的清點,以確實掌握該期末的企業(yè)存貨數(shù)量、價值,并因此加以改善,加強(qiáng)管理。通過資產(chǎn)盤點查明各項資產(chǎn)的庫存和使用情況,以便合理安排生產(chǎn)經(jīng)營活動,充分利用各項財產(chǎn)物資,加速資金周轉(zhuǎn),提高資產(chǎn)使用效率。這里的“資產(chǎn)”,是指企業(yè)的固定資產(chǎn)。
而數(shù)據(jù)作為企業(yè)一種“特殊資產(chǎn)”,被列入企業(yè)的資產(chǎn)負(fù)債表,是遲早的事情。數(shù)據(jù)資產(chǎn)當(dāng)然也需要盤點,只有對數(shù)據(jù)資源進(jìn)行統(tǒng)籌規(guī)劃,全面梳理,“摸清家底”,才能讓數(shù)據(jù)更好地服務(wù)于企業(yè)的業(yè)務(wù)應(yīng)用。
今天和大家聊一聊,數(shù)據(jù)資產(chǎn)的梳理和盤點!
—01—
為什么需要數(shù)據(jù)資產(chǎn)盤點?
“數(shù)字化”在當(dāng)今社會,已成為最熱門的話題之一,而數(shù)據(jù)是實現(xiàn)“數(shù)字化”的基礎(chǔ)。企業(yè)推進(jìn)數(shù)字化的進(jìn)程中,遇到的首要問題是“無數(shù)據(jù)可用和無可用數(shù)據(jù)”。
無數(shù)據(jù)可用,并不是企業(yè)真的沒有任何數(shù)據(jù),恰恰相反的是,對于一些大型企業(yè)已經(jīng)建設(shè)了幾十個、甚至上百個應(yīng)用系統(tǒng),這些系統(tǒng)實際上都沉淀了大量的數(shù)據(jù),但由于缺乏對這些數(shù)據(jù)資源的統(tǒng)籌規(guī)劃和全面梳理,導(dǎo)致企業(yè)并不清楚自己有哪些數(shù)據(jù),有多少數(shù)據(jù),數(shù)據(jù)都在哪里,進(jìn)而導(dǎo)致企業(yè)“無數(shù)據(jù)可用”
無可用數(shù)據(jù),是由于數(shù)據(jù)都分散在各個應(yīng)用系統(tǒng)中,缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),系統(tǒng)彼此之間無法很好地通信,從而形成了一個個信息孤島,并且每個系統(tǒng)的數(shù)據(jù)質(zhì)量層次不齊、標(biāo)準(zhǔn)不一,敏感數(shù)據(jù)未進(jìn)行有效處理等等。這些問題的存在,導(dǎo)致企業(yè)數(shù)字化過程中,無可用的數(shù)據(jù)。
數(shù)據(jù)資產(chǎn)盤點解決以上問題的主要手段之一,通過對企業(yè)擁有的數(shù)據(jù)進(jìn)行清點將幫助企業(yè)弄清楚以下問題:
1.企業(yè)有哪些數(shù)據(jù)?關(guān)注數(shù)據(jù)的分類;
2.企業(yè)有多少數(shù)據(jù)?關(guān)注數(shù)據(jù)的存量、增量;
3.企業(yè)的數(shù)據(jù)存儲在什么地方?關(guān)注數(shù)據(jù)的存儲和取用方式;
4.企業(yè)的數(shù)據(jù)是由誰在管理?關(guān)注數(shù)據(jù)的歸屬部門和責(zé)任人;
5.識別哪些是重要數(shù)據(jù),哪些是敏感數(shù)據(jù)?關(guān)注數(shù)據(jù)的分級、共享條件和范圍。
—02—
數(shù)據(jù)資產(chǎn)盤點從哪里開始?
企業(yè)的數(shù)據(jù)散落在各個異構(gòu)系統(tǒng)、甚至業(yè)務(wù)人員電腦中,數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、存儲形式、敏感級別、重要程度各不相同,整體看起來就像是一團(tuán)亂麻的線,想要理出頭緒其實并不容易。
剪不斷,理還亂
不是離愁
是企業(yè)那些不一致、不準(zhǔn)確、不完整,無序、分散、糾纏不清的數(shù)據(jù)
……
企業(yè)數(shù)據(jù)資產(chǎn)的盤點從定義一個合理盤點計劃開始!
1、明確數(shù)據(jù)盤點范圍
數(shù)據(jù)盤點的范圍一般從三個角度定義:(1)組織范圍,即盤點要覆蓋哪些組織和部門,例如:集團(tuán)本部、集團(tuán)+分子公司等。(2)業(yè)務(wù)范圍,即要盤點哪些業(yè)務(wù)的數(shù)據(jù),例如:采購業(yè)務(wù)、營銷業(yè)務(wù)、人力資源業(yè)務(wù)等;(3)系統(tǒng)范圍,即要盤點哪些應(yīng)用系統(tǒng)的數(shù)據(jù),例如:SCM系統(tǒng)、CRM系統(tǒng)、HR系統(tǒng)等。
2、明確數(shù)據(jù)盤點人員
數(shù)據(jù)盤點誰負(fù)責(zé)牽頭,誰負(fù)責(zé)配合、誰負(fù)責(zé)審核?需要投入多少人力資源,需要投入多長時間,是兼職參與還是全職參與?這些問題需要在盤點計劃中進(jìn)行明確定義,并與相關(guān)人員達(dá)成共識。
3、明確數(shù)據(jù)盤點內(nèi)容
數(shù)據(jù)盤點要根據(jù)業(yè)務(wù)的需要,確定哪些內(nèi)容需要理清楚,諸如:
數(shù)據(jù)的分類:采購、營銷、生產(chǎn)、財務(wù)、人事等
數(shù)據(jù)的結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等
數(shù)據(jù)的類型:基礎(chǔ)數(shù)據(jù)、交易數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、時序數(shù)據(jù)等
數(shù)據(jù)的存儲:SQL數(shù)據(jù)庫、文件存儲、流式數(shù)據(jù)等;
數(shù)據(jù)的敏感等級:核心、重要、一般等
數(shù)據(jù)的共享類型:不共享、有條件共享、無條件共享等
數(shù)據(jù)的開放類型:不予開放、有條件開放、無條件開放等
數(shù)據(jù)的存量:多少條目、多大容量等;
4、明確盤點的計劃表
數(shù)據(jù)盤點應(yīng)該有計劃的一步步推進(jìn),例如什么時間開始、什么時間結(jié)束、什么時間發(fā)布都需要定義清楚。
在明確了以上四個問題之后,您的數(shù)據(jù)盤點之旅就可以開啟了!
—03—
數(shù)據(jù)資產(chǎn)應(yīng)該由誰來盤點?
大家知道,企業(yè)固定資產(chǎn)的盤點一般是由財務(wù)部門牽頭,固定資產(chǎn)的管理部門和使用部門共同配合進(jìn)行清點核對,以保證賬實相符。
而數(shù)據(jù)作為一種特殊的資產(chǎn),確權(quán)難、虛擬性、可復(fù)制是其主要特征,這也為數(shù)據(jù)資產(chǎn)盤點造成了一定的困難。數(shù)據(jù)資產(chǎn)盤點,到底是應(yīng)該誰負(fù)責(zé)牽頭,誰負(fù)責(zé)配合、誰負(fù)責(zé)審核,這個問題理不清楚,數(shù)據(jù)盤點工作的將很難推進(jìn)!
數(shù)據(jù)資產(chǎn)盤點的原則是“誰生產(chǎn),誰負(fù)責(zé)”,“誰使用,誰負(fù)責(zé)”,“誰管理,誰負(fù)責(zé)”,一般來說,業(yè)務(wù)部門既是數(shù)據(jù)的生產(chǎn)部門,也是數(shù)據(jù)的主要使用部門,而IT部門往往負(fù)責(zé)數(shù)據(jù)的管理。
理想情況下,數(shù)據(jù)的盤點應(yīng)該由業(yè)務(wù)部門牽頭,因為他們更熟悉自己的數(shù)據(jù),很多教材和課本上都是這么說的。但在實際項目中,我們看到數(shù)據(jù)盤點還是以IT部門牽頭的居多。
“業(yè)務(wù)離數(shù)據(jù)更近,更熟悉數(shù)據(jù),這沒錯”,但是業(yè)務(wù)部門往往只熟悉自己負(fù)責(zé)的那一部分,缺乏全局思維和整體視角。所以,由業(yè)務(wù)部門牽頭的數(shù)據(jù)資產(chǎn)盤點,容易造成“盲人摸象”,過程中會遇到諸多問題而使盤點變得低效。
因此筆者認(rèn)為,企業(yè)數(shù)據(jù)資產(chǎn)的盤點需要找到一個具有全局思維的人來進(jìn)行統(tǒng)籌,規(guī)劃出數(shù)據(jù)盤點的相關(guān)原則、框架和藍(lán)圖,定義出數(shù)據(jù)盤點的內(nèi)容,制定出數(shù)據(jù)盤點的模板,再由生產(chǎn)或使用數(shù)據(jù)的業(yè)務(wù)部門執(zhí)行梳理,完成數(shù)據(jù)盤點工作。這個統(tǒng)籌的人可以是IT部門、數(shù)據(jù)管理部門,或是外部聘請的數(shù)據(jù)專家。
—04—
數(shù)據(jù)資產(chǎn)盤點的基本方法
數(shù)據(jù)資產(chǎn)盤點有兩個基本方法:自上而下梳理和自下而上盤點可以幫助我們梳理出企業(yè)的數(shù)據(jù)資產(chǎn)清單或稱數(shù)據(jù)資產(chǎn)目錄。這兩個方法是配合使用,構(gòu)成了數(shù)據(jù)資產(chǎn)盤點的兩個方面。
1、自上而下梳理
自上而下梳理是一種以業(yè)務(wù)視角進(jìn)行數(shù)據(jù)梳理的方式,通過對企業(yè)的相關(guān)制度文件、職能體系、業(yè)務(wù)流程、業(yè)務(wù)單據(jù)等進(jìn)行全面分析,逐層分解,梳理數(shù)據(jù)資產(chǎn)的三級目錄、業(yè)務(wù)屬性和相關(guān)管理屬性。
三級目錄,即數(shù)據(jù)資產(chǎn)的分類,是按照業(yè)務(wù)視角對企業(yè)數(shù)據(jù)資產(chǎn)的梳理和分解,例如:數(shù)據(jù)域-數(shù)據(jù)主題-數(shù)據(jù)子主題-數(shù)據(jù)對象,(注:三級目錄不限于三級,但一般建議控制在五級之內(nèi)為宜)。
業(yè)務(wù)屬性,即用來描述數(shù)據(jù)資產(chǎn)的業(yè)務(wù)元數(shù)據(jù)。如上圖所示,常見業(yè)務(wù)屬性包括:所屬數(shù)據(jù)域、數(shù)據(jù)主題等分類屬性,數(shù)據(jù)對象、業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、敏感等級等。
管理屬性,即用來描述數(shù)據(jù)資產(chǎn)的管理、維護(hù)、使用相關(guān)元數(shù)據(jù)。如上圖所示,常見管理屬性包括:管理部門、管理人員、聯(lián)系方式、更新頻率、最后更新時間、數(shù)據(jù)共享條件等。(注:業(yè)務(wù)視角下,數(shù)據(jù)資產(chǎn)的管理屬性可能無法全部梳理出來,這就需要在技術(shù)盤點環(huán)節(jié)對其進(jìn)行補(bǔ)充完善)
2、自下而上盤點
數(shù)據(jù)資產(chǎn)盤點的另一個方面是以技術(shù)的視角,從IT系統(tǒng)--數(shù)據(jù)庫表--數(shù)據(jù)結(jié)構(gòu)出發(fā),進(jìn)行自下而上歸納,逐步明確數(shù)據(jù)資產(chǎn)相關(guān)的系統(tǒng)信息項(技術(shù)屬性)。
技術(shù)屬性,即用來描述數(shù)據(jù)資產(chǎn)的技術(shù)元數(shù)據(jù)。如上圖所示,常見技術(shù)屬性包括:來源系統(tǒng)、數(shù)據(jù)庫表、字段類型、字段格式、取值范圍、存儲方式、血緣關(guān)系等。
最后,對業(yè)務(wù)視角的梳理出的目錄中數(shù)據(jù)項與技術(shù)視角的盤點出的系統(tǒng)信息項進(jìn)行關(guān)聯(lián),建立起兩者的映射關(guān)系,這樣一個完整的數(shù)據(jù)資源目錄就成型了。通過數(shù)據(jù)資產(chǎn)目錄可以從多個視角(業(yè)務(wù)或IT)進(jìn)行數(shù)據(jù)的查找,并確保目錄中的每個數(shù)據(jù)項都可以在真實的IT系統(tǒng)中找到。
—05—
數(shù)據(jù)資產(chǎn)盤點的基本流程
企業(yè)數(shù)據(jù)資產(chǎn)梳理和盤點一般可分為以下五個步驟,如下圖:
1、制定盤點計劃:該階段需要確定盤點范圍、盤點目標(biāo)、盤點內(nèi)容、盤點人員、時間計劃(具體上文已說明,此處不再贅述);
2、制定盤點模板:該階段需要根據(jù)盤點內(nèi)容,制定數(shù)據(jù)梳理模板并定義數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn)項。內(nèi)部對盤點工作進(jìn)行培訓(xùn)和宣貫,相關(guān)人員對盤點范圍、目標(biāo)、內(nèi)容等達(dá)成共識,理解并學(xué)會數(shù)據(jù)資產(chǎn)梳理模板的使用。
圖片來源:知乎,作者檀興
3、數(shù)據(jù)資產(chǎn)盤點:一方面,從業(yè)務(wù)視角對數(shù)據(jù)資源進(jìn)行梳理和規(guī)劃,包括:制度文件的解讀、流程表單梳理、關(guān)鍵數(shù)據(jù)的識別等,并定義數(shù)據(jù)的分類體系和數(shù)據(jù)資產(chǎn)的業(yè)務(wù)屬性。另一方面,從技術(shù)視角對系統(tǒng)數(shù)據(jù)進(jìn)行盤點,包括:系統(tǒng)數(shù)據(jù)探查、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存量、數(shù)據(jù)增量、存儲方式等,并定義數(shù)據(jù)資產(chǎn)的技術(shù)屬性。
4、盤點成果評審:針對梳理出來的數(shù)據(jù)資產(chǎn)清單、核心數(shù)據(jù)模型、數(shù)據(jù)分布圖圖等成果物進(jìn)行評審和意見征集,并根據(jù)反饋意見完成相關(guān)成果物問題修訂。
5、發(fā)布與應(yīng)用:數(shù)據(jù)資產(chǎn)盤點成果的發(fā)布,并不是將數(shù)據(jù)資產(chǎn)清單以郵件或其他方式發(fā)布出去就行了,而是需要搭建起來專業(yè)的數(shù)據(jù)資產(chǎn)管理平臺,通過平臺落地數(shù)據(jù)資產(chǎn)目錄,將數(shù)據(jù)資產(chǎn)以“服務(wù)”的形式進(jìn)行發(fā)布,實現(xiàn)數(shù)據(jù)資產(chǎn)在企業(yè)內(nèi)的共享,以及面向外部的數(shù)據(jù)開放。
—06—
數(shù)據(jù)目錄VS數(shù)據(jù)資產(chǎn)目錄
數(shù)據(jù)資產(chǎn)盤點的一個重要成果物是“數(shù)據(jù)資產(chǎn)目錄”。
在上一篇文章《數(shù)據(jù)管理、數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理,到底有何不同?》中,我們留了一個問題:數(shù)據(jù)目錄和數(shù)據(jù)資產(chǎn)目錄到底有什么不同?
先來看看讀者朋友(都是業(yè)內(nèi)大咖)在上篇文章留言中提供的觀點:(注:很多條留言,我只選取了兩條與本題目相關(guān)的)
有恒:誠如石老師文中所言,數(shù)據(jù)資產(chǎn)是數(shù)據(jù)的子集。因此,數(shù)據(jù)資產(chǎn)目錄是數(shù)據(jù)目錄的子集。數(shù)據(jù)目錄范圍更大,組織的所有數(shù)據(jù)都可以納入數(shù)據(jù)目錄,而只有那些能產(chǎn)生價值,實現(xiàn)組織業(yè)務(wù)增值的數(shù)據(jù)才算數(shù)據(jù)資產(chǎn),才能納入數(shù)據(jù)資產(chǎn)目錄。
袁總:數(shù)據(jù)資產(chǎn)管理的目的是滿足利益相關(guān)者的數(shù)據(jù)需求。抓住這一點,道理就通順了。數(shù)據(jù)資產(chǎn)管理與生活中的數(shù)據(jù)治理的區(qū)別就是,數(shù)據(jù)資產(chǎn)管理,經(jīng)由利益相關(guān)者溝通,可以借用工業(yè)化知識積累,確定分析體系,體系自帶工具,工具自帶數(shù)據(jù)要求,落實內(nèi)部和外部數(shù)據(jù)來源后,正常處理就好了。生活中的數(shù)據(jù)治理聚焦于內(nèi)部數(shù)據(jù),由基層工作人員進(jìn)行無依據(jù)和無充分依據(jù)找工具,把工具拼湊成不完整體系,也很難與利益相關(guān)者溝通,基本上就是垃圾進(jìn)垃圾出。
結(jié)合以上兩位老師觀點,談一下筆者的淺薄理解:
從本質(zhì)上來講,不論是數(shù)據(jù)目錄還是數(shù)據(jù)資產(chǎn)目錄,都有“字典”的含義,都是為了定位數(shù)據(jù),解釋數(shù)據(jù),以及幫助用戶快速找到數(shù)據(jù)的。這是兩個目錄的共同點。
在項目實踐中,數(shù)據(jù)目錄更多是指通過元數(shù)據(jù)管理工具,對相關(guān)數(shù)據(jù)源(業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等)的元數(shù)據(jù)進(jìn)行采集,而形成的數(shù)據(jù)目錄。由于直接采集過來的基本都是數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)流、ETL腳本、數(shù)據(jù)庫操作日志等技術(shù)元數(shù)據(jù),所以數(shù)據(jù)目錄要有一定的技術(shù)基礎(chǔ)才能看懂,而且它的定位就是給技術(shù)人員看的,例如:ETL工程師、BI工程師、開發(fā)工程師。
而數(shù)據(jù)資產(chǎn)目錄的不同在于:
第一,數(shù)據(jù)資產(chǎn)目錄是站在業(yè)務(wù)的視角,以利益相關(guān)者的數(shù)據(jù)需求為目標(biāo)進(jìn)行數(shù)據(jù)資源體系規(guī)劃的,例如:數(shù)據(jù)業(yè)務(wù)屬性的定義,數(shù)據(jù)域的劃分,分類分級體系的建設(shè),數(shù)據(jù)共享和開放的設(shè)計等都是以業(yè)務(wù)使用為基礎(chǔ)的,這樣就形成了一個業(yè)務(wù)人員能夠看得懂的數(shù)據(jù)類目結(jié)構(gòu)。因此,在整個目錄體系梳理和編目的過程中,業(yè)務(wù)人員參與是關(guān)鍵,是目錄體系使用和推廣的保證。
第二,數(shù)據(jù)資產(chǎn)目錄需要對每個編目的數(shù)據(jù)資源進(jìn)行確權(quán)認(rèn)責(zé),明確數(shù)據(jù)資產(chǎn)的管理權(quán)、使用權(quán),并確定它的共享條件和范圍。
第三,數(shù)據(jù)資產(chǎn)目錄管理的是數(shù)據(jù)資產(chǎn),即:那些使用頻率比較高,能夠為業(yè)務(wù)帶來價值的數(shù)據(jù)。如何實現(xiàn)呢?這就需要數(shù)據(jù)資產(chǎn)目錄具備“打標(biāo)簽/標(biāo)注”的功能,通過識別數(shù)據(jù)的特征、含義、數(shù)據(jù)質(zhì)量、使用頻率,使用場景、使用對象等對數(shù)據(jù)對象進(jìn)行打標(biāo)簽。標(biāo)注的方式可以是人工打標(biāo)簽,更先進(jìn)的是通過機(jī)器學(xué)習(xí)、模型訓(xùn)練的方式自動給數(shù)據(jù)進(jìn)行分類和打標(biāo)簽。
最后,數(shù)據(jù)資產(chǎn)目錄當(dāng)然也需要用到元數(shù)據(jù)工具,采集和管理技術(shù)元數(shù)據(jù)。并通過數(shù)據(jù)關(guān)系映射,將數(shù)據(jù)資產(chǎn)目錄映射到物理庫表和字段上,以實現(xiàn)從多個視角都能夠找到想要數(shù)據(jù)。