本文來自談數(shù)據(jù),作者/石秀峰。
數(shù)據(jù)質(zhì)量管理最行之有效的方法就是找出發(fā)生數(shù)據(jù)質(zhì)量問題的根本原因,然后采取相應(yīng)的策略進行解決。首先需要確定根本原因:找到引起數(shù)據(jù)質(zhì)量問題的相關(guān)因素,并區(qū)分它們的優(yōu)先次序,形成解決這些問題的具體改進建議。然后,制定和實施改進方案:確定關(guān)于行動的具體建議和措施,基于這些建議制定并改進方案,預(yù)防未來數(shù)據(jù)質(zhì)量問題的發(fā)生。
—01—
什么是根因分析?
每個問題的發(fā)生都必有其根本原因,數(shù)據(jù)質(zhì)量管理的核心是找到發(fā)生質(zhì)量問題的根本原因,并對其采取改進措施。
1、根因分析的概念
所謂根因分析,就是分析導(dǎo)致數(shù)據(jù)質(zhì)量問題的最基本原因。引起數(shù)據(jù)質(zhì)量問題的原因通常有很多,比如環(huán)境條件、人為因素、系統(tǒng)行為、流程因素等,因此要通過科學(xué)分析,找到問題發(fā)生的根源性原因。根因分析是一個系統(tǒng)化的問題處理過程,包括確定和分析問題原因,找出適當(dāng)?shù)膯栴}解決方案,并制定問題預(yù)防措施。
問題:發(fā)生了哪些數(shù)據(jù)質(zhì)量問題?
原因:為什么發(fā)生這些問題?是人的因素,技術(shù)上的原因,還是流程不合理?
措施:采取什么解決方案能夠防止問題再次發(fā)生?
2、為什么需要根因分析
通常,企業(yè)中的每個人都認(rèn)為擁有良好的數(shù)據(jù)質(zhì)量對業(yè)務(wù)有利,在這一點上非常容易達成共識。尤其是在當(dāng)前的數(shù)字化時代,企業(yè)對數(shù)據(jù)質(zhì)量的關(guān)注超過以往任何時期。
但是,當(dāng)涉及誰應(yīng)該對數(shù)據(jù)質(zhì)量負(fù)責(zé),誰必須對此做些什么,以及誰應(yīng)該為必要的數(shù)據(jù)質(zhì)量管理活動埋單時,事情就會變得復(fù)雜而艱難。我們經(jīng)??吹降氖歉鞑块T相互推諉和指責(zé)。
技術(shù)部門經(jīng)常說:“數(shù)據(jù)的定義和生產(chǎn)都在業(yè)務(wù)部門,所以業(yè)務(wù)部門應(yīng)該對數(shù)據(jù)質(zhì)量負(fù)責(zé)!”
業(yè)務(wù)部門說:“我們輸入的數(shù)據(jù)都是正確的,是你們在數(shù)據(jù)傳輸、加工處理過程中搞錯了!”
在很多情況下,企業(yè)會把數(shù)據(jù)質(zhì)量問題的責(zé)任推給技術(shù)部門,技術(shù)部門成了數(shù)據(jù)質(zhì)量問題的“背鍋俠”。他們盡管有滿腔的怨氣和不滿,但也不得不先去查找和處理問題。如果不明確數(shù)據(jù)問題的根因,這樣的矛盾、指責(zé)、推諉將永無休止!
企業(yè)的數(shù)據(jù)質(zhì)量問題通常只是一個現(xiàn)象,人們往往只看到了數(shù)據(jù)不準(zhǔn)確、不一致、不完整,卻沒有細(xì)致地剖析這些問題發(fā)生的原因。只顧解決表面問題,而不管發(fā)生問題的根本原因,這是當(dāng)前企業(yè)在數(shù)據(jù)問題處理中的普遍現(xiàn)象。企業(yè)試圖通過技術(shù)手段來解決數(shù)據(jù)質(zhì)量問題,例如清理臟數(shù)據(jù),建立對照關(guān)系表,甚至采用AI算法對不完整的數(shù)據(jù)進行插補。筆者并不反對用技術(shù)手段解決數(shù)據(jù)質(zhì)量問題,相反,筆者是非常支持通過技術(shù)改善數(shù)據(jù)質(zhì)量的。
但是,這里要特別強調(diào),在通過技術(shù)手段處理數(shù)據(jù)質(zhì)量問題之前,我們應(yīng)當(dāng)先進行數(shù)據(jù)質(zhì)量問題的根因分析,這有助于我們找到更合適的解決方案,達到事半功倍的效果。不能只看到問題的現(xiàn)象就采取措施,這種急功近利的問題解決辦法“治標(biāo)不治本”,數(shù)據(jù)治理問題免不了要復(fù)發(fā),其結(jié)果是組織不得不一而再、再而三地重復(fù)應(yīng)對同一類問題??梢韵胂?,這樣的問題處理成本肯定是驚人的。
“撥開迷霧見明月”,分析任何問題都應(yīng)該找到問題的本質(zhì)。進行數(shù)據(jù)質(zhì)量問題的根因分析,不僅在于解決業(yè)務(wù)部門和技術(shù)部門的矛盾,更重要的是能夠幫助企業(yè)利益相關(guān)者發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題的癥結(jié)所在,從而找到適當(dāng)?shù)慕鉀Q方案。
—02—
產(chǎn)生數(shù)據(jù)問題的階段
數(shù)據(jù)和人一樣,也是有生命周期的。從出生到死亡,人在一生中可能會得各種各樣的疾病,這些疾病或大或小,或輕或重,要是頭痛腦熱,挺一挺也就過去了,要是重疾,就得治療了。
數(shù)據(jù)也一樣,數(shù)據(jù)的“一生”要經(jīng)歷數(shù)據(jù)規(guī)劃設(shè)計(定義)、數(shù)據(jù)創(chuàng)建、數(shù)據(jù)使用、數(shù)據(jù)老化、數(shù)據(jù)消亡五個階段,每個階段都有可能發(fā)生數(shù)據(jù)質(zhì)量問題。企業(yè)數(shù)據(jù)質(zhì)量管理應(yīng)關(guān)注數(shù)據(jù)生命周期的每個階段。
1、規(guī)劃設(shè)計階段
在規(guī)劃設(shè)計階段,數(shù)據(jù)的定義或設(shè)計不當(dāng)會產(chǎn)生數(shù)據(jù)質(zhì)量問題。比如:在數(shù)據(jù)建模時沒有對數(shù)據(jù)對象進行清晰的定義,存在二義性,導(dǎo)致水果蛋糕和水果味蛋糕分不清。再比如:在建立數(shù)據(jù)庫時,可能會發(fā)現(xiàn)某些數(shù)據(jù)項含糊不清,從而導(dǎo)致不確定是否能夠輸入數(shù)據(jù)、如何輸入數(shù)據(jù)以及在何處輸入數(shù)據(jù)。
例如:程序員小K為某程序創(chuàng)建了一個手機號碼表并對其設(shè)置了手機號碼的約束條件——11位數(shù)字,而這個程序是跨境使用的,這個約束將直接導(dǎo)致部分?jǐn)?shù)據(jù)填寫錯誤,因為國外的手機號碼不一定是11位。
2、數(shù)據(jù)創(chuàng)建階段
在數(shù)據(jù)創(chuàng)建階段,數(shù)據(jù)的錄入不當(dāng)會產(chǎn)生數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)是否正確進入系統(tǒng)?盡管如今企業(yè)的信息系統(tǒng)中有很多功能已經(jīng)實現(xiàn)了自動化,但是仍然無法避免將錯誤或不合格的數(shù)據(jù)輸入系統(tǒng)。數(shù)據(jù)不準(zhǔn)確的問題常常是因為輸入數(shù)據(jù)的人犯了一個不經(jīng)意的錯誤,例如數(shù)據(jù)拼寫錯誤,丟失數(shù)據(jù)記錄,從列表中選擇了錯誤的條目,在輸入框中輸入值時張冠李戴(比如在“客戶名稱”輸入框中錄入了客戶的聯(lián)系信息)。
3、數(shù)據(jù)使用階段
在數(shù)據(jù)使用階段,要關(guān)注是否正確使用和解釋了數(shù)據(jù)。如果企業(yè)需要跨多個系統(tǒng)輸入相同的數(shù)據(jù),例如某“客戶檔案”數(shù)據(jù)要在ERP系統(tǒng)、CRM系統(tǒng)等多個系統(tǒng)中重復(fù)錄入,則很可能會發(fā)生人為錯誤。重新輸入數(shù)據(jù)是一項漫長而艱巨的任務(wù),很容易導(dǎo)致數(shù)據(jù)產(chǎn)生多個版本(數(shù)據(jù)不一致),在沒有任何形式的數(shù)據(jù)驗證時更是如此。這種情況下,進行必要的數(shù)據(jù)集成是很有效果的。
然而,在將數(shù)據(jù)遷移到新系統(tǒng)或整合系統(tǒng)數(shù)據(jù)時,也會給企業(yè)帶來數(shù)據(jù)質(zhì)量風(fēng)險。在數(shù)據(jù)的集成和傳輸過程中,數(shù)據(jù)的值可能不規(guī)則、丟失或放錯位置,甚至通過簡單的電子表格導(dǎo)出/導(dǎo)入也可能會發(fā)生不一致問題。
4、數(shù)據(jù)老化階段
數(shù)據(jù)不是靜止的,它可能隨時發(fā)生變化。你現(xiàn)在的手機號碼或職務(wù)是否仍然與兩年前的相同?你的信息會發(fā)生變化,你的客戶也一樣。企業(yè)應(yīng)該注意保持?jǐn)?shù)據(jù)是最新的,否則數(shù)據(jù)會“過期失效”,這將會對你的業(yè)務(wù)產(chǎn)生很大影響。
5、數(shù)據(jù)消亡階段
在數(shù)據(jù)消亡階段,對使用完的數(shù)據(jù)進行歸檔及銷毀操作。通常來說,數(shù)據(jù)歸檔和數(shù)據(jù)銷毀可以再分為兩個階段,前一個階段關(guān)注數(shù)據(jù)被正確歸檔,后一個階段關(guān)注數(shù)據(jù)被安全銷毀。這與數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全及個人隱私保護都有關(guān)系。
—03—
產(chǎn)生數(shù)據(jù)問題的原因
數(shù)據(jù)研究機構(gòu)Experian Data Quality的一項研究發(fā)現(xiàn),在數(shù)據(jù)不準(zhǔn)確的主要原因中,59%是人為因素,其中31%是部門之間缺乏溝通,24%是數(shù)據(jù)管理策略不充分。
這項研究中的數(shù)據(jù)告訴我們,數(shù)據(jù)質(zhì)量問題的主要原因集中在企業(yè)經(jīng)營管理、業(yè)務(wù)應(yīng)用和技術(shù)操作3個層面,如圖所示。
圖:產(chǎn)生數(shù)據(jù)質(zhì)量問題的3個層面
1、經(jīng)營管理層面
(1)企業(yè)的發(fā)展和并購
隨著企業(yè)規(guī)模的不斷擴大,很多企業(yè)選擇通過并購快速布局新市場或新業(yè)態(tài),以實現(xiàn)多元化業(yè)態(tài)的創(chuàng)新升級。企業(yè)在并購的過程中需要將兩家公司的數(shù)據(jù)以某種方式合并,兩家公司可能使用完全不同的數(shù)據(jù)系統(tǒng),系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,因而會產(chǎn)生各種摩擦和問題。
(2)缺乏有效管理策略
很多企業(yè)的信息化現(xiàn)狀都是先建設(shè)后治理。
早期缺乏整體的數(shù)據(jù)規(guī)劃,沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和明確的數(shù)據(jù)質(zhì)量目標(biāo),導(dǎo)致不同的業(yè)務(wù)部門在處理業(yè)務(wù)時,容易出現(xiàn)數(shù)據(jù)沖突或矛盾。
缺乏有效的數(shù)據(jù)認(rèn)責(zé)機制,沒有明確數(shù)據(jù)歸口管理部門和崗位職責(zé),導(dǎo)致出現(xiàn)數(shù)據(jù)質(zhì)量問題時找不到負(fù)責(zé)人,各業(yè)務(wù)部門之間相互推諉。
缺乏有效的數(shù)據(jù)管理制度和流程,數(shù)據(jù)質(zhì)量問題從發(fā)現(xiàn)、指派、處理到優(yōu)化沒有統(tǒng)一的流程和制度,導(dǎo)致數(shù)據(jù)質(zhì)量問題的解決沒有流程上的保障。對于歷史數(shù)據(jù)質(zhì)量檢查、新增數(shù)據(jù)質(zhì)量校驗沒有明確有效的控制措施,導(dǎo)致數(shù)據(jù)質(zhì)量問題無法考核。
(3)缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)質(zhì)量管理中的一大挑戰(zhàn)是使各個部門達成一致。如果缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),對于同一數(shù)據(jù)理解不一致,業(yè)務(wù)之間的協(xié)作和溝通就如同“雞同鴨講”。數(shù)據(jù)標(biāo)準(zhǔn)是企業(yè)數(shù)據(jù)管理的第一道防線,然而遺憾的是,很多企業(yè)對數(shù)據(jù)標(biāo)準(zhǔn)的重視程度不足,它們對數(shù)據(jù)的“重視”還停留在口頭上,沒有實際行動。
2、業(yè)務(wù)應(yīng)用層面
(1)數(shù)據(jù)需求模糊不清
數(shù)據(jù)需求不清晰,對于數(shù)據(jù)的定義、業(yè)務(wù)規(guī)則描述不清晰,導(dǎo)致建模人員無法構(gòu)建出合理、正確的數(shù)據(jù)模型。我們經(jīng)常見到在需求階段業(yè)務(wù)人員對需求的描述不清楚,等到數(shù)據(jù)應(yīng)用開發(fā)完后,他們卻發(fā)現(xiàn)結(jié)果不是自己想要的,于是就開始了永不休止的需求變更,最終技術(shù)人員和業(yè)務(wù)人員相互不滿意。
需求描述不清、頻繁的需求變更對數(shù)據(jù)質(zhì)量的影響非常大,需求一變,數(shù)據(jù)模型設(shè)計、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)傳輸、數(shù)據(jù)存儲等環(huán)節(jié)都要跟著改變,即使再謹(jǐn)慎也難以避免數(shù)據(jù)質(zhì)量問題。
(2)錄入數(shù)據(jù)不規(guī)范
業(yè)務(wù)部門既是數(shù)據(jù)需求的提出方,也是數(shù)據(jù)的生產(chǎn)方。業(yè)務(wù)部門的人為因素是造成企業(yè)數(shù)據(jù)質(zhì)量低下的一個非常重要的原因。常見的人為因素有拼寫錯誤,將數(shù)據(jù)輸入不匹配的字段,大小寫、全半角、特殊字符錄錯等,這些都會導(dǎo)致數(shù)據(jù)輸入不規(guī)范問題。在技術(shù)上做一些輸入控制和校驗?zāi)軌驕p輕這個問題,但始終很難避免。
3.技術(shù)操作層面
(1)數(shù)據(jù)設(shè)計過程
在設(shè)計階段對數(shù)據(jù)模型質(zhì)量的關(guān)注不足,需求理解不到位,甚至沒有與業(yè)務(wù)部門達成共識,結(jié)果可想而知,這樣的設(shè)計帶來的就是永無休止的需求變更。
數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)庫約束條件、數(shù)據(jù)校驗規(guī)則的設(shè)計開發(fā)不合理,就會造成數(shù)據(jù)錄入無法校驗或校驗不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
(2)數(shù)據(jù)傳輸過程
數(shù)據(jù)傳輸包含數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、數(shù)據(jù)存儲等環(huán)節(jié)。
數(shù)據(jù)采集和轉(zhuǎn)換常見的問題,例如采集過程中采集點、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置不正確,或者數(shù)據(jù)采集接口效率低,導(dǎo)致數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
數(shù)據(jù)裝載和存儲常見的問題,例如數(shù)據(jù)存儲設(shè)計不合理,數(shù)據(jù)的存儲能力不夠,在后臺人為調(diào)整數(shù)據(jù),會引起數(shù)據(jù)丟失、數(shù)據(jù)無效、數(shù)據(jù)失真、記錄重復(fù)。
同時,數(shù)據(jù)接口本身也可能存在的問題,例如數(shù)據(jù)接口參數(shù)配置錯誤、網(wǎng)絡(luò)不可靠等都會造成數(shù)據(jù)傳輸過程中發(fā)生數(shù)據(jù)丟失或傳輸錯誤等數(shù)據(jù)問題。
(3)數(shù)據(jù)遷移過程
數(shù)據(jù)遷移是將數(shù)據(jù)從舊系統(tǒng)過渡到新系統(tǒng),或從一個數(shù)據(jù)源遷移到另一個數(shù)據(jù)源。業(yè)務(wù)人員可能很難理解數(shù)據(jù)從一個應(yīng)用系統(tǒng)切換到另一個應(yīng)用系統(tǒng)時會有哪些困難。憑直覺,一個外行會期望事情已經(jīng)“準(zhǔn)備好”,這樣過渡對于業(yè)務(wù)用戶來說既容易又輕松。
但這絕對不符合現(xiàn)實。暫且不說遷移過程中涉及的數(shù)據(jù)采集、清洗、轉(zhuǎn)換、裝載等問題,可能你要遷移的數(shù)據(jù)源本來就存在質(zhì)量問題,如果不對數(shù)據(jù)源的數(shù)據(jù)質(zhì)量進行識別和處理,即使順利遷移,數(shù)據(jù)質(zhì)量也無法保證。
—04—
根因分析的方法
要了解究竟發(fā)生了什么,就需要進行深入的研究。對于數(shù)據(jù)質(zhì)量問題的剖析,筆者建議采用根因分析法,這是一種常見的因果問題分析方法,它有助于深入挖掘并找到有效的解決方案。采用根因分析法進行數(shù)據(jù)質(zhì)量問題分析主要有4個步驟,如圖所示。
圖:數(shù)據(jù)問題根因分析步驟
步驟一:定義數(shù)據(jù)問題
定義企業(yè)數(shù)據(jù)質(zhì)量問題,可以采取問卷調(diào)查、現(xiàn)場調(diào)研等方式,盡可能收集到全部的企業(yè)數(shù)據(jù)質(zhì)量問題,并收集與之相關(guān)的數(shù)據(jù)和證據(jù),這對于了解當(dāng)前情況是必要的。對于輕微的異常事件,可考慮進行個人專訪,如采訪業(yè)務(wù)系統(tǒng)的管理員或業(yè)務(wù)部門的關(guān)鍵用戶。
對收集到的數(shù)據(jù)問題進行歸納和整理,并根據(jù)數(shù)據(jù)質(zhì)量維度進行適當(dāng)?shù)臍w類。歸類的好處是有助于對每類數(shù)據(jù)問題進行深度剖析,便于找出糾正措施。
創(chuàng)建數(shù)據(jù)問題的描述,其中應(yīng)包含數(shù)據(jù)問題的基本信息,例如誰、在什么時間、什么地點(或系統(tǒng))、發(fā)生了什么問題、造成了哪些影響(包括實際影響和潛在影響)。定義問題的影響是為了確定數(shù)據(jù)問題處理的優(yōu)先級,為后續(xù)制定適當(dāng)?shù)慕鉀Q方案提供支撐。
步驟二:找出問題的主要因素
找到造成數(shù)據(jù)質(zhì)量問題的直接原因,包括人為因素、技術(shù)因素、系統(tǒng)因素、設(shè)備因素、可控或不可控的外在環(huán)境因素、流程因素和其他因素等。
一方面,找到造成數(shù)據(jù)質(zhì)量問題的涉及的業(yè)務(wù)流程和相關(guān)標(biāo)準(zhǔn)文件,明確執(zhí)行的業(yè)務(wù)流程操作是否與數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計相一致,例如必輸項輸入是否完整準(zhǔn)確;另一方面,評估數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計或數(shù)據(jù)管理涉及的操作流程是否有問題。在這個過程中,需要召集直接參與流程和執(zhí)行糾正措施的人員及專家,他們的意見有助于快速找到數(shù)據(jù)問題的解決方案??紤]每個因素,集思廣益,探討可能與之相關(guān)的問題的原因。
采用5Why法(連續(xù)問5個為什么)進一步深入探究:首先,提問為什么會發(fā)生當(dāng)前的數(shù)據(jù)質(zhì)量問題,并對可能的答案進行記錄;然后,逐一對每個答案問一個為什么,并記錄下原因,努力找出問題的主要因素,再對所有的原因進行分析。這種方法通過反復(fù)問為什么,能夠逐漸深入問題,直到找到問題的根本原因。
下面將重點介紹這個方法的使用,請不要走開!
步驟三:確認(rèn)問題的根本原因
經(jīng)過以上兩個步驟,基本上能夠篩選出數(shù)據(jù)問題發(fā)生的根本原因了,這時還需要對引發(fā)數(shù)據(jù)質(zhì)量問題的根本原因和根本原因之間的關(guān)系進行確認(rèn)??梢宰鲆韵?個假設(shè)。
假設(shè)此原因不存在,數(shù)據(jù)質(zhì)量問題還會發(fā)生嗎?
假設(shè)此原因被糾正或排除,此數(shù)據(jù)質(zhì)量問題還會因其他相同或相近因素而再次發(fā)生嗎?
假設(shè)此原因被糾正或排除,還會發(fā)生類似的數(shù)據(jù)質(zhì)量問題嗎?
此時,列出與數(shù)據(jù)問題相關(guān)的系統(tǒng)分類,例如管理方面、業(yè)務(wù)方面、技術(shù)方面、環(huán)境與設(shè)備方面等。從系統(tǒng)分類中篩選出根本原因并確認(rèn)其與根本原因之間的關(guān)系。
步驟四:制定和執(zhí)行解決方案
找到根本原因后,就要進行下一個步驟:制定并執(zhí)行解決方案,從根本上解決問題。這是另一個獨立的過程,也被稱為改正和預(yù)防。我們在尋找根本原因的時候,必須對每一個已找出的原因進行評估,給出改正的辦法,因為這樣做有助于整體改善和提高。例如,假設(shè)某個數(shù)據(jù)質(zhì)量問題是由業(yè)務(wù)人員操作不當(dāng)引發(fā)的,這就需要一方面加強對相關(guān)業(yè)務(wù)人員的培訓(xùn),另一方面從技術(shù)上進行適當(dāng)?shù)恼{(diào)整,提供更友好、易用的功能,以避免數(shù)據(jù)問題再次發(fā)生。
—05—
根因分析的工具
我們在進行數(shù)據(jù)質(zhì)量問題的根因分析時,可以使用的工具有很多,常用的工具有魚骨圖、5Why圖、故障樹圖、帕累托圖等。
1、魚骨圖
魚骨圖是由日本管理大師石川馨先生提出的一種把握結(jié)果和原因的方便而有效的方法,故名“石川圖”,它是一種透過現(xiàn)象看本質(zhì)的分析方法,非常適用于數(shù)據(jù)質(zhì)量問題的根因分析。
魚骨圖是因果分析中常用的工具。首先,需要從多個維度對引發(fā)問題的直接原因進行歸集;其次,依次列出直接原因所導(dǎo)致的問題“事實”;然后,分析每一個“事實”發(fā)生的原因;最后最終找到導(dǎo)致問題發(fā)生的根本原因。魚骨圖有助于探索阻礙結(jié)果的因素,適用于數(shù)據(jù)質(zhì)量問題的分析。魚骨圖的組成見下圖:
圖:魚骨圖分析法
①特性就是“問題的結(jié)果”,例如同一客戶不能唯一標(biāo)識。
②主骨用來引出問題,“問題”寫在右端,用方框圈起來,主骨用粗線畫,加箭頭標(biāo)志。
③大骨用來表示問題的直接原因,例如圖19-5中的人員因素、系統(tǒng)因素、技術(shù)因素、流程因素、方法因素和環(huán)境因素。
④中骨用來描述事實,例如業(yè)務(wù)操作不當(dāng)、操作失誤等。
⑤小骨用來描述為什么會那樣,例如對系統(tǒng)操作不熟悉、隨意性輸入等。
⑥主因用紅色的橢圓圈定問題的主因,主因不一定發(fā)生在末級,在大骨、中骨、小骨每一級均可能發(fā)生主因。
2、5Why圖
5Why圖,也稱5Why分析法或豐田5問法。5Why分析法在日系企業(yè)中用得很多,其首創(chuàng)是豐田公司的大野耐一,來源于一次新聞發(fā)布會。有人問:“豐田公司的汽車質(zhì)量怎么會這么好?”他回答:“我碰到問題至少要問5個為什么。”
簡單來說,5Why分析法的精髓就是多問幾個為什么,鼓勵解決問題的人努力避開主觀假設(shè)和邏輯陷阱,從結(jié)果著手,沿著因果關(guān)系鏈條順藤摸瓜,穿越不同的抽象層面,直至找出原有問題的根本原因。
圖:5Why分析法
舉個實例,我們分析這個問題:同一客戶為什么不能唯一識別。
為什么不能識別?
數(shù)據(jù)集中至少有兩條重復(fù)的記錄,這是現(xiàn)象。
為什么會有重復(fù)記錄?
數(shù)據(jù)源系統(tǒng)中的客戶數(shù)據(jù)就重復(fù)了,這是直接原因。
為什么數(shù)據(jù)源系統(tǒng)中的客戶數(shù)據(jù)會重復(fù)?
業(yè)務(wù)員輸入的客戶數(shù)據(jù)重復(fù)了,這是進一步的原因。
為什么業(yè)務(wù)員會重復(fù)輸入?
新來的業(yè)務(wù)員對系統(tǒng)操作不熟悉,這是更深入的原因。
業(yè)務(wù)員不熟悉系統(tǒng)就會重復(fù)輸入嗎?
信息系統(tǒng)缺乏對客戶ID的唯一性校驗。好了,找到問題的根本原因了。
5Why分析法可以幫助我們找出問題的根本原因,以便采取適當(dāng)?shù)母倪M措施,并為每個人分配需要采取的糾正措施。但是,“5Why”不是必須問5個為什么,也可以是4個、6個,找到問題根本原因、解決問題就好。
3、故障樹圖
故障樹圖是一種邏輯因果關(guān)系圖,是一種圖形演繹法,是故障事件在一定條件下的邏輯推理方法,可針對某一故障事件進行層層追蹤分析(見下圖)。故障樹圖的特點是直觀明了,思路清晰,邏輯性強,既可以進行定性分析,也可以進行定量分析。它體現(xiàn)了以系統(tǒng)工程方法研究安全問題的系統(tǒng)性、準(zhǔn)確性和預(yù)測性。
圖:故障樹分析法
使用故障樹圖來確定數(shù)據(jù)質(zhì)量問題的可能原因。故障樹從問題的頂部開始,而可能的原因在下面,這是一種自上而下的推演方法。首先,分析頂問題發(fā)生的直接原因,將頂問題作為邏輯的輸出事件,將所有引起頂問題的直接原因作為輸入事件,將它們之間的邏輯關(guān)系用適當(dāng)?shù)倪壿嬤B接起來。然后,對每一個中間問題用同樣方法逐級向下分析,直到所有的輸入問題都不需要再分解(找到問題的根本原因)為止。
4、帕累托圖
帕累托圖是條形圖和折線圖的組合,條形圖的長度代表問題的頻率,折線表示累積頻率,橫坐標(biāo)表示影響質(zhì)量的各項因素,按影響程度的大?。ǔ霈F(xiàn)頻數(shù))從左到右排列(見下圖)。通過對排列圖的觀察分析可以抓住影響質(zhì)量的主要因素,進而確定問題的優(yōu)先級。
圖:帕累托圖分析法
帕累托圖是基于80/20法則的分析,即認(rèn)為發(fā)生的全部問題中有80%是由20%的問題原因引起的。這意味著,如果有針對主要問題的解決方案,則可以解決大多數(shù)其他較小的問題。
寫在最后的話
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的重要組成部分,通常用在數(shù)據(jù)模型設(shè)計、數(shù)據(jù)資產(chǎn)管理、主數(shù)據(jù)管理、數(shù)據(jù)倉庫等解決方案中。數(shù)據(jù)質(zhì)量影響的不僅是信息化建設(shè)的成敗,更是影響企業(yè)業(yè)務(wù)協(xié)同、管理創(chuàng)新、決策支持的核心要素。數(shù)據(jù)質(zhì)量管理可以是反應(yīng)性的被動管理,也可以是預(yù)防性的主動管理。但,無論是哪種管理,企業(yè)最應(yīng)首先解決的是分析數(shù)據(jù)治理問題發(fā)生的根本原因,只有找到問題的根本原因才能對癥下藥,做到“標(biāo)本兼治”!
注:本文摘自筆者主筆的《一本書講透數(shù)據(jù)治理戰(zhàn)略、方法、工具與實踐》,機械工業(yè)出版社。有興趣的可在京東/當(dāng)當(dāng)購買實體書。