當今數(shù)據(jù)分析存在一個顯著的問題,是數(shù)據(jù)偏見。
提升數(shù)據(jù)分析能力正成為企業(yè)數(shù)字化轉(zhuǎn)型的當務之急。
成功的企業(yè)數(shù)字化案例顯然有自己的共同點:
重視數(shù)據(jù)質(zhì)量、重視數(shù)據(jù)上下文、以及建立有效的數(shù)據(jù)管理體制。
而失敗的企業(yè)則各有各的問題。
我們調(diào)研了118家公司的首席信息官(CIO)、首席技術(shù)官(CTO)、數(shù)據(jù)總管以及IT部門的員工及顧問,找到了這7種企業(yè)數(shù)據(jù)實踐中最可能出現(xiàn)的問題。
只做數(shù)據(jù)集中,并沒有對數(shù)據(jù)進行整合
“數(shù)據(jù)整合是當今數(shù)據(jù)分析面臨的最大挑戰(zhàn)。”SAS公司的業(yè)務解決方案顧問,數(shù)據(jù)治理專業(yè)組織(DGPO)的首席發(fā)言人Anne Buff說道。
實際上,許多公司只是簡單地將數(shù)據(jù)堆積在一起,并未對不同來源的數(shù)據(jù)進行整合。就拿身份認定來說,比如一套系統(tǒng)下“路人A”的信息與另一套系統(tǒng)下“路人A”(甚至可能是重名)的信息之間,沒有進行關(guān)聯(lián),這樣的話,就無法對“路人A”的身份進行完整性描述。
“數(shù)據(jù)整合并不等于將數(shù)據(jù)集中到一起,”Buff說,“對于某個研究對象,要將不同來源的數(shù)據(jù)相互關(guān)聯(lián),以便獲取更準確的信息定位。一旦你這樣做,當這一切相關(guān)數(shù)據(jù)都聚集在一起時,它將達到一個更完整的結(jié)果,即比爾史密斯是誰。你必須將它們關(guān)聯(lián)起來。”
Buff還說道:各種數(shù)據(jù)集成技術(shù)使之成為可能,同時,正確的選用、實現(xiàn)并執(zhí)行數(shù)據(jù)整合的技術(shù),減少不必要的人工操作和重復勞動這點很重要。
數(shù)據(jù)科學家會通過數(shù)據(jù)來尋找并分析競爭優(yōu)勢,可能的突破點等等,因此,數(shù)據(jù)整合也變得越發(fā)重要。
“如果不將以往所有的數(shù)據(jù)整合,就無法發(fā)現(xiàn)其中的模式。”Buff說道。
忽視了不同業(yè)務對數(shù)據(jù)的需求差別
“整合的集成數(shù)據(jù)技術(shù)對于一個成功的分析程序是至關(guān)重要的,必須要意識到不同業(yè)務部門對數(shù)據(jù)的需求是不同的,”Buff說道,“數(shù)據(jù)的形式不能千篇一律。相反,還需要考慮數(shù)據(jù)供給,IT部門需要將業(yè)務類型與數(shù)據(jù)形式相匹配。”
并不是所有的業(yè)務都需要整合過后的數(shù)據(jù)。以金融機構(gòu)的眾多需求為例,風控部門需要未經(jīng)處理的原始數(shù)據(jù),以從中發(fā)現(xiàn)異常。比如通過搜尋多組數(shù)據(jù)中某個人地址信息的,確定其是否申請了多筆貸款等。
“這些業(yè)務更傾向于研究多組相似數(shù)據(jù)間的差別,因此這些差別是要有所保留的。”Buff解釋道。
另一方面,諸如市場部等部門希望實現(xiàn)準確的用戶信息定位,因此只需要其中正確的那組數(shù)據(jù)。
數(shù)據(jù)工程師可能比數(shù)據(jù)科學家更重要
數(shù)據(jù)科學家這個職業(yè)在過去幾年中正迅速搶占硅谷、紐約、中關(guān)村、西二旗的各大互聯(lián)網(wǎng)公司。一大批傳統(tǒng)企業(yè)也開始設(shè)置這個職位,并且大批招募。
畢竟,每個公司都希望通過勢頭正盛的新興技術(shù)使業(yè)務分析具有一定的預測性和分析說明,這需要專業(yè)團隊和人員的支持。
但通常,這些公司掛出的招募崗位只有數(shù)據(jù)科學家這一種。
這是遠遠不夠的。
數(shù)據(jù)科學家需要數(shù)據(jù)工程師來收集數(shù)據(jù)集,但是,數(shù)據(jù)工程師這一職位,在許多公司沒有受到應有的重視。
“目前,大公司對數(shù)據(jù)工程師的需求增速是對數(shù)據(jù)科學家需求的兩倍。” 貝恩公司舊金山辦事處合伙人,高級分析和數(shù)字化實踐負責人Lori Sherer這樣說。
美聯(lián)邦勞工統(tǒng)計局預測,目前數(shù)據(jù)工程師的平均年薪已經(jīng)達到135,800美元,且未來十年里,對數(shù)據(jù)工程師的需求將繼續(xù)保持快速增長態(tài)勢,2026年前將新增44200個相關(guān)的就業(yè)崗位。
有專家稱,同很多IT崗位一樣,數(shù)據(jù)工程師的人才供不應求,部分企業(yè)會通過招聘或者從IT部門普通員工中選拔培訓,來彌補這一人才缺口。
缺乏對數(shù)據(jù)時效性和生命周期的管理
近十年來,隨著數(shù)據(jù)存儲成本不斷降低, IT部門可以將大量數(shù)據(jù)存儲起來,并保存很長的時間。對于不斷增長的數(shù)據(jù)量和數(shù)據(jù)分析需求來說,這是個好消息。
“公司都希望擁有大量數(shù)據(jù)。”Soaring Eagle咨詢公司的創(chuàng)始人、《挖掘新黃金:管理你的商業(yè)數(shù)據(jù)(Mining New Gold: Managing Your Business Data)》的合著作者Penny Garbus說道。
但Garbus同時認為,許多企業(yè)都將數(shù)據(jù)留存的過久了。
“這不僅僅是存儲成本的問題,超過十年的數(shù)據(jù)基本沒有時效性了。”她說,“數(shù)據(jù)要被賦予生命周期。”
Garbus認為,數(shù)據(jù)留存期限要根據(jù)不同部門、不同組織來確定。例如,零售行業(yè)需要的是即時和相關(guān)的數(shù)據(jù),而市場部門需要多年來的歷史數(shù)據(jù)以探尋趨勢。
這需要IT部門根據(jù)不同部門的需求,制定一套明確的數(shù)據(jù)時效標準,從而確保數(shù)據(jù)的有效性。
Garbus還補充道,對于那些“老舊”數(shù)據(jù),只要保證有就可以了,不要將其放在核心數(shù)據(jù)庫中。
只關(guān)注數(shù)據(jù)量而忽視數(shù)據(jù)相關(guān)性
“我們總喜歡用最容易獲得的數(shù)據(jù)進行建模與分析,而不是最相關(guān)的。” Booz Allen Hamilton(IT咨詢公司)的高級副總裁Steve Escaravage說。
他認為,這是目前公司或組織普遍存在的一個誤區(qū)?;蛟S,在尋找更多的數(shù)據(jù)集之前,應該先想想數(shù)據(jù)是否相關(guān),而不是詢問我們是否有正確的數(shù)據(jù)。
比如,許多公司會從大量數(shù)據(jù)中尋找異常。盡管充分性很重要,但優(yōu)秀的公司同樣兼顧數(shù)據(jù)的針對性。他們會關(guān)注來自于特定個體和機構(gòu)的數(shù)據(jù),并從中發(fā)現(xiàn)異常。比如醫(yī)療結(jié)構(gòu)在分析病例時,會考慮到醫(yī)生的輪班周期等。
Escaravage認為,公司或組織可以列一個數(shù)據(jù)意愿清單,由業(yè)務部門填寫意愿,由CIO、CTO或首席數(shù)據(jù)高管實現(xiàn)數(shù)據(jù)收集。
忽略數(shù)據(jù)來源
“當今數(shù)據(jù)分析存在一個顯著的問題,是數(shù)據(jù)偏見。偏向性的數(shù)據(jù)會造成分析結(jié)果偏差,從而影響到正確的業(yè)務決策與結(jié)果。其中的偏見來源于整個分析過程涉及的許多個部門,包括IT部門處理數(shù)據(jù)方式,都會有一些偏見。”Escaravage說道。
“很多時候,IT部門在對數(shù)據(jù)來源的追蹤上,做的并不完善。如果無法意識到這一點,就會影響到數(shù)據(jù)模型的的性能,而且,缺乏數(shù)據(jù)來源的可見性使得對偏見的控制更為困難。”
Escaravage覺得,IT有義務搞清楚數(shù)據(jù)的來源在哪里,以及來源的相關(guān)情況。在投資數(shù)據(jù)管理的同時,也要制定一套源數(shù)據(jù)管理解決方案。
缺乏面向用戶的數(shù)據(jù)上下文
Escaravage認為,不僅應該有一個強大的源數(shù)據(jù)管理程序,它可以追蹤數(shù)據(jù)的來源,以及它是如何在系統(tǒng)中運行的,它應該為用戶提供一些歷史信息,并為一些通過分析產(chǎn)生的結(jié)果提供背景信息。
“有時我們會認為,擁有絕佳的數(shù)據(jù)和模型已經(jīng)足夠完美,但是近幾年,由于分析方法越來越復雜,對數(shù)據(jù)和分析結(jié)果的解釋變得越來越少。不像前幾年,在將分析結(jié)果應用于業(yè)務時,會根據(jù)業(yè)務規(guī)則對數(shù)據(jù)進行分析闡述。”他說。
Escaravage解釋道,更新的深度學習模型為分析結(jié)果提供了一些注解,也為決策提供了一些可行的建議,但無法提供對最佳決策有幫助甚至至關(guān)重要的上下文,例如某件事情發(fā)生的可能性與確定性等信息。因此,需要能提供更好的用戶界面以幫助用戶進行決策。
“其中的技術(shù)問題在于,要明確用戶與數(shù)據(jù)模型的交互程度如何。UI/UX界面決定了系統(tǒng)對用戶的透明度,而透明度取決于用戶對分析結(jié)果的鉆研深度,這些都是首席信息官(CIO)在建立分析系統(tǒng)前,應當考慮清楚的。”