十年前,全球市值最高的 Top10 公司大多來自石油、銀行、汽車等傳統(tǒng)行業(yè)。而十年后的今天,亞馬遜、Facebook、阿里巴巴、騰訊等一躍超過了十年前排名第一的艾克森美孚。不難發(fā)現(xiàn),數(shù)據(jù)是這些企業(yè)的核心資產(chǎn)。大數(shù)據(jù)可以幫助企業(yè)制定切實可行的戰(zhàn)略規(guī)劃,獲取客戶洞察,支持客戶購買行為,并構建新的業(yè)務模式,進而贏得競爭優(yōu)勢。
成功的企業(yè)數(shù)字化案例顯然有自己的共同點:重視數(shù)據(jù)質(zhì)量、重視數(shù)據(jù)上下文、以及建立有效的數(shù)據(jù)管理體制。而失敗的企業(yè)則各有各的問題。
一、只做數(shù)據(jù)集中,并沒有對數(shù)據(jù)進行整合
數(shù)據(jù)整合是當今數(shù)據(jù)分析面臨的最大挑戰(zhàn)。實際上,許多公司只是簡單地將數(shù)據(jù)堆積在一起,并未對不同來源的數(shù)據(jù)進行整合。就拿身份認定來說,比如一套系統(tǒng)下“路人A”的信息與另一套系統(tǒng)下“路人A”(甚至可能是重名)的信息之間,沒有進行關聯(lián),這樣的話,就無法對“路人A”的身份進行完整性描述。數(shù)據(jù)整合并不等于將數(shù)據(jù)集中到一起,對于研究對象,要將不同來源的數(shù)據(jù)相互關聯(lián),以便獲取更準確的信息定位。并且數(shù)據(jù)科學家會通過數(shù)據(jù)來尋找并分析競爭優(yōu)勢,可能的企業(yè)新的突破點等等,因此,數(shù)據(jù)整合也變得越發(fā)重要。
二、忽視了不同業(yè)務對數(shù)據(jù)的需求差別
整合的集成數(shù)據(jù)技術對于一個成功的分析程序是至關重要的,必須要意識到不同業(yè)務部門對數(shù)據(jù)的需求是不同的,數(shù)據(jù)的形式不能千篇一律。相反,還需要考慮數(shù)據(jù)供給,IT部門需要將業(yè)務類型與數(shù)據(jù)形式相匹配。并不是所有的業(yè)務都需要整合過后的數(shù)據(jù)。以金融機構的眾多需求為例,風控部門需要未經(jīng)處理的原始數(shù)據(jù),以從中發(fā)現(xiàn)異常。比如通過搜尋多組數(shù)據(jù)中某個人地址信息的,確定其是否申請了多筆貸款等。另一方面,諸如市場部等部門希望實現(xiàn)準確的用戶信息定位,因此只需要其中正確的那組數(shù)據(jù)。
三、數(shù)據(jù)工程師可能比數(shù)據(jù)科學家更重要
數(shù)據(jù)科學家這個職業(yè)在過去幾年中正迅速搶占硅谷、紐約、中關村、西二旗的各大互聯(lián)網(wǎng)公司。一大批傳統(tǒng)企業(yè)也開始設置這個職位,并且大批招募。
畢竟,每個公司都希望通過勢頭正盛的新興技術使業(yè)務分析具有一定的預測性和分析說明,這需要專業(yè)團隊和人員的支持。但通常,這些公司掛出的招募崗位只有數(shù)據(jù)科學家這一種。
這是遠遠不夠的。數(shù)據(jù)科學家需要數(shù)據(jù)工程師來收集數(shù)據(jù)集,但是,數(shù)據(jù)工程師這一職位,在許多公司沒有受到應有的重視。
四、缺乏對數(shù)據(jù)時效性和生命周期的管理
近十年來,隨著數(shù)據(jù)存儲成本不斷降低,IT部門可以將大量數(shù)據(jù)存儲起來,并保存很長的時間。對于不斷增長的數(shù)據(jù)量和數(shù)據(jù)分析需求來說,這是個好消息。
公司都希望擁有大量數(shù)據(jù),但許多企業(yè)都將數(shù)據(jù)留存的過久。這不僅僅是存儲成本的問題,超過十年的數(shù)據(jù)基本沒有時效性了。
數(shù)據(jù)要被賦予生命周期。數(shù)據(jù)留存期限要根據(jù)不同部門、不同組織來確定。例如,零售行業(yè)需要的是即時和相關的數(shù)據(jù),而市場部門需要多年來的歷史數(shù)據(jù)以探尋趨勢。這需要IT部門根據(jù)不同部門的需求,制定一套明確的數(shù)據(jù)時效標準,從而確保數(shù)據(jù)的有效性。
五、只關注數(shù)據(jù)量而忽視數(shù)據(jù)相關性
數(shù)據(jù)分析師總喜歡用最容易獲得的數(shù)據(jù)進行建模與分析,而不是最相關的。這是目前公司或組織普遍存在的一個誤區(qū)。或許,在尋找更多的數(shù)據(jù)集之前,應該先想想數(shù)據(jù)是否相關,而不是詢問我們是否有正確的數(shù)據(jù)。
比如,許多公司會從大量數(shù)據(jù)中尋找異常。盡管充分性很重要,但優(yōu)秀的公司同樣兼顧數(shù)據(jù)的針對性。他們會關注來自于特定個體和機構的數(shù)據(jù),并從中發(fā)現(xiàn)異常。比如醫(yī)療結構在分析病例時,會考慮到醫(yī)生的輪班周期等。
六、忽略數(shù)據(jù)來源
數(shù)據(jù)分析存在一個普遍又顯著的問題,是數(shù)據(jù)偏見。偏向性的數(shù)據(jù)會造成分析結果偏差,從而影響到正確的業(yè)務決策與結果。其中的偏見來源于整個分析過程涉及的許多個部門,包括IT部門處理數(shù)據(jù)方式,都會有一些偏見。因為IT部門在對數(shù)據(jù)來源的追蹤上,做的并不完善。如果無法意識到這一點,就會影響到數(shù)據(jù)模型的的性能,而且,缺乏數(shù)據(jù)來源的可見性使得對偏見的控制更為困難。
IT有義務搞清楚數(shù)據(jù)的來源在哪里,以及來源的相關情況。在投資數(shù)據(jù)管理的同時,也要制定一套源數(shù)據(jù)管理解決方案。
七、缺乏面向用戶的數(shù)據(jù)上下文
在企業(yè)內(nèi),應該有強大的源數(shù)據(jù)管理程序,它可以追蹤數(shù)據(jù)的來源,以及它是如何在系統(tǒng)中運行的,它應該為用戶提供一些歷史信息,并為一些通過分析產(chǎn)生的結果提供背景信息。
近幾年,由于分析方法越來越復雜,對數(shù)據(jù)和分析結果的解釋變得越來越少。更新的深度學習模型為分析結果提供了一些注解,也為決策提供了一些可行的建議,但無法提供對最佳決策有幫助甚至至關重要的上下文,例如某件事情發(fā)生的可能性與確定性等信息。因此,需要能提供更好的用戶界面以幫助用戶進行決策。
其中的技術問題在于,要明確用戶與數(shù)據(jù)模型的交互程度如何。UI/UX界面決定了系統(tǒng)對用戶的透明度,而透明度取決于用戶對分析結果的鉆研深度,這些都是首席信息官(CIO)在建立分析系統(tǒng)前,應當考慮清楚的。
八、認為小的或者少數(shù)的數(shù)據(jù)量缺陷無關緊要
有人認為,根據(jù)大數(shù)定律(Law of Large Numbers),獨立的數(shù)據(jù)缺陷無關緊要,不會影響分析結果。與更小規(guī)模的數(shù)據(jù)集相比,獨立的數(shù)據(jù)缺陷對整個數(shù)據(jù)集的影響的確要小很多,但目前,數(shù)據(jù)量不斷增長,數(shù)據(jù)缺陷與以往相比也越來越多。
如果,低質(zhì)量數(shù)據(jù)對整個數(shù)據(jù)集的整體影響仍保持不變,企業(yè)在大數(shù)據(jù)環(huán)境下使用的大部分數(shù)據(jù)來自外部數(shù)據(jù)源,其數(shù)據(jù)結構和來源未知。這意味著數(shù)據(jù)質(zhì)量問題的風險比以往更高。因此,在大數(shù)據(jù)部署中,數(shù)據(jù)質(zhì)量實際上更加重要。
設計出新的數(shù)據(jù)質(zhì)量管理方式,并選擇數(shù)據(jù)質(zhì)量級別。嚴格遵守數(shù)據(jù)質(zhì)量保障的核心原則。
九、在數(shù)據(jù)倉庫中,高級分析有重大意義
有些人認為,高級分析功能可使用新的數(shù)據(jù)類型時,部署數(shù)據(jù)倉庫則浪費時間。實際上,大多數(shù)高級分析項目在分析時都使用數(shù)據(jù)倉庫。
新的數(shù)據(jù)類型還可能需要提煉,使其適于數(shù)據(jù)分析。此外,哪些是相關數(shù)據(jù)、怎樣聚合數(shù)據(jù)以及必要的數(shù)據(jù)質(zhì)量級別等都需要企業(yè)做出決策。
盡可能使用數(shù)據(jù)倉庫存儲經(jīng)人工收集檢查的數(shù)據(jù)集,用于高級分析功能。
如今,行業(yè)內(nèi)不少人打著“數(shù)據(jù)統(tǒng)計和分析”的旗號來做大數(shù)據(jù),讓很多人陷入了誤區(qū):數(shù)據(jù)統(tǒng)計并非等于大數(shù)據(jù)。無論數(shù)據(jù)統(tǒng)計也好,大數(shù)據(jù)也罷,其實都是為了使我們的工作變得更為有效,讓決策更為理性而準確。重視數(shù)據(jù),本身就是一個企業(yè)成熟的標志。隨著數(shù)據(jù)的進一步豐富和完善,隨著不同渠道數(shù)據(jù)的打通和交叉利用,有關大數(shù)據(jù)的想象一定會更加廣闊。