本文來自微信公眾號“數(shù)據(jù)驅(qū)動智能”,作者/曉曉。
現(xiàn)代組織需要一個模塊化的數(shù)據(jù)架構來支持復雜的企業(yè)環(huán)境,同時為業(yè)務用戶提供數(shù)據(jù)訪問。以下是一些關鍵考慮因素。
一重視元數(shù)據(jù)的管理
數(shù)據(jù)架構不斷發(fā)展以提供由元數(shù)據(jù)支持的數(shù)據(jù)自助服務
過去幾十年來,數(shù)據(jù)分析架構最佳實踐已經(jīng)經(jīng)歷了多個時代,數(shù)字化轉(zhuǎn)型強調(diào)了實現(xiàn)數(shù)據(jù)戰(zhàn)略現(xiàn)代化和利用數(shù)據(jù)使用機會的必要性。這些時代包括:
2000年之前的時期—企業(yè)數(shù)據(jù)倉庫時代:以企業(yè)數(shù)據(jù)倉庫(EDW)的成功為中心的數(shù)據(jù)架構。
2000-2010—后EDW時代:這一時期的特點是碎片化的數(shù)據(jù)分析,數(shù)據(jù)集市依賴于數(shù)據(jù)倉庫。根據(jù)你問的是誰,你得到的事實版本不同,因為每次數(shù)據(jù)集市整合都會導致另一個數(shù)據(jù)孤島,從而導致分析碎片化和不一致。
2010-2020年—邏輯數(shù)據(jù)倉庫(LDW)時代:這一時期通過通用語義層對數(shù)據(jù)進行更加統(tǒng)一的分析,從而可以訪問數(shù)據(jù)倉庫、數(shù)據(jù)集市和數(shù)據(jù)湖。這是當前的最佳實踐。
2020年未來—活躍元數(shù)據(jù)時代:未來將看到使用所有相關數(shù)據(jù)源對數(shù)據(jù)進行增強分析,通過高級分析、推薦引擎、數(shù)據(jù)和人工智能編排、自適應實踐和元數(shù)據(jù)分析來訪問和啟用。
數(shù)據(jù)訪問和自助分析的廣泛化正在推動當前從LDW時代向主動元數(shù)據(jù)時代的演變。首席數(shù)據(jù)和分析官(CDAO)同樣希望將數(shù)據(jù)用例擴展到LDW無法處理的范圍。其中包括主數(shù)據(jù)管理、企業(yè)間數(shù)據(jù)共享、B2B數(shù)據(jù)集成、合作伙伴數(shù)據(jù)共享、應用程序數(shù)據(jù)集成等。
但什么是元數(shù)據(jù),它在這一演變中扮演什么角色?
元數(shù)據(jù)描述數(shù)據(jù)的不同方面,例如數(shù)據(jù)的上下文。它是作為數(shù)據(jù)在企業(yè)系統(tǒng)中移動的副產(chǎn)品而產(chǎn)生的。元數(shù)據(jù)有四種類型:技術元數(shù)據(jù)、操作元數(shù)據(jù)、業(yè)務元數(shù)據(jù)和社交元數(shù)據(jù)。這些類型中的每一種都可以是組織收集但不主動分析的“被動”元數(shù)據(jù),也可以是使用相同數(shù)據(jù)識別兩個或多個系統(tǒng)之間的操作的“主動”元數(shù)據(jù)。
主動元數(shù)據(jù)可以實現(xiàn)自動化、提供見解并優(yōu)化用戶參與度,并且是自助分析的關鍵推動者。然而,要實現(xiàn)其潛力,需要一個能夠平衡可重復性、可重用性、治理、權威、來源和優(yōu)化交付等要求的數(shù)據(jù)架構。
數(shù)據(jù)分析領導者看到了兩種選擇,可以將其數(shù)據(jù)架構從目前大多數(shù)運營的LDW時代發(fā)展到主動元數(shù)據(jù)時代。這些選項是數(shù)據(jù)編織或數(shù)據(jù)網(wǎng)格。這些獨立概念的共同目標是為使用數(shù)據(jù)的每個人(包括數(shù)據(jù)科學家、數(shù)據(jù)分析師和數(shù)據(jù)工程師以及數(shù)據(jù)消費者)提供更輕松的數(shù)據(jù)訪問。盡管許多數(shù)據(jù)領導者將數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格視為相互競爭的數(shù)據(jù)架構方法,但更準確地說,它們被視為互補。
二關注數(shù)據(jù)編織技術
DataFabric利用邏輯數(shù)據(jù)倉庫時代的現(xiàn)有資產(chǎn)。
數(shù)據(jù)編織是一種新興的數(shù)據(jù)管理和數(shù)據(jù)集成設計概念。其目標是實現(xiàn)靈活、可重用和增強的數(shù)據(jù)集成,以支持整個企業(yè)的數(shù)據(jù)訪問。
對于許多組織來說,數(shù)據(jù)編織是邏輯數(shù)據(jù)倉庫模型的自然演變,因為它利用現(xiàn)代化數(shù)據(jù)架構中的現(xiàn)有技術和元數(shù)據(jù)。數(shù)據(jù)編織設計不存在“淘汰和替換”。相反,它利用沉沒成本,同時為新的數(shù)據(jù)管理支出提供優(yōu)先級和成本控制指導。
數(shù)據(jù)編織從不同角度提供優(yōu)勢:
業(yè)務視角:使技術含量較低的業(yè)務用戶(包括分析師)能夠快速查找、集成、分析和共享數(shù)據(jù)
數(shù)據(jù)管理團隊觀點:數(shù)據(jù)工程師的自動化數(shù)據(jù)訪問和集成帶來的生產(chǎn)力優(yōu)勢,以及敏捷性的提高,達到每天/每周/每年更多地關閉數(shù)據(jù)請求
整體組織視角:更快地從數(shù)據(jù)和分析投資中獲得洞察;提高組織數(shù)據(jù)的利用率;通過分析所有參與系統(tǒng)的元數(shù)據(jù)并提供有關有效數(shù)據(jù)設計、交付和利用的見解來降低成本
決定數(shù)據(jù)編織設計是否適合組織的兩個因素是:元數(shù)據(jù)完整性和組織中的數(shù)據(jù)編織主題專業(yè)知識。具體來說,元數(shù)據(jù)太少的組織將看不到數(shù)據(jù)編織的好處。缺乏元數(shù)據(jù)還增加了對主題專家(SME)的依賴,他們可以幫助發(fā)現(xiàn)、推斷甚至創(chuàng)作元數(shù)據(jù),這可能會抵消數(shù)據(jù)編織設計相對較低的SME要求。
三關注數(shù)據(jù)網(wǎng)格技術
數(shù)據(jù)網(wǎng)格雖然有吸引力,但需要嚴格的方法
數(shù)據(jù)網(wǎng)格是一種允許分散數(shù)據(jù)管理的架構方法。其目標是支持定義、交付、維護和管理數(shù)據(jù)產(chǎn)品的工作,使數(shù)據(jù)消費者能夠輕松查找和使用數(shù)據(jù)產(chǎn)品。數(shù)據(jù)網(wǎng)格架構基于將數(shù)據(jù)責任分散和分配給最接近數(shù)據(jù)的人并將該數(shù)據(jù)作為服務共享的概念。
數(shù)據(jù)網(wǎng)格最常見的驅(qū)動因素是:業(yè)務線(LOB)具有更多的數(shù)據(jù)自主權、減少對中央IT的依賴以及利用數(shù)據(jù)去中心化來打破孤島(盡管可能需要在網(wǎng)格架構內(nèi)進行一些數(shù)據(jù)集中化)。盡管其吸引力顯而易見,但請注意以下先決條件和挑戰(zhàn)。
數(shù)據(jù)網(wǎng)格架構尚未成為既定的最佳實踐。
該術語與因組織模式、數(shù)據(jù)管理和技術實施而異的各種方法相關。組織驅(qū)動因素也各不相同。其中包括消除IT瓶頸,以及合理化由LOB主導的數(shù)據(jù)管道創(chuàng)建或由云現(xiàn)代化數(shù)據(jù)管理計劃觸發(fā)的孤立數(shù)據(jù)集。
數(shù)據(jù)分析領導者不應采用數(shù)據(jù)網(wǎng)格架構作為解決數(shù)據(jù)管理挑戰(zhàn)的看似簡單的解決方案。盡管它正式化了常見做法,但它放棄了LOB專家的數(shù)據(jù)責任,這可能會導致孤立數(shù)據(jù)使用激增。
數(shù)據(jù)網(wǎng)格的成功取決于LOB中的組織模式和數(shù)據(jù)技能。
如果各個部門的數(shù)據(jù)素養(yǎng)、自主性和數(shù)據(jù)技能差異很大,并且組織缺乏實施數(shù)據(jù)管理活動的能力,那么中央IT將需要提供更多支持——至少在一開始是這樣。LOB可以通過創(chuàng)建新角色(例如數(shù)據(jù)產(chǎn)品所有者)來管理數(shù)據(jù)產(chǎn)品的定義、創(chuàng)建和治理,從而在數(shù)據(jù)網(wǎng)格環(huán)境中實現(xiàn)更大的自主權。然而,缺乏構建分布式數(shù)據(jù)技能承諾的組織應該避免數(shù)據(jù)網(wǎng)格。
數(shù)據(jù)網(wǎng)格架構、設計和技術實現(xiàn)差異很大。
數(shù)據(jù)網(wǎng)格架構實現(xiàn)通?;谠撇⑹褂霉蚕泶鎯吞幚?。然而,每個LOB用于數(shù)據(jù)交付、維護和治理的工具將根據(jù)用例以及生產(chǎn)者和消費者之間的合同而有很大差異。這些合同定義了數(shù)據(jù)產(chǎn)品的范圍、SLA和運營成本,例如可用性、計算成本、訪問并發(fā)性、治理和質(zhì)量策略、上下文和語義。沒有明確合同的組織通常會面臨共享性和可重用性限制,這違背了開發(fā)數(shù)據(jù)網(wǎng)格架構的目標。
組織需要聯(lián)合治理模型。
數(shù)據(jù)網(wǎng)格將數(shù)據(jù)治理的責任轉(zhuǎn)移給領域應用程序設計者和用戶。對于要自主構建和公開數(shù)據(jù)產(chǎn)品的LOB,它必須定義符合首席信息安全官(CISO)和首席數(shù)據(jù)官(CDO)或中央治理委員會的中央指導的本地數(shù)據(jù)治理和數(shù)據(jù)管理。在成熟的數(shù)據(jù)網(wǎng)格組織中,業(yè)務組織通過中央IT支持來實施自己的治理策略,而不是相反。
對于元數(shù)據(jù)不完整的組織來說,數(shù)據(jù)網(wǎng)格是一個可行的選擇。只要他們擁有具有主題專業(yè)知識的數(shù)據(jù)架構師,他們就可以從數(shù)據(jù)網(wǎng)格開始并并行構建其活動元數(shù)據(jù)存儲。
四構建靈活的數(shù)據(jù)架構
現(xiàn)代環(huán)境的復雜性需要靈活的數(shù)據(jù)架構
使用本地、云、多云、云間和混合部署進行運營的數(shù)據(jù)領導者將需要修改其現(xiàn)有的數(shù)據(jù)架構策略,以支持其當前和未來的復雜性。精心規(guī)劃且強大的數(shù)據(jù)架構可確保新技術與現(xiàn)有基礎設施相一致,并能夠支持未來的需求,包括跨云提供商、SaaS解決方案和本地資源部署等的集成和互操作性。數(shù)據(jù)架構制定重點圍繞以下方面考慮:
制定解決整個數(shù)據(jù)生態(tài)系統(tǒng)的策略。即使對于最初進行云部署的組織來說,隨著時間的推移,發(fā)展成為混合和多云環(huán)境也是很常見的。建立優(yōu)先考慮提供商的總體云戰(zhàn)略可以管理其他云部署。這將減輕未經(jīng)批準的云部署可能的數(shù)據(jù)架構帶來的風險。
使數(shù)據(jù)要求與用例保持一致。分布式和復雜的用例現(xiàn)在正在推動可提供業(yè)務價值的更新創(chuàng)新,特別是通過啟用自助數(shù)據(jù)訪問。云的成功將取決于滿足企業(yè)消費者用例的能力,這些用例很可能本質(zhì)上是分布式的、靠近數(shù)據(jù)源并在邊緣網(wǎng)絡和設備上運行。
評估集成模式??焖俚臄?shù)據(jù)增長和自助數(shù)據(jù)訪問加劇了以適當?shù)膸?、延遲和吞吐量跨不同云和本地系統(tǒng)移動數(shù)據(jù)的挑戰(zhàn)。評估集成模式,以確定可靠且高效的數(shù)據(jù)架構,該架構可以服務于不斷發(fā)展的業(yè)務用例并滿足數(shù)據(jù)合規(guī)性和主權需求。
采用開源和開放標準來進行面向未來的數(shù)據(jù)投資。熟悉云中的開源定價模型,包括計算和存儲資源的費用。使用開放或提供商中立的標準,并了解開源數(shù)據(jù)存儲的選項,以及使元數(shù)據(jù)可在企業(yè)環(huán)境中跨平臺共享的開源元數(shù)據(jù)標準。最后,制定支持計劃來解決開源解決方案的問題。
最后
根據(jù)數(shù)據(jù)和分析(D&A)團隊組織、共享和分析數(shù)據(jù)的方式設計數(shù)據(jù)管理架構。