混合云數(shù)據(jù)平臺趨勢正在從以Hadoop為中心組件的本地集中式數(shù)據(jù)基礎(chǔ)架構(gòu)中脫穎而出
混合云數(shù)據(jù)平臺改變了我們處理數(shù)據(jù)平臺解決方案和我們做出的技術(shù)選擇的方式。
混合云數(shù)據(jù)平臺給企業(yè)帶來:
·采用同類最佳技術(shù)的靈活性并消除對特定云或本地生態(tài)系統(tǒng)的鎖定
·重新關(guān)注解決方案需求,而不是技術(shù)平臺/生態(tài)系統(tǒng)驅(qū)動的解決方案決策
混合云數(shù)據(jù)平臺戰(zhàn)略將使數(shù)據(jù)資產(chǎn)分布在本地和多云平臺之間,并帶回與聯(lián)合數(shù)據(jù)基礎(chǔ)架構(gòu)相關(guān)的問題。
數(shù)據(jù)治理和數(shù)據(jù)發(fā)現(xiàn)和可訪問性(數(shù)據(jù)民主化)成為關(guān)鍵問題,因?yàn)閿?shù)據(jù)資產(chǎn)將根據(jù)與這些數(shù)據(jù)資產(chǎn)相關(guān)的特定目的和約束在云和本地之間進(jìn)行聯(lián)合。數(shù)據(jù)民主化是支持團(tuán)隊(duì)并從數(shù)據(jù)資產(chǎn)中產(chǎn)生價(jià)值并最大限度地降低與數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn)的關(guān)鍵。
在Hadoop上構(gòu)建集中式數(shù)據(jù)基礎(chǔ)架構(gòu)時(shí)嘗試進(jìn)行了一次修正,通過實(shí)施治理實(shí)踐和工具幫助企業(yè)避免創(chuàng)建數(shù)據(jù)沼澤。然而,用于管理數(shù)據(jù)資產(chǎn)和這些數(shù)據(jù)資產(chǎn)的可訪問性的治理基礎(chǔ)設(shè)施仍然存在重大差距。
鑒于從數(shù)據(jù)平臺之旅中吸取的教訓(xùn),在開始構(gòu)建混合云數(shù)據(jù)平臺的轉(zhuǎn)型之旅之前,企業(yè)應(yīng)謹(jǐn)慎考慮數(shù)據(jù)發(fā)現(xiàn)、可訪問性、民主化和治理能力、實(shí)踐和工具作為轉(zhuǎn)型的一部分,以最大限度地降低數(shù)據(jù)風(fēng)險(xiǎn)并從數(shù)據(jù)資產(chǎn)和混合云數(shù)據(jù)平臺中產(chǎn)生更大的價(jià)值。
需求很清楚,早期的孤立產(chǎn)品已經(jīng)成熟,可以提供精心策劃和統(tǒng)一的工具集,以匯集以下所有功能:
商業(yè)詞匯
編目數(shù)據(jù)
數(shù)據(jù)發(fā)現(xiàn)
數(shù)據(jù)可訪問性
IBM Cloud Pak for Data就是這樣一種統(tǒng)一的產(chǎn)品,它集成了數(shù)據(jù)管理、數(shù)據(jù)治理和分析,以提高效率并改進(jìn)資源的使用。Cloud Pak for Data可以部署在云端或本地,以符合混合云架構(gòu)和戰(zhàn)略以及企業(yè)的合規(guī)性要求。
我們的實(shí)施之一是為其中一家銀行創(chuàng)建下一代數(shù)據(jù)平臺,幫助簡化數(shù)據(jù)治理和數(shù)據(jù)操作。銀行的數(shù)據(jù)平臺包括
500多TB銀行DW和分析數(shù)據(jù)集市,用于客戶洞察、風(fēng)險(xiǎn)和監(jiān)管報(bào)告
800 TB對象存儲作為數(shù)據(jù)湖來提供各種數(shù)據(jù)集——結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,以支持?jǐn)?shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)要求
用于鏈接分析的圖形數(shù)據(jù)庫和用于Web日志和應(yīng)用程序日志的文檔數(shù)據(jù)庫
市場、政府和外部機(jī)構(gòu)數(shù)據(jù)集,用于分析經(jīng)濟(jì)指標(biāo)、資產(chǎn)相關(guān)信息和風(fēng)險(xiǎn)模式
用于實(shí)時(shí)分析的特定事務(wù)數(shù)據(jù)集
這種異構(gòu)環(huán)境正在與使用Cloud Pak for Data—Watson Knowledge Catalog和Data Virtualization組件的Enterprise Data Fabric的實(shí)現(xiàn)統(tǒng)一起來。
統(tǒng)一解決方案如下圖所示
數(shù)據(jù)虛擬化和治理目錄統(tǒng)一部署
Cloud Pak for Data的統(tǒng)一功能可滿足銀行數(shù)據(jù)運(yùn)營所需的數(shù)據(jù)需求,涵蓋數(shù)據(jù)平臺的治理、供應(yīng)和使用方面
解決方案解決的基于角色的功能
Watson Knowledge Catalog—Watson Knowledge Catalog提供端到端解決方案,用于維護(hù)用戶可以在分析項(xiàng)目中輕松使用的業(yè)務(wù)就緒數(shù)據(jù)。目錄是一種組織、標(biāo)記和搜索數(shù)據(jù)資產(chǎn)的方式。目錄中的資產(chǎn)由有關(guān)數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)組成。
定義業(yè)務(wù)術(shù)語以構(gòu)建跨業(yè)務(wù)的一致語言
創(chuàng)建自定義數(shù)據(jù)類,使自動數(shù)據(jù)剖析更準(zhǔn)確
使用分類來幫助編目必須如何處理數(shù)據(jù)。
通過自動發(fā)現(xiàn)和快速掃描發(fā)現(xiàn)數(shù)據(jù)。自動發(fā)現(xiàn)資產(chǎn)以進(jìn)行編目、發(fā)布元數(shù)據(jù)和跟蹤沿襲
定義和執(zhí)行治理政策和規(guī)則。支持監(jiān)督和管理活動的治理工作流
探索數(shù)據(jù)資產(chǎn)、術(shù)語、分析資產(chǎn)、用戶等之間的關(guān)系
數(shù)據(jù)虛擬化——通過為所有數(shù)據(jù)資產(chǎn)創(chuàng)建數(shù)據(jù)結(jié)構(gòu)(可擴(kuò)展數(shù)據(jù)訪問層和數(shù)據(jù)訪問規(guī)范模型),幫助銀行數(shù)據(jù)民主化。數(shù)據(jù)虛擬化提供查看、訪問、操作和分析數(shù)據(jù)的能力,而無需知道或了解其物理格式或位置,也無需移動或復(fù)制數(shù)據(jù)。
如下圖所示,在DV中創(chuàng)建一組數(shù)據(jù)資產(chǎn)。DV表發(fā)布到目錄中,收集指紋信息(質(zhì)量、配置文件、分類、分配業(yè)務(wù)術(shù)語、敏感信息檢測和連接要求)。這形成了銀行數(shù)據(jù)可訪問層的關(guān)鍵:
Cloud Pak for Data Constellation作為Data Fabric
該解決方案將私有云上的數(shù)據(jù)資產(chǎn)與本地?cái)?shù)據(jù)資產(chǎn)集成在一起。統(tǒng)一解決方案在數(shù)據(jù)虛擬化服務(wù)的幫助下提供無縫治理。
治理和數(shù)據(jù)結(jié)構(gòu)的集成視圖
為業(yè)務(wù)用戶提供跨數(shù)據(jù)資產(chǎn)的單一視圖
高度治理的數(shù)據(jù)平臺
無需移動數(shù)據(jù)即可進(jìn)行實(shí)時(shí)分析和數(shù)據(jù)配置
快速實(shí)現(xiàn)價(jià)值,投資回報(bào)率高