如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。
規(guī)劃云遷移的大型企業(yè)也是如此。按需容量,低成本存儲以及豐富的開源和商業(yè)工具生態(tài)系統(tǒng)的前景十分激動人心。但是風(fēng)險是真實存在的,特別是在數(shù)據(jù)遷移方面。數(shù)百家公司現(xiàn)在已經(jīng)證明,單一數(shù)據(jù)泄露可能會造成長期的經(jīng)濟,法律和品牌上的損失。除了數(shù)據(jù)保護之外,僅僅管理云中的數(shù)據(jù)是不同的,如果做法不當,成本,復(fù)雜性和風(fēng)險會使一切毀于一旦。
將數(shù)據(jù)倉庫或數(shù)據(jù)湖泊簡單地“提升并轉(zhuǎn)移”到云中將不會產(chǎn)生成本節(jié)省來證明這其中付出的合理性。對總擁有成本(TCO)和規(guī)模都有顯著影響的云技術(shù)是低成本的對象存儲和彈性數(shù)據(jù)處理。事實上,利用這些措施來建立一個彈性的(而不是固定的)數(shù)據(jù)管理云環(huán)境,這可以將總擁有成本降低85%之多。
管理云中的數(shù)據(jù)需要多少成本?
需要注意的是,降低數(shù)據(jù)存儲成本的技術(shù)提供的數(shù)據(jù)管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng))所具備的數(shù)據(jù)完整性控制、負載平衡和自動化。同樣,S3比Hadoop數(shù)據(jù)節(jié)點上的存儲更便宜,但它只是一個文件系統(tǒng)。沒有表,字段或數(shù)據(jù)類型。如果你要在S3上查詢或處理數(shù)據(jù),你需要使用商業(yè)或開源工具或編寫自定義程序。為了管理和更新S3中的數(shù)據(jù),你需要一個數(shù)據(jù)管理工具。數(shù)據(jù)保護僅限于加密文件——當你想要分析在某些字段中具有PII的數(shù)據(jù)集時,數(shù)據(jù)保護功能不是很有用。盡管對象存儲可擴展,價格低廉且靈活,但它使數(shù)據(jù)管理倒退了幾十年。
與很多不成熟的技術(shù)一樣,對象存儲的局限性也被鼓吹為功能特性。它們“允許”程序員處理任意大小,形狀或質(zhì)量的數(shù)據(jù),并解釋其結(jié)構(gòu)和內(nèi)容。這種“讀取模式(schema on read)”方法適于處理非結(jié)構(gòu)化數(shù)據(jù)或頻繁更改結(jié)構(gòu)的數(shù)據(jù)。但它妨礙了自動化、標準化和規(guī)?;?,這對于協(xié)作和重用來說至關(guān)重要,因為數(shù)據(jù)的含義隱藏在代碼中。這聽起來是不是很熟悉?是的。關(guān)系數(shù)據(jù)庫的口號就是要使數(shù)據(jù)的結(jié)構(gòu)和含義成為聲明式的,而不是嵌入在COBOL重定義中(你可以去查)。
根據(jù)目錄優(yōu)先策略建立的紐帶
高度結(jié)構(gòu)化的數(shù)據(jù)庫和“為所欲為”的對象存儲之間的紐帶是數(shù)據(jù)目錄。目錄是一個共享數(shù)據(jù)庫,為對象庫中的數(shù)據(jù)提供結(jié)構(gòu)和含義。Hadoop目錄包括HIVE、Atlas和Navigator,它們定義了HDFS文件如何構(gòu)成表和字段。通過API,程序可以查詢目錄來查找邏輯數(shù)據(jù)對象的結(jié)構(gòu),其技術(shù)和業(yè)務(wù)屬性,訪問權(quán)限以及數(shù)據(jù)文件的位置。然后這些程序可以將洞察和結(jié)果推回到目錄中以豐富它。
但是,很多云目錄都是被動的——它們掃描文件和日志,在數(shù)據(jù)得到處理后推斷數(shù)據(jù)的結(jié)構(gòu)和使用。然而,數(shù)據(jù)管理必須是主動的,以確保敏感數(shù)據(jù)不會暴露,重要的數(shù)據(jù)標準得到了遵守,圖謀不軌者不會實施不牢靠的計劃。所有云遷移都應(yīng)采用以目錄為中心的策略:
所有共享和敏感數(shù)據(jù)都在一個通用目錄中注冊
所有程序都將通過目錄訪問數(shù)據(jù)并記錄其活動
這使得公司可以提供支持各種快速發(fā)展的技術(shù)的基本數(shù)據(jù)管理。S3上的數(shù)據(jù)湖泊可以支持Hadoop處理、自定義PySpark代碼、R分析等,同時維護(并豐富)共享數(shù)據(jù)資產(chǎn)。此外,人們還可以制定一個如何存儲,更新和檢查數(shù)據(jù)質(zhì)量的標準,從而實現(xiàn)這些任務(wù)的自動化。
目錄還支持彈性,這對云經(jīng)濟至關(guān)重要。目錄可以在一臺服務(wù)器上全天候提供使用,它支持業(yè)務(wù)用戶購買數(shù)據(jù),開發(fā)人員設(shè)計新數(shù)據(jù)產(chǎn)品,管理員檢查質(zhì)量并添加業(yè)務(wù)定義。只有數(shù)據(jù)處理任務(wù)(如數(shù)據(jù)加載、刷新、準備和分析)需要并行處理能力。關(guān)系數(shù)據(jù)庫和Hadoop習(xí)慣上將存儲,處理和目錄結(jié)合在一個固定的系統(tǒng)中,隨著數(shù)據(jù)的增長,成本會全線上升。在新的世界里,目錄又是處理能力和廉價存儲之間的橋梁。大量的數(shù)據(jù)可以通過目錄進行合理管理,并且可以控制處理成本。實際上,如果目錄具有分析統(tǒng)計信息(例如基數(shù)、最小值、最大值),那么它就可以優(yōu)化數(shù)據(jù)的處理。
以目錄為中心的另一個好處是可移植性。云供應(yīng)商迫切希望你注冊他們的集成的專有工具。這就是他們的策略——一旦他們的應(yīng)用程序中擁有你的數(shù)據(jù)和代碼,他們就掌握了你。目錄為你提供了選擇——我們確實在一個周末將一個客戶從一家云供應(yīng)商遷移到另一家供應(yīng)商,因為另一家供應(yīng)商是由目錄驅(qū)動并自動化的。
在防火墻后面,目錄優(yōu)先策略是最好的,它使你對以目錄為中心的戰(zhàn)略做好準備。自動編目工具可以使你在幾周內(nèi)洞悉所有的數(shù)據(jù)資產(chǎn)(關(guān)系型、大型機、Hadoop、文件),并為你提供遷移劇本(playbook)。
我們應(yīng)該遷移什么資源?
GDPR和PII數(shù)據(jù)在哪里?
我們應(yīng)該將哪些重復(fù)的和相關(guān)的數(shù)據(jù)合理化?
什么是各個字段的配置文件,內(nèi)容和質(zhì)量?
人們的目標就是通過可驗證的審計跟蹤(audit trail)來創(chuàng)建云就緒(cloud-ready)數(shù)據(jù),以證明其來源、血緣和質(zhì)量。此外,目錄通過對廣泛用戶群體的安全,自助訪問為敏捷性和擴展性提供了基礎(chǔ)。如果你深入了解了要遷移到云的數(shù)據(jù)以及用來管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。