昔日的數(shù)據(jù)架構已經無法滿足當今對速度、靈活性和創(chuàng)新的需求。成功升級的關鍵(也是巨大的潛在回報)是敏捷性。
在過去的幾年中,組織不得不迅速在原有基礎設施的基礎上部署各種新的數(shù)據(jù)技術,從而推動由市場驅動的各種創(chuàng)新,例如定制化的報價、實時警報和預測性維護。
但是,數(shù)據(jù)湖、客戶分析平臺、流處理等技術的加入極大地增加了數(shù)據(jù)架構的復雜性,這些技術往往嚴重妨礙了組織提供新功能,維護現(xiàn)有基礎設施以及持續(xù)確保人工智能模型的完整性。
當前的市場動態(tài)不容放緩。亞馬遜和谷歌等先進的公司一直在利用人工智能技術創(chuàng)新來顛覆傳統(tǒng)的商業(yè)模式,而這就要求落后者重新構想自身業(yè)務的各個方面以跟上發(fā)展的步伐。云提供商已經推出了最前沿的產品(例如可以立即部署的無服務器數(shù)據(jù)平臺),這些產品使采用者享有更快的上市時間并且具備更高的敏捷性。Analytics(分析)用戶要求使用更多兼容性強的工具(如自動模型部署平臺),以便他們可以更快地使用新模型。許多組織已經采用了應用程序編程接口(API),使來自不同系統(tǒng)的數(shù)據(jù)能夠接觸到數(shù)據(jù)湖并迅速將洞察直接集成到前端的應用程序中。如今,隨著各大公司紛紛開始研究由冠狀病毒(COVID-19)大流行所引起的前所未有的人道主義危機并為下一次正常運轉做準備,它們對靈活性和速度的需求只會增加而不會減少。
對于要加強競爭優(yōu)勢(甚至是保持同等優(yōu)勢)的公司,它們必須以一種新的方法來定義、實施和集成數(shù)據(jù)棧,同時利用云(除了基礎架構即服務)以及各種新的概念和組件。
打造顛覆性數(shù)據(jù)架構的六個轉變
我們發(fā)現(xiàn),各大公司正在對其數(shù)據(jù)體系結構藍圖做出六項根本性的轉變,這些轉變可以更快地交付新功能并大大簡化現(xiàn)有的體系結構方法。這些轉變幾乎涉及所有的數(shù)據(jù)活動,包括采集、處理、存儲、分析和公開。盡管組織可以在實施一些轉變的同時使其核心技術棧不受任何影響,但許多組織仍需要對現(xiàn)有數(shù)據(jù)平臺和基礎設施進行仔細的架構調整,包括以前使用的各種遺留技術和比較新的技術。
這樣的工作并非微不足道。為創(chuàng)建基本用例(例如自動報告)的功能而進行的投資往往高達數(shù)千萬美元,而用于部署尖端功能的體系結構組件(例如為了與最具創(chuàng)新力的顛覆者競爭的各種實時服務)的投資則可能高達數(shù)億美元。因此,對于組織而言,制定清晰的戰(zhàn)略計劃至關重要,數(shù)據(jù)和技術領導者必須做出大膽的選擇,以優(yōu)先考慮那些將直接影響業(yè)務目標的轉變,并投資于復雜度適中的體系結構。因此,各大公司之間的數(shù)據(jù)架構藍圖往往看起來截然不同。
如果投資得當,投資回報將非常豐厚(有一家美國銀行每年可賺取5億多美元,一家石油和天然氣公司則實現(xiàn)了12%至15%的利潤率增長)。我們發(fā)現(xiàn),這類收益來自方方面面:節(jié)省IT成本、提高生產率、降低法規(guī)和運營風險以及提供全新的功能,新服務乃至整個業(yè)務。
那么,組織需要考慮哪些關鍵變革?
1. 從本地數(shù)據(jù)平臺到基于云的數(shù)據(jù)平臺
云可能是一種全新的數(shù)據(jù)架構方法的最具顛覆性的推動力,因為它為公司提供了一種快速擴展人工智能工具和功能以獲取競爭優(yōu)勢的方法。亞馬遜(Amazon Web Services)、谷歌(Google Cloud Platform)和微軟(Microsoft Azure)等主要云提供商已經徹底改變了各大組織大規(guī)模采購,部署和運行數(shù)據(jù)基礎設施、平臺和應用程序的方式。
例如,有一家公用事業(yè)服務公司將基于云的數(shù)據(jù)平臺與容器技術相結合,該技術用微服務(例如搜索賬單數(shù)據(jù)或向帳戶添加各種新屬性)將應用程序功能模塊化。這使公司能夠在幾天(而不是幾個月)的時間內向大約100000個業(yè)務客戶部署新的自助式服務功能,為最終用戶提供大量的實時庫存和交易數(shù)據(jù)以進行分析并通過在云中(而不是在更昂貴的本地舊系統(tǒng)上)“緩沖”交易來降低成本。
管用的概念和組件
●無服務器數(shù)據(jù)平臺(如Amazon S3和Google BigQuery)使組織可以無限地創(chuàng)建和運行以數(shù)據(jù)為主的各種應用程序,而無需安裝和配置解決方案或管理工作負載。此類產品可以降低專業(yè)門檻,將部署時間從數(shù)周縮短至幾分鐘,而且?guī)缀鯖]有產生任何運營開銷。
●由于使用了Kubernetes的容器化數(shù)據(jù)解決方案(可通過云提供商以及開放源代碼獲得,并且可以快速集成和部署),公司能夠脫離其他計算能力和數(shù)據(jù)存儲系統(tǒng)的部署并將這項工作自動化。此功能可以確保設置高度復雜的數(shù)據(jù)平臺(例如,將數(shù)據(jù)從一個應用程序會話保留到另一個應用程序會話所需的數(shù)據(jù)平臺,以及具有復雜備份和恢復要求的數(shù)據(jù)平臺)可以擴展以滿足需求,因此它特別有用。
2. 從批處理到實時數(shù)據(jù)處理
實時數(shù)據(jù)通信和流媒體功能的成本已大大降低,這為其主流使用鋪平了道路。這些技術實現(xiàn)了一系列新的業(yè)務應用:例如,運輸公司可以在出租車到達時向客戶提供精確到秒的抵達時間預測;保險公司可以分析來自智能設備的實時行為數(shù)據(jù),從而將費率客制化;而且制造商可以根據(jù)實時的傳感器數(shù)據(jù)來預測基礎設施方面的各種問題。
訂閱機制等實時流媒體功能使數(shù)據(jù)消費者(包括數(shù)據(jù)集市和數(shù)據(jù)驅動的員工)可以訂閱各種“主題”,以便他們可以獲取所需交易的持續(xù)更新。通用數(shù)據(jù)湖通常充當此類服務的“大腦”,它保留了所有細粒度的事務。
管用的概念和組件
●Apache Kafka之類的消息通信平臺提供了完全可擴展,持久且具備容錯能力的發(fā)布/訂閱服務,該服務每秒可以處理和存儲數(shù)百萬條消息,以供立即使用或以后使用。與傳統(tǒng)的企業(yè)通信隊列相比,這可以支持實時用例,繞過現(xiàn)有的基于批處理的解決方案并且占用的空間更少(占用的成本基礎也更少)。
●流處理和分析解決方案(例如Apache Kafka流、Apache Flume、Apache Storm和Apache Spark流)實現(xiàn)了實時對消息進行直接的分析。該分析可以基于規(guī)則,也可以包括高級分析,從而在數(shù)據(jù)中提取事件或信號。分析往往會整合眾多歷史數(shù)據(jù)以比較各種模式,這在推薦和預測引擎中尤其重要。
●Graphite或Splunk之類的警報平臺可以向用戶觸發(fā)各種業(yè)務操作,例如,如果銷售代表沒有達到每天的銷售目標,那么他們就會得到通知,或者將這些操作集成到可能運行于ERP或CRM的現(xiàn)有流程中。
3. 從預集成的商業(yè)解決方案到模塊化的同類最佳平臺
為了擴展應用程序的規(guī)模,公司往往需要沖破大型解決方案供應商所提供的遺留數(shù)據(jù)生態(tài)系統(tǒng)的限制。現(xiàn)在,許多公司正朝著高度模塊化的數(shù)據(jù)架構發(fā)展,這種架構使用了最佳的,經常使用的開源組件,這些組件可以根據(jù)需要被新技術替換而不會影響數(shù)據(jù)架構的其他部分。
前面提到的那家公用事業(yè)服務公司正在向這種方法過渡,從而快速向數(shù)百萬客戶提供新的,以數(shù)據(jù)為主的各種數(shù)字化服務并大規(guī)模地接入基于云的各種應用程序。例如,該公司每天都會準確地顯示客戶的能源消耗和比較了同儕消費的實時的分析洞察。該公司建立了一個獨立的數(shù)據(jù)層,該數(shù)據(jù)層包含各種商業(yè)數(shù)據(jù)庫和開源組件。數(shù)據(jù)通過專有的企業(yè)服務總線與后端系統(tǒng)同步,而托管在容器中的各個微服務在數(shù)據(jù)中運行業(yè)務邏輯。
管用的概念和組件
●數(shù)據(jù)管道和基于API的接口簡化了不同工具和平臺之間的集成,其方法是使數(shù)據(jù)團隊免受不同層的復雜性的困擾,縮短產品上市時間并減少在現(xiàn)有應用程序中引起新問題的機會。當需求發(fā)生變化是,這些接口還使單個組件更容易更換。
●Amazon Sagemaker和Kubeflow等分析工作臺可簡化高度模塊化架構中的端到端解決方案的創(chuàng)建。這樣的工具可以與各種各樣的基礎數(shù)據(jù)庫和服務連接并使高度模塊化的設計成為現(xiàn)實。
4. 從點對點到脫離數(shù)據(jù)訪問
人們可以通過API來揭露數(shù)據(jù),這樣可以確保直接查看和修改數(shù)據(jù)的做法是受限且安全的,同時還可以讓人們更快地訪問常見的數(shù)據(jù)集。這使得數(shù)據(jù)可以在團隊之間輕松得到重用(reused),從而加速訪問并實現(xiàn)分析團隊之間的無縫協(xié)作,從而可以更高效地開發(fā)各種人工智能用例。
例如,有一家制藥公司正在通過API為所有員工創(chuàng)建內部“數(shù)據(jù)市場”,以簡化和標準化對核心數(shù)據(jù)資產的使用,而不是依賴各種專有接口。該公司將在18個月內逐步將其最有價值的現(xiàn)有數(shù)據(jù)饋送(data feed)遷移到基于API的結構中,同時部署API管理平臺以向用戶展示各種API。
管用的概念和組件
●企業(yè)必須創(chuàng)建一個API管理平臺(通常稱為API網關)以創(chuàng)建和發(fā)布以數(shù)據(jù)為主的API,實施使用策略,控制訪問并衡量使用情況和性能。該平臺還可以讓開發(fā)人員和用戶搜索現(xiàn)有數(shù)據(jù)接口并重用這些接口,而不是創(chuàng)建新的數(shù)據(jù)接口。API網關通常作為數(shù)據(jù)中心內的單獨區(qū)域而被嵌入,但它也可以作為中心外的獨立功能開發(fā)。
●企業(yè)往往需要一個數(shù)據(jù)平臺來“緩沖”核心系統(tǒng)之外的各種事務。這樣的緩沖區(qū)可以由數(shù)據(jù)湖之類的中央數(shù)據(jù)平臺或在分布式數(shù)據(jù)網格中提供,這個分布式數(shù)據(jù)網格是一個生態(tài)系統(tǒng),它由為每個業(yè)務域的預期數(shù)據(jù)的使用情況和負載創(chuàng)建的最佳平臺(包括數(shù)據(jù)湖、數(shù)據(jù)倉庫等)組成。例如,有一家銀行創(chuàng)建了一個縱列數(shù)據(jù)庫(columnar database),以便直接向線上銀行和移動銀行應用程序提供客戶信息(例如最近的金融交易)并減少大型機上昂貴的工作量。
5. 從企業(yè)倉庫到基于域的架構
許多負責數(shù)據(jù)架構的領導者已經從中央企業(yè)數(shù)據(jù)湖轉向“域驅動”的設計,這些設計可以定制并“合乎某個目的”,從而縮短新的數(shù)據(jù)產品和服務的上市時間。由于用了這種方法,雖然數(shù)據(jù)集可能仍駐留在相同的物理平臺上,但每個業(yè)務領域(例如,市場營銷,銷售,制造等)中的“產品負責人”的任務就是以易于使用的方式來組織數(shù)據(jù)集,使其既適用于域內的用戶,也適用于其他業(yè)務域中的下游數(shù)據(jù)使用者。這種方法需要謹慎地權衡,以免變得支離破碎和效率低下,但是它可以減少在數(shù)據(jù)湖中創(chuàng)建新數(shù)據(jù)模型所需的時間(通常從數(shù)月縮短至數(shù)天),在反映聯(lián)合業(yè)務結構或遵守數(shù)據(jù)移動性的法規(guī)限制時,它可以是一種更簡單有效的選擇。
有一家歐洲電信提供商使用了分布式的基于域的架構,因此銷售和運營人員可以將客戶、訂單和賬單等數(shù)據(jù)提供給數(shù)據(jù)科學家用于人工智能模型或直接通過數(shù)字渠道提供給客戶。該公司部署了由公司銷售和運營團隊中的產品負責人管理的各種邏輯平臺,而不是創(chuàng)建一個中心化的數(shù)據(jù)平臺。該公司還激勵產品負責人使用數(shù)據(jù)進行分析并使用數(shù)字渠道、論壇和黑客馬拉松來推動采用。
管用的概念和組件
●作為平臺的數(shù)據(jù)基礎設施提供了用于存儲和管理的一系列通用工具和功能,以加快實施速度并使數(shù)據(jù)生產者不必創(chuàng)建自己的數(shù)據(jù)資產平臺。
●數(shù)據(jù)虛擬化技術始于客戶數(shù)據(jù)之類的小眾領域,這些技術如今已為各大企業(yè)所采用,以此來管理人們對分布式數(shù)據(jù)資產的使用并將分布式數(shù)據(jù)資產整合進來。
●即便企業(yè)沒有獲得完全訪問權或沒有做好充分準備,數(shù)據(jù)編目工具也能讓企業(yè)搜索和研究數(shù)據(jù)。該目錄通常還提供元數(shù)據(jù)定義和端到端接口,以簡化對數(shù)據(jù)資產的訪問。
6. 從嚴格的數(shù)據(jù)模型到靈活的,可擴展的數(shù)據(jù)模式
來自軟件供應商的預定義數(shù)據(jù)模型和滿足特定業(yè)務智能需求的專有數(shù)據(jù)模型往往都創(chuàng)建于高度標準化的架構(schema)中,這些架構具有固定的數(shù)據(jù)庫表和數(shù)據(jù)元素,從而最大程度地減少冗余。盡管此方法仍然是數(shù)據(jù)報送和以法規(guī)為中心的用例的標準,但它也要求組織在合并新的數(shù)據(jù)元素或數(shù)據(jù)源時經歷漫長的開發(fā)周期并具備豐富的系統(tǒng)知識,因為任何更改都可能影響數(shù)據(jù)的完整性。
為了在研究數(shù)據(jù)或支持高級分析時獲得更大的靈活性和強大的競爭優(yōu)勢,公司正朝著“架構簡化(schema-light)”的方法發(fā)展,它們使用物理表較少的非規(guī)范化數(shù)據(jù)模型來組織數(shù)據(jù)以實現(xiàn)最佳性能。這種方法好處頗多——靈活的數(shù)據(jù)探索,更靈活地存儲結構化和非結構化數(shù)據(jù)以及降低復雜性,因為數(shù)據(jù)領導者不再需要引入其它抽象層(例如高度規(guī)范化的表之間的多個“聯(lián)接”)來查詢關系數(shù)據(jù)。
管用的概念和組件
●數(shù)據(jù)點建模技術(例如Data vault 2.0)可以確保數(shù)據(jù)模型可擴展,以便將來可以在有限的中斷范圍內添加或刪除數(shù)據(jù)元素。
●圖形數(shù)據(jù)庫是NoSQL數(shù)據(jù)庫的一種,這種數(shù)據(jù)庫近年來頗受關注。一般來說,NoSQL數(shù)據(jù)庫非常適合需要大量可伸縮性和實時功能的數(shù)字應用程序以及服務于人工智能應用程序的數(shù)據(jù)層,這是因為它們可以利用非結構化數(shù)據(jù)。尤其是圖形數(shù)據(jù)庫,提供了以強大而靈活的方式對數(shù)據(jù)之間的關系進行建模的功能,許多公司正在使用圖形數(shù)據(jù)庫來創(chuàng)建主數(shù)據(jù)庫,以適應不斷變化的信息模型。
●Azure Synapse Analytics之類的技術服務使人們可以訪問類似于關系數(shù)據(jù)庫的基于文件的數(shù)據(jù),其方法是將各種表結構動態(tài)地應用到各種文件。用戶得以靈活地在訪問存儲于文件中的數(shù)據(jù)時繼續(xù)使用各種通用接口(例如SQL)。
●使用JavaScript對象表示法(JSON)來存儲信息,這使組織可以更改數(shù)據(jù)庫結構而不必更改業(yè)務信息模型。
如何開始
數(shù)據(jù)技術正在迅速發(fā)展,這使定義三到五年的目標架構的狀態(tài)并朝著這個方向努力的傳統(tǒng)工作既充滿風險又效率低下。只要制定各種使數(shù)據(jù)領導者和技術領導者快速評估和部署各種新技術的實踐,以便他們快速適應,那么他們就能得到更好的服務。下面來看看四種重要的做法:
●將測試中學習的思維方式應用于架構創(chuàng)建并嘗試使用各種不同的組件和概念。這種敏捷實踐已經在應用程序開發(fā)中應用了很長時間并且最近在數(shù)據(jù)領域得到沿用。例如,領導者可以從較小的預算開始,創(chuàng)建最小可行產品或者將現(xiàn)有的開源工具整合起來創(chuàng)建一個臨時產品并將其投入生產(使用云來加速這個過程),以便它們可以在得到擴展和進一步發(fā)展之前展示其價值;相反,領導者不應該為了找到“完美”的選擇而參與有關最佳設計,產品和供應商的漫長討論,然后再進行冗長的預算批準。
●建立數(shù)據(jù)“部落”,由數(shù)據(jù)管理人員,數(shù)據(jù)工程師和數(shù)據(jù)建模人員組成的團隊負責創(chuàng)建端到端的數(shù)據(jù)體系結構。這些部落還致力于創(chuàng)建標準的,可重復的數(shù)據(jù)工程流程和特征工程流程,從而為開發(fā)高度可建模的數(shù)據(jù)集提供支持。這些敏捷的數(shù)據(jù)實踐有助于加快各種新數(shù)據(jù)服務的上市時間。
●投資數(shù)據(jù)運維(DataOps,即用于數(shù)據(jù)的強化了的DevOps)有助于加快新組件在數(shù)據(jù)體系結構中的設計,開發(fā)和部署,以便團隊可以根據(jù)反饋快速實施和頻繁更新各種解決方案。
●創(chuàng)建這樣一種數(shù)據(jù)文化,在這種文化氛圍里,員工希望在其職務范圍內應用各種新的數(shù)據(jù)服務。實現(xiàn)這一目標的一個重要工具是確保數(shù)據(jù)戰(zhàn)略與業(yè)務目標相關聯(lián)并在高管向組織發(fā)出的信息中得到反映,這有助于強調這項工作對業(yè)務團隊的重要性。
隨著數(shù)據(jù)、分析和人工智能在大多數(shù)組織的日常運營中得到越來越深入的應用,為了創(chuàng)建和發(fā)展以數(shù)據(jù)為中心的企業(yè)而對數(shù)據(jù)架構采取截然不同的方法是十分必要的,這是顯而易見的。那些采用這種新方法的數(shù)據(jù)和技術領導者可以更好地定位自己的公司,即具備敏捷性,彈性并且在未來具有競爭力。