隨著企業(yè)在數(shù)字化轉(zhuǎn)型之旅中不斷前進(jìn),從數(shù)字交易中所獲取的大量數(shù)據(jù)正在穩(wěn)步增長(zhǎng),但對(duì)許多組織來說,從數(shù)據(jù)中提取智能仍然是一個(gè)難以實(shí)現(xiàn)的夢(mèng)。
根據(jù)分析公司IDC的全球數(shù)據(jù)圈預(yù)測(cè),2021年至2025年,商業(yè)和消費(fèi)者數(shù)據(jù)自去年以來一直在以約23%的復(fù)合年增長(zhǎng)率(CAGR)累積,其中企業(yè)數(shù)據(jù)的復(fù)合年增長(zhǎng)率為28%,預(yù)計(jì)到2025年將達(dá)到180ZB。云計(jì)算所創(chuàng)建的數(shù)據(jù)也在以每年36%的速度增長(zhǎng),而通過各種物聯(lián)網(wǎng)和傳感設(shè)備收集的邊緣數(shù)據(jù)則將以每年33%的速度增長(zhǎng),到2025年將占全球數(shù)據(jù)總量的22%。
對(duì)于企業(yè)來說,隨著數(shù)據(jù)量的增長(zhǎng),使數(shù)據(jù)具備計(jì)算能力的任務(wù)已經(jīng)變得更加復(fù)雜了,而企業(yè)只花費(fèi)很少的時(shí)間和精力來開發(fā)有效的數(shù)據(jù)管理流程和平臺(tái)來使數(shù)據(jù)易于操作。例如,許多公司收集了大量與客戶、訂單、產(chǎn)品使用、安裝基礎(chǔ)、維修單、故障日志和市場(chǎng)情報(bào)相關(guān)的數(shù)字交易數(shù)據(jù),但卻沒有好的方法來創(chuàng)建每個(gè)客戶或其業(yè)務(wù)的360度的視圖--盡管他們比以往任何時(shí)候都有更多的技術(shù)選擇來從數(shù)據(jù)中提取情報(bào)。
許多企業(yè)已經(jīng)到了這樣一種狀態(tài),他們清楚地知道,他們所擁有的數(shù)據(jù)量既不能提供持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì),也不能讓他們輕松地從中釋放價(jià)值。同時(shí),這種擴(kuò)大的數(shù)據(jù)所有權(quán)既增加了保密問題和實(shí)施成本,也增加了環(huán)境的復(fù)雜性。
邁向更好的數(shù)據(jù)管理戰(zhàn)略
當(dāng)前的狀態(tài)架構(gòu)是在沒有首先制定有效和智能地使用數(shù)據(jù)的策略,實(shí)現(xiàn)技術(shù)和碎片化過程的復(fù)雜組合以及依賴基于非常薄弱的數(shù)據(jù)基礎(chǔ)的數(shù)據(jù)工程實(shí)踐的情況下積累數(shù)據(jù)的結(jié)果。
在很大程度上,這些基礎(chǔ)是基于提取、轉(zhuǎn)換和加載(ETL)方法的--從多個(gè)源中提取數(shù)據(jù),通過ETL服務(wù)器將數(shù)據(jù)轉(zhuǎn)換為特定格式,然后將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫中,在那里可以對(duì)其進(jìn)行分析,并有望以商業(yè)智能的形式呈現(xiàn)。但是,數(shù)據(jù)轉(zhuǎn)換過程可能會(huì)有些復(fù)雜,并且需要大量計(jì)算,因?yàn)樗枰晦D(zhuǎn)換成一種可以被業(yè)務(wù)線數(shù)據(jù)庫識(shí)別和使用的格式。由于該過程涉及大量的I/O活動(dòng)、字符串處理和數(shù)據(jù)解析,因此也需要花費(fèi)大量的時(shí)間。
一個(gè)更好的數(shù)據(jù)管理策略是先對(duì)字母“ETL”進(jìn)行一點(diǎn)洗牌,然后采用一個(gè)從提取數(shù)據(jù)時(shí)就開始處理的過程,然后將其加載到特定的數(shù)據(jù)存儲(chǔ)庫中,這些存儲(chǔ)庫可以將數(shù)據(jù)分別轉(zhuǎn)換為更有用的和相關(guān)的形式。這種ELT方法是先將數(shù)據(jù)加載到你的目標(biāo)系統(tǒng),然后再進(jìn)行轉(zhuǎn)換,并會(huì)將這些任務(wù)轉(zhuǎn)移到單獨(dú)的基于云的數(shù)據(jù)倉(cāng)庫當(dāng)中。
不是使用單個(gè)的ETL引擎/服務(wù)器來轉(zhuǎn)換所有結(jié)構(gòu)化和非結(jié)構(gòu)化的原始數(shù)據(jù),而是使用ELT方法,將數(shù)據(jù)段傳送到特定的云數(shù)據(jù)倉(cāng)庫當(dāng)中,在那里這些部分將被單獨(dú)的轉(zhuǎn)換。結(jié)果是更少的I/O時(shí)間和更快的解析。
少一些混亂,多一些智能
基于ELT結(jié)構(gòu)的未來狀態(tài)數(shù)據(jù)架構(gòu)將著重于建立一個(gè)強(qiáng)大的數(shù)據(jù)基礎(chǔ)層和一個(gè)基于平臺(tái)的方法,為整個(gè)組織提供一個(gè)無所不包的數(shù)據(jù)管理解決方案。無論是物聯(lián)網(wǎng)數(shù)據(jù)、點(diǎn)擊流、銷售和營(yíng)銷智能、業(yè)務(wù)指標(biāo)還是用戶分析,未來的架構(gòu)都將依賴一個(gè)內(nèi)聚的平臺(tái)來縮小數(shù)據(jù)獲取和釋放價(jià)值之間的差距。
未來狀態(tài)架構(gòu)的一些關(guān)鍵考慮因素包括:
•基礎(chǔ)層功能的實(shí)現(xiàn),包括連接器、事件流、源寫回和MapReduce。下一層還將包括數(shù)據(jù)管理生命周期、數(shù)據(jù)建模、模式實(shí)施、數(shù)據(jù)隱私、治理、批準(zhǔn)、安全、數(shù)據(jù)項(xiàng)目和管理。
•該架構(gòu)的核心是一個(gè)發(fā)現(xiàn)和自我學(xué)習(xí)引擎,它可以從生態(tài)系統(tǒng)中的各種來源抓取和檢索數(shù)據(jù)--能夠適應(yīng)不斷變化的業(yè)務(wù)需求,并吸收適當(dāng)數(shù)量的可計(jì)算數(shù)據(jù)。
•為了滿足符合數(shù)據(jù)隱私法規(guī)的現(xiàn)實(shí),數(shù)據(jù)結(jié)構(gòu)和持久性抽象需要為數(shù)據(jù)駐留提供解決方案。
未來狀態(tài)架構(gòu)的最終目標(biāo)是通過獲取可計(jì)算的數(shù)據(jù)元素來消除長(zhǎng)時(shí)間運(yùn)行的查詢和與業(yè)務(wù)數(shù)據(jù)的連接,從而優(yōu)化數(shù)據(jù)存儲(chǔ)和處理資源的使用。這不僅可以將存儲(chǔ)的數(shù)據(jù)量減少到我們今天所需存儲(chǔ)的一小部分,還可以提高企業(yè)釋放有用且可操作商業(yè)智能的速度。