2022年數(shù)據(jù)分析的6大趨勢(shì)

互聯(lián)網(wǎng)胖子君
企業(yè)數(shù)據(jù)分析有兩種方法。首先是從CRM和ERP等業(yè)務(wù)應(yīng)用程序中獲取數(shù)據(jù),并將其導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)以提供給BI工具。現(xiàn)在,這些數(shù)據(jù)倉(cāng)庫(kù)正在遷移到云端,采用Snowflake等技術(shù)。

幾十年來(lái),數(shù)據(jù)管理的本質(zhì)還是意味著收集、儲(chǔ)存和不時(shí)的訪(fǎng)問(wèn)。近年來(lái),隨著技術(shù)的提升企業(yè)可以從企業(yè)數(shù)據(jù)中心到云空間和業(yè)務(wù)邊緣(生成、訪(fǎng)問(wèn)和儲(chǔ)存)的大數(shù)據(jù)中提取到關(guān)鍵信息導(dǎo)致這一切都發(fā)生了變化。在這個(gè)前提下,由于AI和機(jī)器學(xué)習(xí)等現(xiàn)代ji's技術(shù)的幫助下數(shù)據(jù)分析已經(jīng)成為企業(yè)必備功能,在即將到來(lái)的2022年,這將顯得格外重要。

企業(yè)如果需要通過(guò)從大部分的非結(jié)構(gòu)化的數(shù)據(jù)中進(jìn)行快速解析,來(lái)找到可以推動(dòng)企業(yè)決策的信息。那么他們還需要?jiǎng)?chuàng)建一個(gè)現(xiàn)代化的數(shù)據(jù)環(huán)境來(lái)實(shí)現(xiàn)這一目標(biāo)。

2345截圖20211028093243.png

以下是將在2022年脫穎而出的一些數(shù)據(jù)管理的趨勢(shì)。

在非結(jié)構(gòu)化差距存在的情況下,數(shù)據(jù)湖變得更加有條理

企業(yè)數(shù)據(jù)分析有兩種方法。首先是從CRM和ERP等業(yè)務(wù)應(yīng)用程序中獲取數(shù)據(jù),并將其導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)以提供給BI工具?,F(xiàn)在,這些數(shù)據(jù)倉(cāng)庫(kù)正在遷移到云端,采用Snowflake等技術(shù)。由于數(shù)據(jù)具有一致的架構(gòu),這種方法很好理解。

第二種方法是獲取任何原始數(shù)據(jù)并將其直接導(dǎo)入到數(shù)據(jù)湖中,而無(wú)需任何預(yù)處理。這很吸引人,因?yàn)槿魏晤?lèi)型的數(shù)據(jù)都可以流入數(shù)據(jù)湖,這就是Amazon S3成為大規(guī)模數(shù)據(jù)湖的原因。問(wèn)題是,某些數(shù)據(jù)比其他數(shù)據(jù)更容易處理。例如,日志文件、基因組學(xué)數(shù)據(jù)、音頻、視頻、圖像文件等不能完全適合數(shù)據(jù)倉(cāng)庫(kù),因?yàn)樗鼈內(nèi)狈σ恢碌慕Y(jié)構(gòu),這意味著很難搜索數(shù)據(jù)。正因?yàn)槿绱耍瑪?shù)據(jù)湖最終會(huì)成為數(shù)據(jù)沼澤:搜索、提取和分析所需內(nèi)容太難了。

現(xiàn)在的大趨勢(shì)和2022年持續(xù)的數(shù)據(jù)趨勢(shì)是數(shù)據(jù)湖房屋的出現(xiàn),由DataBricks流行起來(lái),用于創(chuàng)建具有半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)湖,這些數(shù)據(jù)確實(shí)具有一定的語(yǔ)義一致性。例如,Excel文件就像一個(gè)數(shù)據(jù)庫(kù),即使它不是數(shù)據(jù)庫(kù),因此數(shù)據(jù)湖房屋利用半結(jié)構(gòu)化數(shù)據(jù)的一致架構(gòu)。雖然這適用于.csv文件、Parquet文件和其他半結(jié)構(gòu)化數(shù)據(jù),但它仍然不能解決非結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題,因?yàn)榇藬?shù)據(jù)沒(méi)有明顯的通用結(jié)構(gòu)。您需要某種方法來(lái)索引和推斷非結(jié)構(gòu)化數(shù)據(jù)的通用結(jié)構(gòu),以便可以針對(duì)數(shù)據(jù)分析進(jìn)行優(yōu)化。這種用于分析的非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化是一個(gè)很大的創(chuàng)新領(lǐng)域,特別是因?yàn)楫?dāng)今世界上至少有80%的數(shù)據(jù)是非結(jié)構(gòu)化的。

2345截圖20211028093243.png

平民化科學(xué)將成為2022年最有影響力趨勢(shì)

為了實(shí)現(xiàn)數(shù)據(jù)科學(xué)的民主化,云提供商將開(kāi)發(fā)和發(fā)布更多的機(jī)器學(xué)習(xí)應(yīng)用程序和其他構(gòu)建塊工具,例如特定于領(lǐng)域的機(jī)器學(xué)習(xí)工作流。這是一個(gè)開(kāi)創(chuàng)性的趨勢(shì),因?yàn)殡S著時(shí)間的推移,個(gè)人需要編碼的水平將會(huì)降低。這將使機(jī)器學(xué)習(xí)為更多的工作角色打開(kāi)大門(mén):其中一些公民科學(xué)家將在中央IT部門(mén)工作,一些人將生活在業(yè)務(wù)范圍內(nèi)。DataFocus只是我們將在2022年看到更多低代碼/無(wú)代碼工具的一個(gè)例子。公民科學(xué)還處于萌芽階段,但它絕對(duì)是市場(chǎng)的發(fā)展方向,也是即將到來(lái)的2022年數(shù)據(jù)趨勢(shì)。數(shù)據(jù)平臺(tái)和數(shù)據(jù)管理解決方案為用戶(hù)提供了消費(fèi)者般的簡(jiǎn)單性來(lái)搜索,提取和使用數(shù)據(jù),將越來(lái)越突出。

“正確的數(shù)據(jù)”分析將超過(guò)大數(shù)據(jù)分析,成為2022年的關(guān)鍵趨勢(shì)

大數(shù)據(jù)太大了,正在創(chuàng)造難以利用的數(shù)據(jù)沼澤。無(wú)論數(shù)據(jù)創(chuàng)建位置如何,都能精確地找到正確的數(shù)據(jù)并將其引入以進(jìn)行數(shù)據(jù)分析,這將改變游戲規(guī)則,因?yàn)樗鼘⒐?jié)省大量時(shí)間和手動(dòng)工作,同時(shí)提供更相關(guān)的分析。因此,一個(gè)新的趨勢(shì)將是所謂的"正確數(shù)據(jù)分析"的發(fā)展,而不是大數(shù)據(jù)。

2345截圖20211028093243.png

數(shù)據(jù)分析"到位"將占主導(dǎo)地位

一些預(yù)測(cè)者表示,云數(shù)據(jù)湖將是收集和處理數(shù)據(jù)以進(jìn)行不同研究活動(dòng)的最終場(chǎng)所。雖然云數(shù)據(jù)湖肯定會(huì)獲得牽引力,但數(shù)據(jù)堆積在任何地方:邊緣,云中和本地存儲(chǔ)中。這要求在某些情況下需要處理和分析數(shù)據(jù),而不是將其移動(dòng)到中心位置,因?yàn)檫@樣做更快,更便宜。您如何不僅在邊緣搜索數(shù)據(jù),而且在將數(shù)據(jù)發(fā)送到云之前,還要在本地處理大量數(shù)據(jù)?您可以將基于云的數(shù)據(jù)分析工具用于更大、更復(fù)雜的項(xiàng)目。我們將看到更多的"邊緣云",其中計(jì)算來(lái)到數(shù)據(jù)中心的邊緣,而不是數(shù)據(jù)進(jìn)入云。

與存儲(chǔ)無(wú)關(guān)的數(shù)據(jù)管理將成為現(xiàn)代數(shù)據(jù)結(jié)構(gòu)的關(guān)鍵組成部分

數(shù)據(jù)結(jié)構(gòu)是一種架構(gòu),可提供數(shù)據(jù)的可見(jiàn)性,并能夠跨混合存儲(chǔ)和云資源移動(dòng)、復(fù)制和訪(fǎng)問(wèn)數(shù)據(jù)。通過(guò)近乎實(shí)時(shí)的分析,它使數(shù)據(jù)所有者能夠控制其數(shù)據(jù)在云和存儲(chǔ)中的位置,以便數(shù)據(jù)可以在正確的時(shí)間駐留在正確的位置。IT和存儲(chǔ)經(jīng)理將選擇數(shù)據(jù)結(jié)構(gòu)體系結(jié)構(gòu)來(lái)解鎖存儲(chǔ)中的數(shù)據(jù),并實(shí)現(xiàn)以數(shù)據(jù)為中心與以存儲(chǔ)為中心的管理。例如,存儲(chǔ)專(zhuān)業(yè)人員可以使用分析和用戶(hù)反饋來(lái)分割這些文件,例如通過(guò)復(fù)制醫(yī)學(xué)圖像以供臨床研究中的機(jī)器學(xué)習(xí)訪(fǎng)問(wèn),或者將關(guān)鍵數(shù)據(jù)移動(dòng)到不可變的云存儲(chǔ)以防御勒索軟件,而不是將所有醫(yī)學(xué)圖像存儲(chǔ)存儲(chǔ)在同一NAS上。

多云將隨著不同的數(shù)據(jù)策略而發(fā)展

如今,許多組織都有一個(gè)混合云環(huán)境,其中大量數(shù)據(jù)存儲(chǔ)在跨多個(gè)供應(yīng)商系統(tǒng)的私有數(shù)據(jù)中心中。隨著非結(jié)構(gòu)化(文件)數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),云被用作輔助或三級(jí)存儲(chǔ)層??赡芎茈y看到各個(gè)孤島來(lái)管理成本、確保性能和管理風(fēng)險(xiǎn)。因此,IT領(lǐng)導(dǎo)者意識(shí)到,跨云和本地環(huán)境從數(shù)據(jù)中提取價(jià)值是一項(xiàng)艱巨的挑戰(zhàn)。當(dāng)組織為不同的用例和數(shù)據(jù)集使用不同的云時(shí),多云策略效果最佳。但是,這帶來(lái)了另一個(gè)問(wèn)題:當(dāng)您以后需要將數(shù)據(jù)從一個(gè)云移動(dòng)到另一個(gè)云時(shí),移動(dòng)數(shù)據(jù)的成本非常高昂。一個(gè)較新的概念是將計(jì)算拉向位于一個(gè)位置的數(shù)據(jù)。這個(gè)中心位置可以是一個(gè)托管中心,直接鏈接到云提供商。多云將隨著不同的策略而發(fā)展:有時(shí)計(jì)算會(huì)進(jìn)入您的數(shù)據(jù),有時(shí)數(shù)據(jù)駐留在多個(gè)云中。

企業(yè)繼續(xù)面臨越來(lái)越大的壓力,需要采用數(shù)據(jù)管理策略,使他們能夠從數(shù)據(jù)海嘯中獲取有用的信息,以推動(dòng)關(guān)鍵業(yè)務(wù)決策。數(shù)據(jù)分析將是這項(xiàng)工作的核心,以及創(chuàng)建開(kāi)放和基于標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu),使組織能夠控制所有這些數(shù)據(jù)以進(jìn)行分析和行動(dòng)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論