數(shù)據(jù)湖:設(shè)計(jì)更好的架構(gòu)、存儲(chǔ)、安全和數(shù)據(jù)治理

凌云時(shí)刻
Rashim Parmar
數(shù)據(jù)湖存儲(chǔ)來(lái)自商業(yè)應(yīng)用程序、移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。模式在數(shù)據(jù)剛捕獲階段是不需要提前定義的。這意味著你可以存儲(chǔ)數(shù)據(jù),而不需要仔細(xì)設(shè)計(jì),也不需要知道要獲得什么樣的見(jiàn)解。

前言

對(duì)任何業(yè)務(wù)來(lái)說(shuō),數(shù)據(jù)驅(qū)動(dòng)的結(jié)果、預(yù)告和對(duì)趨勢(shì)的預(yù)測(cè)都是必不可少的。今天,在我們所做的每件事中,都能看到某種分析的邏輯在背后。從點(diǎn)擊網(wǎng)站(點(diǎn)擊流分析)、在線購(gòu)買(客戶行為)、遺傳學(xué)、CRM、公用事業(yè)、醫(yī)療保健,甚至選舉,我們都可以看到分析的存在。分析的能力不再讓你獲得優(yōu)勢(shì),它已經(jīng)變成了你保持業(yè)務(wù)不被淘汰的必要條件。它倒逼組織建立數(shù)據(jù)湖或升級(jí)現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)。

這就引出了一個(gè)非常有趣但也令人困惑的問(wèn)題:我應(yīng)該用數(shù)據(jù)倉(cāng)庫(kù)還是數(shù)據(jù)湖?答案其實(shí)很簡(jiǎn)單。一般情況下,你應(yīng)該同時(shí)擁有數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,更準(zhǔn)確地說(shuō),數(shù)據(jù)倉(cāng)庫(kù)位于數(shù)據(jù)湖中。

數(shù)據(jù)倉(cāng)庫(kù)vs數(shù)據(jù)湖

數(shù)據(jù)倉(cāng)庫(kù)是為分析來(lái)自不同系統(tǒng)或業(yè)務(wù)線的結(jié)構(gòu)化數(shù)據(jù)而優(yōu)化的數(shù)據(jù)庫(kù)。為了支持更快的SQL驅(qū)動(dòng)操作報(bào)告和分析,模式和數(shù)據(jù)結(jié)構(gòu)都已經(jīng)預(yù)先定義了。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)已經(jīng)被清理、豐富和轉(zhuǎn)換為“單一的真理來(lái)源”。

然而,數(shù)據(jù)湖存儲(chǔ)來(lái)自商業(yè)應(yīng)用程序、移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。模式在數(shù)據(jù)剛捕獲階段是不需要提前定義的。這意味著你可以存儲(chǔ)數(shù)據(jù),而不需要仔細(xì)設(shè)計(jì),也不需要知道要獲得什么樣的見(jiàn)解。它支持大數(shù)據(jù)分析、搜索分析、機(jī)器學(xué)習(xí)、實(shí)時(shí)分析、日志分析和點(diǎn)擊流分析等。

理論上,數(shù)據(jù)湖聽(tīng)起來(lái)像是所有問(wèn)題的一站式解決方案,但并不令人驚訝的是,很多數(shù)據(jù)湖都失敗了。數(shù)據(jù)湖解決了兩個(gè)主要問(wèn)題:“消除數(shù)據(jù)豎井”和“存儲(chǔ)異類源”。然而,這也帶來(lái)了許多挑戰(zhàn),需要正確的體系結(jié)構(gòu)、存儲(chǔ)、數(shù)據(jù)治理和安全模型來(lái)驅(qū)動(dòng)業(yè)務(wù)結(jié)果。

數(shù)據(jù)湖的特性

對(duì)數(shù)據(jù)湖的預(yù)期

數(shù)據(jù)湖應(yīng)該能夠交付:

不同的數(shù)據(jù)源:數(shù)據(jù)湖應(yīng)該支持從任何數(shù)據(jù)源高效高速收集數(shù)據(jù),來(lái)自不同來(lái)源的數(shù)據(jù)有助于執(zhí)行完整和深入的分析;

數(shù)據(jù)可訪問(wèn)性:它應(yīng)該允許組織/部門范圍內(nèi)的數(shù)據(jù)以一種安全的授權(quán)方式從多個(gè)來(lái)源訪問(wèn)數(shù)據(jù),數(shù)據(jù)專業(yè)人員和企業(yè)不受IT部門的官僚主義影響;

及時(shí)性:數(shù)據(jù)很重要,但只有在及時(shí)收到數(shù)據(jù)的情況下才重要。所有用戶都有一個(gè)有效的時(shí)間窗口,在此期間,正確的信息可以影響他們的決策;

自助式服務(wù):對(duì)于組織范圍的數(shù)據(jù),數(shù)據(jù)湖應(yīng)該允許用戶使用所需的工具集構(gòu)建他們的報(bào)告和模型。

我們接下來(lái)要討論怎樣設(shè)計(jì)更好的數(shù)據(jù)湖,下圖提到的微服務(wù)架構(gòu)、安全、治理、和存儲(chǔ)是構(gòu)建有效的、數(shù)據(jù)驅(qū)動(dòng)的、未來(lái)感十足的數(shù)據(jù)湖的四大支柱。

數(shù)據(jù)湖的四大支柱

架構(gòu)

大多數(shù)現(xiàn)代數(shù)據(jù)湖都是使用微服務(wù)體系結(jié)構(gòu)構(gòu)建的,其核心是構(gòu)建一套專注于業(yè)務(wù)功能并可獨(dú)立部署的小型服務(wù)。微服務(wù)體系結(jié)構(gòu)是構(gòu)建解耦的、敏捷的和自動(dòng)化的數(shù)據(jù)湖應(yīng)用程序的理想選擇。一個(gè)理想的架構(gòu)應(yīng)該有:

解耦應(yīng)用程序:所有進(jìn)程都應(yīng)該解耦,以避免出現(xiàn)故障時(shí)無(wú)法應(yīng)對(duì)。例如,處理一組數(shù)據(jù)管道的失敗不應(yīng)阻止處理其余的數(shù)據(jù)管道。

消除單點(diǎn)故障:?jiǎn)吸c(diǎn)故障可能導(dǎo)致整個(gè)系統(tǒng)崩潰。而多點(diǎn)故障可以確保在工程師解決故障時(shí),其他的數(shù)據(jù)管道可以不受影響。這也有助于防止類似DDoS的攻擊。這種方法應(yīng)該同時(shí)用于硬件和應(yīng)用程序。

敏捷:在小的sprint中與業(yè)務(wù)合作交付最可行的產(chǎn)品(MVP)。業(yè)務(wù)和IT作為合作伙伴在sprint中添加特性。這確保了沒(méi)有意外,而且有效的微服務(wù)模型允許并發(fā)應(yīng)用程序部署。

計(jì)算與存儲(chǔ)解耦合:允許存儲(chǔ)和計(jì)算資源的獨(dú)立擴(kuò)展,可以垂直地(向同一臺(tái)機(jī)器添加容量)和水平地(添加更多的機(jī)器),以接近最佳配置。

審核和日志記錄:由于有如此多的應(yīng)用程序和進(jìn)程以一種解耦的模式運(yùn)行,因此記錄事件以分類問(wèn)題和流變得非常重要。從數(shù)據(jù)治理的角度來(lái)看,記錄各種API和事件的審計(jì)記錄變得非常重要。如果存在任何破壞或未經(jīng)授權(quán)的訪問(wèn),這對(duì)于理解服務(wù)是如何被使用非常方便。幾乎所有的云平臺(tái)都提供審計(jì)服務(wù),需要啟用這些服務(wù)來(lái)存儲(chǔ)日志。始終采取預(yù)防措施,使審計(jì)日志不可變,不受篡改。

存儲(chǔ)

存儲(chǔ)是現(xiàn)代數(shù)據(jù)湖的核心。數(shù)據(jù)湖服務(wù)于具有不同背景和工具偏好的不同客戶,比如數(shù)據(jù)科學(xué)家、分析師和業(yè)務(wù)用戶,他們都需要一組不同的工具和對(duì)數(shù)據(jù)的訪問(wèn)。集中存儲(chǔ)有助于更好的治理、維護(hù)和使用多種工具的能力。通過(guò)集中呈現(xiàn)數(shù)據(jù),所有應(yīng)用程序和工具都可以輕松讀寫(xiě)數(shù)據(jù)。這種方法提供了替換工具的靈活性,因?yàn)榇鎯?chǔ)已經(jīng)集中并解耦了。然而,擁有以下特征是很重要的:

存儲(chǔ)特性

可伸縮性:企業(yè)數(shù)據(jù)湖充當(dāng)整個(gè)組織或部門數(shù)據(jù)的集中式數(shù)據(jù)存儲(chǔ)。它必須具備擴(kuò)展性,沒(méi)有容量的限制。像AWS S3或Azure存儲(chǔ)這樣的服務(wù)有助于實(shí)現(xiàn)這一點(diǎn)。

高可用性:數(shù)據(jù)讀取的及時(shí)性和不間斷可用性是決策的關(guān)鍵??缍嗫捎眯詤^(qū)域的復(fù)制有助于實(shí)現(xiàn)高數(shù)據(jù)可用性。多區(qū)域數(shù)據(jù)復(fù)制確保有效的災(zāi)難恢復(fù)。對(duì)于用戶跨多個(gè)區(qū)域工作的業(yè)務(wù),跨不同區(qū)域復(fù)制數(shù)據(jù)有助于更快地為數(shù)據(jù)提供服務(wù),因?yàn)閿?shù)據(jù)距離用戶或應(yīng)用程序更近。

數(shù)據(jù)持久性:數(shù)據(jù)一旦存儲(chǔ),就不會(huì)因?yàn)榇疟P、設(shè)備、災(zāi)難或任何其他原因而丟失。核心存儲(chǔ)層具有非常高的持久性,可以實(shí)現(xiàn)出色的數(shù)據(jù)健壯性

安全性:無(wú)論是云計(jì)算還是本地計(jì)算,數(shù)據(jù)安全性都是最重要的考慮因素。數(shù)據(jù)必須是加密的、耐篡改的、不可變的(在需要的地方),并且符合要求的規(guī)則。數(shù)據(jù)丟失就是業(yè)務(wù)丟失。

治理和審計(jì):應(yīng)用治理規(guī)則、數(shù)據(jù)不變性、識(shí)別PII數(shù)據(jù)以及提供數(shù)據(jù)使用的完整審計(jì)日志的能力對(duì)于滿足法規(guī)和法定要求至關(guān)重要。

存儲(chǔ)任何內(nèi)容:數(shù)據(jù)湖的主要設(shè)計(jì)考慮事項(xiàng)之一應(yīng)該是存儲(chǔ)任何格式的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化),并提供快速的檢索時(shí)間。對(duì)于此類使用場(chǎng)景,強(qiáng)烈建議使用對(duì)象存儲(chǔ)。

存儲(chǔ)文件的大小和格式:一個(gè)小文件有大小小于Hadoop文件系統(tǒng)(HDFS)默認(rèn)塊大小為128 MB的。在Hadoop框架,集群中的每個(gè)文件被表示為一個(gè)對(duì)象的名字節(jié)點(diǎn)的內(nèi)存,每個(gè)占150個(gè)字節(jié)。這意味著大量文件將大量消耗內(nèi)存。大多數(shù)基于Hadoop的框架在使用小文件時(shí)效率不高。另一個(gè)重要的方面是文件的格式(行存儲(chǔ)vs列存儲(chǔ))。通過(guò)柱狀文件格式,可以只讀取、解壓和處理當(dāng)前查詢所需的值。流行的文件格式是ORC和Parquet,它們都有自己的用例和優(yōu)點(diǎn)。

匯聚

數(shù)據(jù)匯聚是將數(shù)據(jù)從不同來(lái)源(如點(diǎn)擊流、數(shù)據(jù)中心日志、傳感器、物聯(lián)網(wǎng)設(shè)備、API和數(shù)據(jù)庫(kù))獲取的過(guò)程。根據(jù)源的類型以及是否需要實(shí)時(shí)處理數(shù)據(jù),可以實(shí)時(shí)或批量地獲取數(shù)據(jù)。在數(shù)據(jù)湖中,數(shù)據(jù)以原始格式(結(jié)構(gòu)化或非結(jié)構(gòu)化)引入??梢允褂昧餍械臄?shù)據(jù)復(fù)制工具、流工具或ETL工具攝取數(shù)據(jù)。數(shù)據(jù)攝入的主要目的是快速有效地以原始格式獲取數(shù)據(jù)。在這個(gè)階段沒(méi)有應(yīng)用轉(zhuǎn)換,如果有了可用的原始數(shù)據(jù),我們可以回到需要的時(shí)間點(diǎn)。建議有效地組織數(shù)據(jù)存儲(chǔ),以實(shí)現(xiàn)更快的數(shù)據(jù)訪問(wèn)。組織結(jié)構(gòu)的例子——主題區(qū)域/數(shù)據(jù)源/對(duì)象/年/月/日被廣泛使用。

數(shù)據(jù)處理

這涉及到構(gòu)建數(shù)據(jù)管道并處理數(shù)據(jù)。理想情況下,第一步應(yīng)該是創(chuàng)建一個(gè)數(shù)據(jù)目錄(我們將在數(shù)據(jù)治理部分詳細(xì)討論它)。通常,在數(shù)據(jù)處理過(guò)程中應(yīng)該生成多層獨(dú)立的數(shù)據(jù),如標(biāo)準(zhǔn)化、清理和特定于應(yīng)用程序的轉(zhuǎn)換數(shù)據(jù),用于不同的目的,如機(jī)器學(xué)習(xí)、數(shù)據(jù)倉(cāng)庫(kù)或分析。這個(gè)階段還包括為處理數(shù)據(jù)選擇正確的框架。

大數(shù)據(jù)框架:要在高速下處理大量數(shù)據(jù),分布式框架是首選。分布式框架意味著數(shù)據(jù)集被劃分為多個(gè)文件(默認(rèn)為128 MB),然后在多臺(tái)機(jī)器上并行處理,然后合并數(shù)據(jù)。分布式使更短的時(shí)間內(nèi)處理大型數(shù)據(jù)集成為可能。有各種各樣的框架,比如Apache Hadoop、Apache Spark,還有一些商業(yè)可用的云框架。最流行的框架之一是Spark 2.0,它是高度內(nèi)存密集型的,并提供了各種選項(xiàng),如處理時(shí)間序列數(shù)據(jù)、圖形數(shù)據(jù)和Spark SQL來(lái)簡(jiǎn)化編碼。AWS提供了AWS EMR,這是一個(gè)托管服務(wù),并提供了許多預(yù)先安裝的工具,可以選擇您所選擇的框架。

ETL工具:像Informatica PowerCenter、Talend、Microsoft SQL server SSIS和Matillion這樣的ETL工具非常適合運(yùn)行ETL數(shù)據(jù)管道。它還提供了數(shù)據(jù)編目選項(xiàng)。

Features

可伸縮性:理想的數(shù)據(jù)處理框架應(yīng)該允許在任何時(shí)間點(diǎn)進(jìn)行垂直伸縮(在同一臺(tái)機(jī)器上增加計(jì)算能力)和水平伸縮(并行地增加更多機(jī)器),并根據(jù)數(shù)據(jù)負(fù)載需求實(shí)現(xiàn)從零到最小的停機(jī)時(shí)間。自動(dòng)分組是一種基于CPU或IOPS等重要參數(shù)自動(dòng)增加計(jì)算能力的好方法。

永久集群與臨時(shí)集群:一些業(yè)務(wù)需要24*7運(yùn)行的集群,這意味著資源一直在被積極使用。然而,有些業(yè)務(wù)需要每天或每周花幾個(gè)小時(shí)處理數(shù)據(jù)。在這種情況下,不間斷運(yùn)行集群并產(chǎn)生成本是沒(méi)有意義的。在Hadoop集群中,數(shù)據(jù)存儲(chǔ)在節(jié)點(diǎn)上,這使得在不丟失數(shù)據(jù)的情況下終止集群非常困難。然而,像AWS EMR這樣的服務(wù)允許將數(shù)據(jù)存儲(chǔ)到AWS S3。這允許輕松地終止EMR集群,并在需要時(shí)重新啟動(dòng)集群。這是非常劃算的。

托管集群:管理Hadoop集群相當(dāng)麻煩。它需要大量的投資和維護(hù),而且相當(dāng)昂貴?,F(xiàn)在,AWS、Azure和谷歌等供應(yīng)商都在提供托管集群,能夠快速終止和創(chuàng)建集群。這允許企業(yè)將精力集中在數(shù)據(jù)結(jié)果上,而不是支持服務(wù)器。

消費(fèi)

數(shù)據(jù)湖的主要推動(dòng)力之一是允許擁有不同技能集的客戶使用不同首選工具的數(shù)據(jù)。數(shù)據(jù)編目、不可變的原始數(shù)據(jù)、集中存儲(chǔ)、多層數(shù)據(jù)處理和只讀模式的多種工具使用。我們可以把消費(fèi)者分成以下幾類:

數(shù)據(jù)倉(cāng)庫(kù):業(yè)務(wù)用戶需要高性能的數(shù)據(jù)倉(cāng)庫(kù)來(lái)運(yùn)行pb級(jí)數(shù)據(jù)上的復(fù)雜SQL查詢,以返回復(fù)雜的分析輸出。一些設(shè)計(jì)因素使得工具能夠提供快速的結(jié)果。AWS Redshift spectrum、谷歌BigQuery和Azure SQL Data warehouse等工具提供了巨大的壓縮、區(qū)域映射、柱狀存儲(chǔ),以及在存儲(chǔ)文件上高性能運(yùn)行復(fù)雜查詢的能力。此外,云平臺(tái)還提供了可用性、持久性、安全性和成本效益。

交互式查詢:對(duì)于一些用例,數(shù)據(jù)分析師需要運(yùn)行SQL查詢來(lái)分析大量的數(shù)據(jù)湖數(shù)據(jù)。Apache hive、Apache Presto、Amazon Athena和Impala等工具使用數(shù)據(jù)目錄構(gòu)建SQL友好的邏輯模式,以查詢存儲(chǔ)在選定格式文件中的底層數(shù)據(jù)。這允許在數(shù)據(jù)文件上直接查詢結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

機(jī)器學(xué)習(xí):數(shù)據(jù)科學(xué)家經(jīng)常需要針對(duì)一個(gè)巨大的數(shù)據(jù)集運(yùn)行機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行預(yù)測(cè)和預(yù)測(cè)。數(shù)據(jù)湖提供了對(duì)企業(yè)范圍數(shù)據(jù)的訪問(wèn),以探索和挖掘數(shù)據(jù)以獲得業(yè)務(wù)洞察力。數(shù)據(jù)科學(xué)家可以使用Dataiku、Tensorflow和Sagemaker等工具,或者在AWS等平臺(tái)上運(yùn)行用R或Python編寫(xiě)的算法,AWS提供了在集中式數(shù)據(jù)存儲(chǔ)上使用經(jīng)濟(jì)實(shí)惠的spot EC2實(shí)例按需要旋轉(zhuǎn)EMR spark集群的能力。

人工智能和自動(dòng)化:像在數(shù)據(jù)湖之上使用Alexa的聊天機(jī)器人和語(yǔ)音分析這樣的解決方案,或者數(shù)據(jù)湖托管解決方案顯著改善了客戶體驗(yàn),減少了運(yùn)營(yíng)開(kāi)銷。這些解決方案可以與安全網(wǎng)站或移動(dòng)應(yīng)用程序集成。

構(gòu)建在AWS S3上的數(shù)據(jù)湖架構(gòu)

數(shù)據(jù)治理

在數(shù)據(jù)湖中,從多個(gè)來(lái)源收集組織范圍的數(shù)據(jù),包括消費(fèi)者個(gè)人識(shí)別信息(PII)數(shù)據(jù)。該數(shù)據(jù)包含分析員可以用來(lái)識(shí)別和改進(jìn)業(yè)務(wù)產(chǎn)品的重要信息。然而,這些敏感數(shù)據(jù)必須受到保護(hù),符合隱私法律法規(guī)。這使得數(shù)據(jù)治理成為設(shè)計(jì)數(shù)據(jù)湖的關(guān)鍵支柱。數(shù)據(jù)治理是指對(duì)企業(yè)中數(shù)據(jù)的可用性、可用性、完整性和安全性的全面管理。它主要取決于業(yè)務(wù)策略和技術(shù)實(shí)踐。治理應(yīng)該在一開(kāi)始就作為設(shè)計(jì)的一部分合并,或者至少?gòu)囊婚_(kāi)始就應(yīng)該合并最低標(biāo)準(zhǔn)。數(shù)據(jù)治理主要包括以下方面:

元數(shù)據(jù)管理:由于數(shù)據(jù)湖中存儲(chǔ)了大量數(shù)據(jù),因此很難跟蹤哪些數(shù)據(jù)已經(jīng)可用,并可能導(dǎo)致數(shù)據(jù)溢出。對(duì)此的一個(gè)解決方案是數(shù)據(jù)目錄。數(shù)據(jù)目錄是與數(shù)據(jù)管理和搜索工具相結(jié)合的元數(shù)據(jù)的集合,這些工具可以幫助分析人員和其他用戶找到他們需要的數(shù)據(jù)。數(shù)據(jù)目錄作為可用數(shù)據(jù)的目錄,并提供用于評(píng)估健身數(shù)據(jù)的預(yù)期用途的信息。最有效的方法是維護(hù)一個(gè)中央數(shù)據(jù)目錄,并跨各種處理框架(如Apache Hadoop、Apache Spark、AWS Athena和各種其他可用工具)使用它。這確保了元數(shù)據(jù)的完整性,并應(yīng)用了簡(jiǎn)單的數(shù)據(jù)治理規(guī)則。

數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量與數(shù)據(jù)完整性、準(zhǔn)確性、一致性、數(shù)據(jù)屏蔽和標(biāo)準(zhǔn)化有關(guān)。在使數(shù)據(jù)可用之前,它確保應(yīng)用了所有這些屬性并正確地分類了數(shù)據(jù)。

遵從性和規(guī)則:必須根據(jù)所操作的業(yè)務(wù)領(lǐng)域?qū)崿F(xiàn)幾個(gè)遵從性要求。例如GDPR,HIPAA和ISO標(biāo)準(zhǔn)。如果不遵守,可能會(huì)被處以巨額罰款,甚至采取更嚴(yán)厲的行動(dòng)。它也削弱了信任和商業(yè)信譽(yù)。有一些產(chǎn)品和服務(wù)可以幫助實(shí)現(xiàn)這一點(diǎn),比如AWS Macie幫助識(shí)別PII信息,AWS HSM提供完全控制和安全的密鑰管理服務(wù)(KMS)。

安全

對(duì)于本地和基于云的企業(yè)數(shù)據(jù)湖,安全性都是至關(guān)重要的,應(yīng)該是最優(yōu)先考慮的問(wèn)題。安全性應(yīng)該從一開(kāi)始就進(jìn)行設(shè)計(jì),并且需要在非常基本的架構(gòu)和設(shè)計(jì)中進(jìn)行整合。此外,只有在企業(yè)的整體安全基礎(chǔ)設(shè)施和控制框架中部署和管理數(shù)據(jù)湖的安全性,才能成功。安全可分為以下幾類:

數(shù)據(jù)安全:靜態(tài)和傳輸中的加密:組織的數(shù)據(jù)是一種需要保護(hù)的資產(chǎn),不被窺探。幾乎所有數(shù)據(jù)都必須在靜止?fàn)顟B(tài)下(存儲(chǔ)在文件和數(shù)據(jù)庫(kù)中)得到保護(hù)。默認(rèn)情況下,所有云提供商都為其存儲(chǔ)層提供加密機(jī)制。此外,可以通過(guò)選擇加密算法以及由誰(shuí)(云提供商或客戶)管理和旋轉(zhuǎn)密鑰,使用密鑰管理服務(wù)來(lái)實(shí)現(xiàn)加密。對(duì)于非常安全的系統(tǒng)或由于監(jiān)管需要,組織希望管理其機(jī)器上的密鑰,可以使用硬件安全模塊(HSM)。傳輸中的數(shù)據(jù)意味著數(shù)據(jù)在網(wǎng)絡(luò)上在設(shè)備和服務(wù)(如API)之間移動(dòng)。這可以通過(guò)使用帶有證書(shū)的TLS/SSL傳輸來(lái)實(shí)現(xiàn)。

網(wǎng)絡(luò)安全:下一個(gè)重要方面是網(wǎng)絡(luò)安全。對(duì)于云解決方案,虛擬私有云(VPC)提供了云中的網(wǎng)絡(luò)隔離。它提供了使用安全組和使用傳統(tǒng)方法(如網(wǎng)絡(luò)ACL和CIDR塊限制)限制連接的靈活性。VPC端點(diǎn)的使用允許流量通過(guò)私有網(wǎng)絡(luò)而不是公共網(wǎng)絡(luò)傳輸。所有這些策略都創(chuàng)建了一個(gè)網(wǎng)絡(luò)非軍事區(qū)(DMZ)。另一個(gè)方面是網(wǎng)絡(luò)防火墻,它控制訪問(wèn)并監(jiān)視網(wǎng)絡(luò)上的web流量。它還授權(quán)出站會(huì)話。它與OSI層中的網(wǎng)絡(luò)層屬性位于一起,所以它只在網(wǎng)絡(luò)層上提供訪問(wèn)控制。

訪問(wèn)控制:企業(yè)數(shù)據(jù)湖包含組織范圍的數(shù)據(jù),因此確保正確的身份驗(yàn)證策略變得非常重要。每個(gè)組織都使用常用的技術(shù)來(lái)維護(hù)標(biāo)準(zhǔn)認(rèn)證,比如active directory,它可以用于為數(shù)據(jù)湖生態(tài)系統(tǒng)產(chǎn)品提供認(rèn)證。本地和云平臺(tái)都支持將企業(yè)身份識(shí)別基礎(chǔ)設(shè)施映射到云提供商的許可基礎(chǔ)設(shè)施上的方法。此外,可以使用身份訪問(wèn)管理(IAM)控制細(xì)粒度訪問(wèn)。像AWS這樣的云平臺(tái)使用AWS IAM和bucket策略來(lái)訪問(wèn)數(shù)據(jù)文件,提供精細(xì)的訪問(wèn)管理。這確保只有正確的用戶集可以訪問(wèn)所需的資源。

應(yīng)用程序安全性:保護(hù)應(yīng)用程序免受外部攻擊是至關(guān)重要的。一般來(lái)說(shuō),網(wǎng)絡(luò)防火墻沒(méi)有檢測(cè)/防止威脅的機(jī)制。為此,我們應(yīng)該使用web應(yīng)用程序防火墻來(lái)幫助保護(hù)您的web應(yīng)用程序或api,防止常見(jiàn)的web攻擊影響可用性、危害安全性或消耗過(guò)多的資源。應(yīng)用程序防火墻允許您創(chuàng)建阻止常見(jiàn)攻擊模式(如SQL注入或跨站點(diǎn)腳本編寫(xiě))的安全規(guī)則,以及過(guò)濾您定義的特定流量模式的規(guī)則,從而控制流量如何到達(dá)應(yīng)用程序。另一種方法是實(shí)現(xiàn)微服務(wù)體系結(jié)構(gòu),比如將應(yīng)用程序與存儲(chǔ)或其他應(yīng)用程序解耦,以減少表面的攻擊。如果使用云,設(shè)計(jì)應(yīng)該包含自動(dòng)提供組,它可以自動(dòng)添加資源來(lái)吸收高流量攻擊,比如分布式拒絕服務(wù)(DDoS)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論