干貨:以數(shù)據(jù)為中心的多層防御,集中管控式大數(shù)據(jù)安全架構(gòu)

數(shù)據(jù)猿   銀傘數(shù)據(jù)
楊昊
大數(shù)據(jù)已不再是一個單純的熱門詞匯了,隨著技術(shù)的發(fā)展大數(shù)據(jù)已在企業(yè)、政府、金融、醫(yī)療、電信等領(lǐng)域得到了廣泛的部署和應(yīng)用,并通過持續(xù)不斷的發(fā)展,大數(shù)據(jù)也已在各領(lǐng)域產(chǎn)生了明顯的應(yīng)用價值。 企業(yè)已開始...

大數(shù)據(jù)已不再是一個單純的熱門詞匯了,隨著技術(shù)的發(fā)展大數(shù)據(jù)已在企業(yè)、政府、金融、醫(yī)療、電信等領(lǐng)域得到了廣泛的部署和應(yīng)用,并通過持續(xù)不斷的發(fā)展,大數(shù)據(jù)也已在各領(lǐng)域產(chǎn)生了明顯的應(yīng)用價值。

企業(yè)已開始熱衷于利用大數(shù)據(jù)技術(shù)收集和存儲海量數(shù)據(jù),并對其進(jìn)行分析。企業(yè)所收集的數(shù)據(jù)量也呈指數(shù)級增長,包括交易數(shù)據(jù)、位置數(shù)據(jù)、用戶交互數(shù)據(jù)、物流數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、企業(yè)經(jīng)營數(shù)據(jù)、硬件監(jiān)控數(shù)據(jù)、應(yīng)用日志數(shù)據(jù)等。由于這些海量數(shù)據(jù)中包含大量企業(yè)或個人的敏感信息,數(shù)據(jù)安全和隱私保護(hù)的問題逐漸突顯出來。而這些問題由于大數(shù)據(jù)的三大主要特性而被進(jìn)一步放大:數(shù)據(jù)量大(Volume)、數(shù)據(jù)增長快(Velocity)和數(shù)據(jù)多樣化(Variety)。

現(xiàn)在,當(dāng)我們說“大數(shù)據(jù)”的時候,已不再是單指海量的數(shù)據(jù)了,而是基礎(chǔ)設(shè)施(云服務(wù)器)、應(yīng)用、數(shù)據(jù)源、分析模型、數(shù)據(jù)存儲和平臺的組合,而正是這些使得大數(shù)據(jù)安全面臨著不同尋常的挑戰(zhàn)。

與傳統(tǒng)數(shù)據(jù)安全相比,大數(shù)據(jù)安全有什么不同

傳統(tǒng)數(shù)據(jù)安全技術(shù)的概念是基于保護(hù)單節(jié)點實例的安全,例如一臺數(shù)據(jù)庫或服務(wù)器,而不是像Hadoop這樣的分布式計算環(huán)境。傳統(tǒng)安全技術(shù)在這種大型的分布式環(huán)境中不再有效。另外,在大規(guī)模的Hadoop集群中,各服務(wù)器和組件的安全配置出現(xiàn)不一致的機(jī)率將大大增加,這將導(dǎo)致更多的安全漏洞產(chǎn)生。

大數(shù)據(jù)平臺存儲著各種各樣的數(shù)據(jù),每一種數(shù)據(jù)源都可能需要有其相應(yīng)的訪問限制和安全策略。而當(dāng)需要整合不同數(shù)據(jù)源時,就變得更加難以平衡對數(shù)據(jù)的安全策略的應(yīng)用。同時,快速增長的海量數(shù)據(jù)使得大數(shù)據(jù)平臺中的敏感信息和個人隱私信息無處不在,準(zhǔn)確發(fā)現(xiàn)和定位敏感信息并制定針對性的訪問控制策略變得愈加困難,而對敏感信息的訪問的實時監(jiān)控也是保障大數(shù)據(jù)安全的重要任務(wù)之一。

最后,大數(shù)據(jù)技術(shù)很少單獨(dú)使用Hadoop,而是會結(jié)合生態(tài)系統(tǒng)中的其它技術(shù)組件如HBase,Spark,Impala,Hive,Pig等對數(shù)據(jù)進(jìn)行抽取、存儲、處理、計算等。這些技術(shù)使得大數(shù)據(jù)可被訪問和利用,但基本都缺乏企業(yè)級的安全特性。以上從平臺、數(shù)據(jù)、技術(shù)視角對大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全進(jìn)行了簡單的分析,傳統(tǒng)安全工具沒有為數(shù)據(jù)多樣化、數(shù)據(jù)處理及Hadoop的分布式特性而改進(jìn),不再足以能保證大數(shù)據(jù)的安全。

如何建立完善的大數(shù)據(jù)安全體系

面對復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個層面綜合考慮以建立全方位的大數(shù)據(jù)安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護(hù)、審計和監(jiān)控。

邊界安全:主要包含網(wǎng)絡(luò)安全和身份認(rèn)證。防護(hù)對系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪問,身份認(rèn)證確保用戶的真實性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都支持使用Kerberos進(jìn)行用戶身份驗證。

訪問控制和授權(quán):通過對用戶的授權(quán)實現(xiàn)對數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)限控制。Hadoop和HBase都支持ACL,同時也實現(xiàn)了RBAC(基于角色的訪問控制)模型,更細(xì)粒度的ABAC(Attibute Based Access Control)在HBase較新的版本中也可通過訪問控制標(biāo)簽和可見性標(biāo)簽的形式實現(xiàn)。

數(shù)據(jù)保護(hù):通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護(hù)敏感信息不被泄露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲加密。傳輸過程中的加密依賴于網(wǎng)絡(luò)安全協(xié)議而存儲加密可通過相關(guān)加密算法和密鑰對數(shù)據(jù)進(jìn)行加密存儲。數(shù)據(jù)脫敏是比加密較為折中的辦法,對于大數(shù)據(jù)時代,該方法將更被更為廣泛的采用。因為收集的海量數(shù)據(jù)需要相對開放的共享給內(nèi)部不同團(tuán)隊或外部機(jī)構(gòu)使用,才能發(fā)揮大數(shù)據(jù)的價值。對于敏感信息部分可通過脫敏的方式進(jìn)行處理以保障信息安全。

審計和監(jiān)控:實時地監(jiān)控和審計可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取證等。

如何設(shè)計大數(shù)據(jù)安全框架

基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺的特性,企業(yè)在實踐大數(shù)據(jù)平臺安全化時,需要有更詳細(xì)的架構(gòu)設(shè)計,四層安全體系對應(yīng)在實際環(huán)境中,應(yīng)是以數(shù)據(jù)為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再從訪問控制和數(shù)據(jù)保護(hù)層面加強(qiáng)對數(shù)據(jù)使用的安全防護(hù),最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺的安全部署。因此,大數(shù)據(jù)安全框架需包含以下5個核心模塊: 數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護(hù)、網(wǎng)絡(luò)安全、基礎(chǔ)安全。

1af50005d1ac1de43d62

(一)數(shù)據(jù)管理

企業(yè)實施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風(fēng)險對數(shù)據(jù)進(jìn)行分類分級管理,有助于對數(shù)據(jù)保護(hù)的基準(zhǔn)安全控制做出合理的決策。

從大數(shù)據(jù)特性層面對數(shù)據(jù)進(jìn)行標(biāo)記(例如分析類型、處理方式、數(shù)據(jù)時效性、數(shù)據(jù)類型、數(shù)據(jù)格式 、數(shù)據(jù)源等維度),就知道數(shù)據(jù)是如何進(jìn)出大數(shù)據(jù)平臺,將會被如何使用,會被誰使用,數(shù)據(jù)是如何存儲的等等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對數(shù)據(jù)訪問控制制定相應(yīng)的策略。

最后,如果缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺中存在于哪里的意識,這將無疑是把數(shù)據(jù)暴露于風(fēng)險之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺中分布情況,并能自動地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護(hù)是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。

(二)身份認(rèn)證和訪問控制

身份認(rèn)證是防護(hù)數(shù)據(jù)安全的第一道關(guān)卡,通過身份認(rèn)證確保訪問大數(shù)據(jù)平臺中的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、Pig、Impala、Spark等幾乎都支持利用Kerberos進(jìn)行身份認(rèn)證。

Kerberos也可以和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無需大數(shù)據(jù)平臺用戶重新建立用戶組、角色和密鑰等。用戶通過身份認(rèn)證后可獲得訪問大數(shù)據(jù)平臺的資格,為進(jìn)一步控制用戶對資源的訪問權(quán)限,需要通過授權(quán)機(jī)制來管理不同用戶對不同資源的訪問許可。

Hadoop和HBase及其它組件都在一定程度上支持對訪問的控制,RBAC和ABAC是兩個不同粒度的訪問控制模型,前者是基于角色來進(jìn)行訪問控制,后者是更為細(xì)粒度的控制,可控制到被訪問對象的字段級別。在制定訪問控制策略時,應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場景等針對不同數(shù)據(jù)、不同業(yè)務(wù)需求制定相應(yīng)的訪問限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價值是企業(yè)的最終目的。

(三)數(shù)據(jù)保護(hù)

如果說身份認(rèn)證、授權(quán)和訪問控制是確保了對數(shù)據(jù)訪問的對象的防護(hù)和控制,數(shù)據(jù)保護(hù)技術(shù)則是從根源層保護(hù)信息安全的最重要和最有效的手段。通過數(shù)據(jù)保護(hù)技術(shù),對大數(shù)據(jù)的開放共享、發(fā)布、最大化利用等都會有著最直接的積極作用。

數(shù)據(jù)保護(hù)技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重要保證。數(shù)據(jù)保護(hù)技術(shù)通過對數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,可讓處理后的數(shù)據(jù)到達(dá)安全交易、開放共享的目的。

而對于企業(yè)內(nèi)部,針對脫敏后的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問控制限制,可讓更多的分析應(yīng)用更高效地實施并優(yōu)化開發(fā)項目,讓大數(shù)據(jù)得到更充分的利用同時,也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法令和法規(guī)。

(四)網(wǎng)絡(luò)安全

大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過客戶端訪問大數(shù)據(jù)平臺的連接和大數(shù)據(jù)平臺中服務(wù)器節(jié)點之間的網(wǎng)絡(luò)通信安全。 為保證數(shù)據(jù)在傳輸過程中的安全性,節(jié)點之間及客戶端與服務(wù)器之間的通信都需要進(jìn)行加密,不同的通信使用不同的加密方式,Hadoop平臺支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。

除了對網(wǎng)絡(luò)通信進(jìn)行加密設(shè)置,還可通過使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺的直接訪問來進(jìn)一步升級網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶通過登錄網(wǎng)關(guān)服務(wù)器來驗證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對大數(shù)據(jù)平臺的訪問,同時,該服務(wù)器還可用來提供訪問控制、策略管理。用戶通過登錄到網(wǎng)關(guān)服務(wù)器來執(zhí)行對大數(shù)據(jù)平臺的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺中的服務(wù)器節(jié)點,從而保護(hù)大數(shù)據(jù)平臺不會受到非法訪問。

(五)基礎(chǔ)安全

前面我們談到了通過各種方式來保證大數(shù)據(jù)平臺和安全性,包括身份認(rèn)證、授權(quán)、訪問控制、數(shù)據(jù)保護(hù)及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺仍然有可能會受到非法訪問和特權(quán)用戶的訪問。為確保合規(guī)性的需要,我們需要對大數(shù)據(jù)平臺的一切活動進(jìn)行審計和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系統(tǒng)負(fù)責(zé)對大數(shù)據(jù)平臺中任何可疑的活動進(jìn)行收集,監(jiān)控,分析和生成各種安全報告。

以下是大數(shù)據(jù)平臺中需要被監(jiān)控的事件以用來分析識別安全事件:用戶登錄和身份驗證事件、HDFS操作、授權(quán)錯誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過各種客戶端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺中的一切活動,才有機(jī)會捕捉可能會發(fā)生的安全事故及進(jìn)行事后分析時有機(jī)會進(jìn)行回溯分析,追蹤事故根源。

結(jié)束語

本篇圍繞大數(shù)據(jù)平臺對大數(shù)據(jù)安全的體系和架構(gòu)設(shè)計進(jìn)行了分析概述,完全實踐本文中所設(shè)計的安全架構(gòu)是一項艱巨的任務(wù),在實踐過程中,需深入掌握Hadoop自身的安全特性支持,廣泛了解開源軟件及商業(yè)軟件在數(shù)據(jù)管理和數(shù)據(jù)安全上的優(yōu)勢點,并結(jié)合企業(yè)現(xiàn)階段對大數(shù)據(jù)部署的實際情況選擇合適的產(chǎn)品從不同角度保護(hù)大數(shù)據(jù)平臺的安全。 在下次的分享中,會從實踐(In-Action)的角度介紹如何采用合適的開源技術(shù)和商業(yè)產(chǎn)品來實現(xiàn)大數(shù)據(jù)平臺安全架構(gòu)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論