本文來自微信公眾號“嘶吼專業(yè)版”,作者/山卡拉。
數(shù)據(jù)是現(xiàn)代企業(yè)的新石油:正確使用它可以促進公司的發(fā)展并幫助企業(yè)在競爭中領(lǐng)先。就像石油一樣,原始數(shù)據(jù)和未被發(fā)現(xiàn)的數(shù)據(jù)是毫無用處的,企業(yè)將無法從中受益;在最壞的情況下,它可能會導致安全事件。這也是企業(yè)投資敏感數(shù)據(jù)發(fā)現(xiàn)和保護解決方案的原因。
傳統(tǒng)的數(shù)據(jù)發(fā)現(xiàn)工具由數(shù)據(jù)掃描儀和基于規(guī)則的算法提供支持,這些工具通常不足以掌握不斷增長的新數(shù)據(jù)流。因此,許多企業(yè)利用人工智能(AI)增強其數(shù)據(jù)發(fā)現(xiàn)和保護解決方案。
在本文中,我們將討論基于規(guī)則系統(tǒng)的主要缺點以及使用人工智能發(fā)現(xiàn)和保護敏感數(shù)據(jù)的好處、典型的數(shù)據(jù)發(fā)現(xiàn)和保護解決方案的工作原理,還分享有Apriorit經(jīng)驗中的開發(fā)技巧。
敏感數(shù)據(jù)發(fā)現(xiàn)如何影響企業(yè)安全
將敏感數(shù)據(jù)保存在一個安全的存儲位置似乎是一項容易的任務(wù),但實際上對于許多企業(yè)來說幾乎是不可能的。在COVID-19大流行期間過渡到遠程或混合工作、將本地環(huán)境遷移到云或經(jīng)歷合并和收購過程,可能會導致敏感數(shù)據(jù)存儲在最不明顯的地方。此類數(shù)據(jù)會受到網(wǎng)絡(luò)安全解決方案的關(guān)注,并增加數(shù)據(jù)泄露或安全事件的風險。
存儲在企業(yè)控制和安全邊界之外的數(shù)據(jù)會帶來數(shù)據(jù)盜竊或數(shù)據(jù)泄漏等安全事件的風險。這就是企業(yè)投資敏感數(shù)據(jù)發(fā)現(xiàn)軟件的原因——用于檢測、識別和組織所有組織資源和環(huán)境中的記錄的工具。
實施這樣的解決方案可以讓企業(yè):
·確保遵守網(wǎng)絡(luò)安全法
·防止數(shù)據(jù)被盜和泄露
·進行數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)安全改進
·提高數(shù)據(jù)管理效率
跨不同環(huán)境和基礎(chǔ)設(shè)施控制敏感數(shù)據(jù)的需求不斷增長,導致數(shù)據(jù)發(fā)現(xiàn)軟件越來越受歡迎。事實上,全球敏感數(shù)據(jù)發(fā)現(xiàn)市場預計將從2020年的51億美元增長到2026年的124億美元。
敏感數(shù)據(jù)保護發(fā)現(xiàn)和工具對于以下行業(yè)中處理敏感信息的企業(yè)尤其重要:
·金融科技
·零售與電子商務(wù)
·衛(wèi)生保健
·保險
·運輸與物流
·人力資源和客戶服務(wù)
·軟件開發(fā)
然而,傳統(tǒng)的數(shù)據(jù)發(fā)現(xiàn)解決方案無法始終跟上現(xiàn)代公司生成新記錄的速度。接下來,我們來看看這些工具的主要弱點和局限性。
為什么傳統(tǒng)的數(shù)據(jù)發(fā)現(xiàn)工具不夠用
雖然用于數(shù)據(jù)發(fā)現(xiàn)和保護的專用工具可提供許多業(yè)務(wù)優(yōu)勢,但管理它們并將其集成到現(xiàn)有的公司系統(tǒng)中可能具有挑戰(zhàn)性。
以下是基于規(guī)則的數(shù)據(jù)發(fā)現(xiàn)的主要缺點:
1.發(fā)現(xiàn)過程緩慢
基于規(guī)則的系統(tǒng)通常依賴數(shù)據(jù)庫和存儲掃描器來發(fā)現(xiàn)新記錄。他們花費大量時間來分析集成的存儲實例,必須進行一一掃描。如果在掃描期間添加新記錄,該工具將不會發(fā)現(xiàn)它,直到完成當前掃描并開始新掃描。此外,掃描儀必須在每次掃描期間檢查所有記錄,包括自上次掃描以來未更改的記錄。
2.非結(jié)構(gòu)化記錄的發(fā)現(xiàn)能力較差
基于規(guī)則的工具可以輕松發(fā)現(xiàn)數(shù)據(jù)庫、日志和電子表格等結(jié)構(gòu)化數(shù)據(jù)源中的敏感記錄。當涉及非結(jié)構(gòu)化數(shù)據(jù)源(電子郵件、文本文檔、社交媒體)時,發(fā)現(xiàn)的準確性會顯著下降,因為非結(jié)構(gòu)化記錄分散且不一致。使用非AI解決方案掃描此類數(shù)據(jù)源通常會提供不可靠且不完整的結(jié)果,考慮到企業(yè)生成的約90%的數(shù)據(jù)是非結(jié)構(gòu)化的,這一點尤其重要。
3.需要大量的手動輸入
為了成功使用基于規(guī)則的系統(tǒng),企業(yè)必須執(zhí)行大量手動活動:設(shè)置配置、指定掃描和分類規(guī)則以及正則表達式、查看結(jié)果等等。大量手動輸入會增加引入人為錯誤的機會。使用基于規(guī)則的系統(tǒng)也不能消除手動發(fā)現(xiàn)系統(tǒng)無法識別的數(shù)據(jù)(例如上面討論的非結(jié)構(gòu)化記錄)的需要。
4.分類保護錯誤
當數(shù)據(jù)沒有被正確、完整地發(fā)現(xiàn)時,任何工具都很難對其進行分類:確定敏感記錄的類型、計算風險評分并分配所需的網(wǎng)絡(luò)安全措施。敏感數(shù)據(jù)分類不正確可能會使記錄不受保護,從而導致數(shù)據(jù)被盜和合規(guī)違規(guī)。
5.缺乏網(wǎng)絡(luò)安全背景
基于規(guī)則的系統(tǒng)收集有關(guān)數(shù)據(jù)發(fā)現(xiàn)的有限數(shù)據(jù)。通常,它們受到發(fā)現(xiàn)的數(shù)據(jù)類型及其位置的限制。為了檢查工具的發(fā)現(xiàn)和分類性能,網(wǎng)絡(luò)安全專家必須手動評估新記錄并收集缺失的上下文,然后才能做出最終決定。
這些限制源于基于規(guī)則的系統(tǒng)的核心算法,這就是為什么即使是經(jīng)驗豐富的開發(fā)人員和系統(tǒng)管理員也難以克服它們。對于存儲空間相對較小、每天不會創(chuàng)建大量數(shù)據(jù)并且擁有可用IT資源來管理發(fā)現(xiàn)過程的組織來說,使用此類系統(tǒng)是有益的。
如果有嚴格的網(wǎng)絡(luò)安全要求,并且需要更多背景信息來發(fā)現(xiàn)和保護數(shù)據(jù),請考慮選擇基于人工智能的工具。采用強大的基于人工智能的系統(tǒng)可以滿足敏感數(shù)據(jù)保護和網(wǎng)絡(luò)安全合規(guī)性方面的許多業(yè)務(wù)需求。
為什么使用人工智能進行數(shù)據(jù)發(fā)現(xiàn)和保護
使用人工智能進行數(shù)據(jù)發(fā)現(xiàn)和保護可以顯著提高數(shù)據(jù)發(fā)現(xiàn)和保護解決方案的準確性和可靠性。企業(yè)可以在數(shù)據(jù)發(fā)現(xiàn)過程中使用各種人工智能模型和技術(shù)來獲得以下優(yōu)勢:
1.識別非結(jié)構(gòu)化數(shù)據(jù)
與基于規(guī)則的系統(tǒng)不同,基于人工智能的解決方案可以識別結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的敏感記錄。借助大型語言模型(LLM)和自然語言處理(NLP),此類解決方案可以檢測信件、聊天日志、文本文件以及其他無法由規(guī)則完全定義的來源中的敏感信息。
對非結(jié)構(gòu)化數(shù)據(jù)的分析使人工智能驅(qū)動的敏感數(shù)據(jù)發(fā)現(xiàn)工具變得可靠,并有助于提高組織的整體網(wǎng)絡(luò)安全態(tài)勢。
2.實時檢測新記錄
人工智能算法不需要迭代掃描可用環(huán)境來發(fā)現(xiàn)新數(shù)據(jù)。相反,他們可以分析新的和編輯的記錄,從而顯著加快檢測速度并避免瓶頸。一些敏感數(shù)據(jù)發(fā)現(xiàn)工具既使用基于規(guī)則的掃描進行常規(guī)數(shù)據(jù)檢查,又使用人工智能模型來更準確地分析非結(jié)構(gòu)化記錄。
3.增強流程自動化
基于人工智能的工具可以可靠地自動化數(shù)據(jù)發(fā)現(xiàn)、分類和保護期間的大多數(shù)活動。初始配置后,他們很少需要手動輸入和額外的調(diào)整。高水平的自動化可以幫助企業(yè)加快數(shù)據(jù)發(fā)現(xiàn)速度,并將網(wǎng)絡(luò)安全專家從日常任務(wù)中解放出來,使他們能夠?qū)W⒂谛枰鋵I(yè)知識的挑戰(zhàn)。
4.正確分類和保護數(shù)據(jù)
由于能夠理解數(shù)據(jù)的含義和上下文,人工智能可以準確地對發(fā)現(xiàn)的任何存儲格式的記錄進行分類。正確的分類和敏感度分數(shù)允許人工智能選擇相關(guān)的記錄,并采取相應(yīng)的安全措施,改善組織的安全狀況并遵守相關(guān)的安全要求。
5.從數(shù)據(jù)分析中獲得見解
由人工智能驅(qū)動的數(shù)據(jù)發(fā)現(xiàn)解決方案會生成并收集大量與其工作相關(guān)的數(shù)據(jù),包括新敏感記錄的性質(zhì)和位置、分類結(jié)果以及常見的數(shù)據(jù)安全策略違規(guī)行為。此類軟件可以使用這些數(shù)據(jù)創(chuàng)建儀表板,幫助安全專家快速評估和改進發(fā)現(xiàn)和保護流程。
該解決方案還可以創(chuàng)建有關(guān)最近事件和數(shù)據(jù)保護狀態(tài)的自動報告,這些報告對于深入評估組織的安全性和通過合規(guī)性審核非常有用。
使用人工智能進行數(shù)據(jù)發(fā)現(xiàn)可以將數(shù)據(jù)發(fā)現(xiàn)解決方案提升到一個新的水平,并提高組織的網(wǎng)絡(luò)安全性。然而,以高效且經(jīng)濟高效的方式實施它需要在網(wǎng)絡(luò)安全領(lǐng)域使用人工智能的經(jīng)驗。
人工智能數(shù)據(jù)發(fā)現(xiàn)和保護工具如何工作
用于數(shù)據(jù)發(fā)現(xiàn)和保護的高級解決方案可以執(zhí)行從文件掃描到數(shù)據(jù)分析和風險報告的各種活動。此類工具可能完全基于人工智能算法或具有附加人工智能功能的基于規(guī)則的系統(tǒng)。
雖然每個解決方案都有自己的殺手級功能和工作流程,但可以將大多數(shù)基于人工智能的工具所經(jīng)歷的數(shù)據(jù)發(fā)現(xiàn)過程概述為以下關(guān)鍵階段:
1.數(shù)據(jù)掃描
AI解決方案持續(xù)監(jiān)控它可以訪問的環(huán)境以獲取新數(shù)據(jù):云和本地服務(wù)器、數(shù)據(jù)庫、設(shè)備驅(qū)動器等。數(shù)據(jù)發(fā)現(xiàn)和保護解決方案的管理員可以配置它應(yīng)查找的數(shù)據(jù)類型并提供對實例的訪問它應(yīng)該監(jiān)控。
掃描通常包括以下關(guān)鍵步驟:
·監(jiān)控可訪問存儲實例的更改和新記錄
·識別潛在敏感記錄
·準備非結(jié)構(gòu)化數(shù)據(jù)進行處理
當解決方案發(fā)現(xiàn)包含潛在敏感數(shù)據(jù)的文件時,它會嘗試對其進行分類。
2.數(shù)據(jù)分類和標記
根據(jù)其配置,軟件可以通過以下方式對發(fā)現(xiàn)的記錄進行分類:
·敏感數(shù)據(jù)的類型。該解決方案可以識別個人、財務(wù)或制造數(shù)據(jù)以及知識產(chǎn)權(quán)。在這個階段使用LLM和NLP等人工智能技術(shù)有助于對非結(jié)構(gòu)化數(shù)據(jù)進行高精度分類。
·敏感度得分。該解決方案可以根據(jù)數(shù)據(jù)的性質(zhì)、位置、所應(yīng)用的保護措施和其他因素來計算發(fā)現(xiàn)的記錄的敏感程度。此分數(shù)有助于解決方案決定在后續(xù)處理階段如何處理數(shù)據(jù)以及何時需要通知系統(tǒng)管理員。
分類完成后,解決方案會為發(fā)現(xiàn)的記錄分配標簽。標簽通常包括數(shù)據(jù)類型、與其交互所需的訪問級別以及限制級別。解決方案管理員還可以創(chuàng)建自定義標簽。
3.保護
數(shù)據(jù)發(fā)現(xiàn)軟件為保護其發(fā)現(xiàn)的數(shù)據(jù)而采取的步驟完全取決于組織的網(wǎng)絡(luò)安全標準和環(huán)境、適用的法規(guī)等。通常,人工智能驅(qū)動的軟件可以實施以下數(shù)據(jù)保護措施:
·加密
·準入政策
·將數(shù)據(jù)傳輸?shù)礁踩拇鎯?/p>
·去識別化和匿名化
·數(shù)據(jù)脫敏
4.警報和分析
除了持續(xù)的發(fā)現(xiàn)和保護過程之外,還可以使用人工智能算法來處理他們收集的數(shù)據(jù)并編譯有用的儀表板:
·當前需要管理員解決的安全威脅
·各種數(shù)據(jù)記錄和存儲實例的風險評分
·常見的數(shù)據(jù)保護違規(guī)行為,這可能表明有害的用戶行為和安全策略中的漏洞
·應(yīng)用保護與合規(guī)性要求之間的不一致
此類數(shù)據(jù)分析和可視化能夠檢測企業(yè)保護中的薄弱環(huán)節(jié)并改進安全策略。
盡管數(shù)據(jù)發(fā)現(xiàn)和保護軟件幾乎可以完全自動工作,但網(wǎng)絡(luò)安全專家必須概述其決策,以確保充分的數(shù)據(jù)保護。當此類軟件發(fā)現(xiàn)敏感度較高或存在較多安全風險的新記錄時,它可以通知管理員。然后,管理員可以查看解決方案分配的保護措施,并根據(jù)需要進行更改。
如何應(yīng)對人工智能驅(qū)動的數(shù)據(jù)發(fā)現(xiàn)的關(guān)鍵挑戰(zhàn)
構(gòu)建自定義數(shù)據(jù)發(fā)現(xiàn)和保護工具總是會面臨針對客戶群體、需求和合規(guī)性要求所特有的挑戰(zhàn)。
1.相關(guān)數(shù)據(jù)存儲集成
為了能夠發(fā)現(xiàn)所有敏感數(shù)據(jù),工具需要訪問和讀取組織所有環(huán)境中的記錄。但是,為所有可能的云和本地存儲實例添加API需要開發(fā)人員花費大量時間,并且可能會引入安全漏洞。在開始開發(fā)之前,會采訪客戶的利益相關(guān)者,以了解他們的環(huán)境,僅添加他們需要的集成,并保護已實施的API。
2.可靠的開發(fā)組件
使用第三方組件可以顯著加快開發(fā)過程,但也會增加在解決方案中添加后門的風險。為了找到開發(fā)時間和安全性之間的平衡,將會測試第三方軟件并使用已知漏洞數(shù)據(jù)庫對其進行檢查,然后再將其添加到客戶的解決方案中。
如果解決方案使用GPT或Claude等商業(yè)語言模型,可以創(chuàng)建一個私有數(shù)據(jù)庫來訓練它或在本地部署模型,以避免與其他公司共享數(shù)據(jù)。
3.均衡的資源利用
與任何基于人工智能的解決方案一樣,持續(xù)的數(shù)據(jù)發(fā)現(xiàn)可能非常消耗資源,特別是當企業(yè)不斷生成大量數(shù)據(jù)時,這可能會導致高昂的云使用成本或需要維護強大的本地計算機。為了避免開發(fā)和維護成本飆升,采用了敏捷和DevOps實踐,優(yōu)化AI性能以消除不必要的操作,并實施靈活的擴展機制。
4.安全配置
人工智能數(shù)據(jù)發(fā)現(xiàn)和保護工具需要訪問和管理其管理環(huán)境中的任何記錄。這些記錄可能會被黑客或內(nèi)部人員濫用,以尋求訪問敏感數(shù)據(jù)而不被注意到的方法。限制工具的安全權(quán)限將阻礙其效率,因此,會尋求性能和安全性之間的平衡:配置對記錄的即時訪問、發(fā)現(xiàn)數(shù)據(jù)時匿名化、為管理員添加數(shù)據(jù)操作通知等。
5.人工智能偏見
任何基于人工智能的解決方案都會帶有其開發(fā)人員和訓練數(shù)據(jù)集的偏見。
對于數(shù)據(jù)發(fā)現(xiàn)和保護解決方案,這種偏差可能會導致數(shù)據(jù)分類不正確或安全措施執(zhí)行不足。在產(chǎn)品發(fā)布之前檢測人工智能偏差的最可靠方法是通過廣泛的測試。
培養(yǎng)人工智能、網(wǎng)絡(luò)安全和數(shù)據(jù)管理等復雜軟件開發(fā)領(lǐng)域的專業(yè)知識。憑借為來自嚴格監(jiān)管行業(yè)的客戶構(gòu)建定制解決方案的經(jīng)驗,可以盡早概述關(guān)鍵的開發(fā)挑戰(zhàn)并提供克服這些挑戰(zhàn)的方法。
結(jié)論
數(shù)據(jù)發(fā)現(xiàn)和保護工具是任何企業(yè)網(wǎng)絡(luò)安全的重要組成部分,因為它們?yōu)榭煽康臄?shù)據(jù)安全和管理奠定了基礎(chǔ)。此類工具可以跨任何云、本地和混合基礎(chǔ)設(shè)施發(fā)現(xiàn)敏感數(shù)據(jù),并根據(jù)企業(yè)的策略和合規(guī)性要求實施網(wǎng)絡(luò)安全措施。
通過人工智能增強數(shù)據(jù)發(fā)現(xiàn)和保護,將此類解決方案提升到一個新的水平。與基于規(guī)則的系統(tǒng)相比,人工智能可以發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)并對其進行分類,犯的錯誤更少,不需要大量的手動輸入,并可以收集數(shù)據(jù)以用于未來的安全改進。
但要構(gòu)建人工智能驅(qū)動的數(shù)據(jù)發(fā)現(xiàn)解決方案并安全地部署它,用戶需要聘請網(wǎng)絡(luò)安全、人工智能開發(fā)和數(shù)據(jù)管理方面的專家。