優(yōu)秀IT人的斷舍離,從“有毒數(shù)據(jù)”開始

Mary Branscombe
如果把數(shù)據(jù)比喻成新油田,那么想要避免相當(dāng)于有毒泄漏的數(shù)據(jù)泄露,必須做好安全工作。這一切都始于強(qiáng)大的數(shù)據(jù)刪除策略。

在65萬多個客戶的個人信息被泄露后,連鎖酒吧Wetherspoon決定刪除其存儲的幾乎所有客戶信息,為的是降低風(fēng)險(xiǎn)。畢竟,如果你沒有數(shù)據(jù),就不需要檢查是否合規(guī),也不用針對GDPR的“主題訪問請求”進(jìn)行披露,不會因?yàn)槌霈F(xiàn)數(shù)據(jù)泄露而道歉。

事實(shí)上,數(shù)據(jù)是如此有毒,以至于加州律師協(xié)會互聯(lián)網(wǎng)與隱私法委員會主席Joshua de Larios-Heiman建議將其視為鈾礦而非油田。他說:“廢鈾棒怎么辦?它們變成了有毒資產(chǎn),很難處理掉它們。如果處理不當(dāng),人們會起訴你。”

如果你開始從這些方面考慮風(fēng)險(xiǎn),那么你的企業(yè)丟掉存儲的哪些數(shù)據(jù)會變得更好?

不收集不需要的數(shù)據(jù)

有很多數(shù)據(jù)是由人們自己產(chǎn)生的,你無法從中獲得任何價(jià)值,而保留這些數(shù)據(jù)可能又會增加風(fēng)險(xiǎn)。微軟負(fù)責(zé)Azure和企業(yè)安全的副總裁Julia White評論說:“令我非常震驚的是,人們似乎并沒有發(fā)現(xiàn)他們不想要的數(shù)據(jù),或者出于GDPR的原因應(yīng)該清除掉的數(shù)據(jù)。”

ACLU高級技術(shù)研究員Jon Callas指出,不要被存儲成本下降所迷惑,以為保存數(shù)據(jù)很便宜。

他說:“保存數(shù)據(jù)的成本比想象得要高,而且收益也很低。它有可能是有用的,對分析有所貢獻(xiàn)。但更有可能是有害的——會讓你輸?shù)暨`約案,或者被法庭傳喚。隨著時間的推移,其可用價(jià)值越來越少,但危害價(jià)值保持不變。如果你丟失了某個人五年前的住址,歐盟并不關(guān)心這是你不想要的不準(zhǔn)確的數(shù)據(jù),也不關(guān)心這對你的業(yè)務(wù)有什么幫助,丟了你就得負(fù)責(zé)。在某一時點(diǎn)上,數(shù)據(jù)和業(yè)務(wù)會出現(xiàn)交叉。你應(yīng)該在這些數(shù)據(jù)交叉之前把它們?nèi)拥簟?rdquo;

Callas指出,“被傳訊和主題訪問請求的成本高于存儲媒介的成本。有些糟心事可能會發(fā)生,有些數(shù)據(jù)可能會令你陷入更多的糟心事中,結(jié)果所導(dǎo)致的成本要遠(yuǎn)高于這些數(shù)據(jù)的價(jià)值。當(dāng)你說‘我只保留有理由保留的數(shù)據(jù)’時,你必須采取的程序會讓你陷入截然不同的境地中。”

高風(fēng)險(xiǎn)數(shù)據(jù)

Veritas公司的高級主管Jasmit Sagoo在接受CIO.com采訪時表示,數(shù)據(jù)中心存儲的數(shù)據(jù)有1/3是可有可無的、過時的甚至是多余的。

他說:“這些數(shù)據(jù)幾乎沒有什么業(yè)務(wù)價(jià)值,應(yīng)該主動刪除,尤其是考慮到數(shù)據(jù)泄露和風(fēng)險(xiǎn)等級時。例如,前員工和前客戶數(shù)據(jù)的風(fēng)險(xiǎn)非常高。這包含個人身份信息,因此只有出于法律原因才值得保存這些數(shù)據(jù)。財(cái)務(wù)記錄特別容易受到黑客的攻擊,這也是需要謹(jǐn)慎管理的敏感數(shù)據(jù)的具體實(shí)例。”

怎樣找到不需要并且應(yīng)該刪除的數(shù)據(jù)呢?Sagoo說:“作為一個起點(diǎn),企業(yè)應(yīng)能夠識別數(shù)據(jù)中的具體細(xì)節(jié),準(zhǔn)確指出風(fēng)險(xiǎn)范圍及其潛在價(jià)值。了解存儲了什么、誰在訪問它以及訪問頻率也很重要。只有這樣,才能知道有哪些數(shù)據(jù),根據(jù)定制的數(shù)據(jù)保留策略對其進(jìn)行分類。然后,至少每季度刪除一次這些文件。”

ISG首席分析師Blair Hanley Frank認(rèn)為,“有些數(shù)據(jù)永遠(yuǎn)不應(yīng)該存儲起來進(jìn)行分析。在2019年仍以純文本形式存儲用戶密碼的任何企業(yè)都是在自找麻煩。”

刪除與不再使用的生產(chǎn)系統(tǒng)相關(guān)聯(lián)的數(shù)據(jù)。例如,WeatherSpoon公司泄露的用戶數(shù)據(jù)來自一個老網(wǎng)站,而這些數(shù)據(jù)本不應(yīng)該還在那里。而Adobe公司泄露的密碼數(shù)據(jù)也來自一個老的非生產(chǎn)系統(tǒng)。Frank指出:“企業(yè)不能僅僅因?yàn)檫@些系統(tǒng)是老的IT基礎(chǔ)設(shè)施的一部分就忽略這些過時或者很少使用的系統(tǒng)。”

特別要注意跟蹤已經(jīng)提?。ㄍǔJ荴LS或者CSV文件)并移交給開發(fā)人員用作示例數(shù)據(jù)的客戶數(shù)據(jù)庫副本。

對此,你應(yīng)該屏蔽數(shù)據(jù)。通過屏蔽數(shù)據(jù),可以保留相關(guān)的數(shù)據(jù)統(tǒng)計(jì)分布,以便在測試中使用,而不存在泄露的風(fēng)險(xiǎn)。

Delphix公司董事Benjamin Ross指出:“非生產(chǎn)開發(fā)和測試環(huán)境雖然非常重要,但卻帶來了很大的風(fēng)險(xiǎn),而且往往是GDPR合規(guī)的軟肋。”

不要“去身份標(biāo)識”,直接刪除就好

只有出于當(dāng)前業(yè)務(wù)的原因才保存數(shù)據(jù),而不是模糊地希望機(jī)器學(xué)習(xí)系統(tǒng)能從中發(fā)現(xiàn)一些有用的東西。Callas指出,即便是人工智能初創(chuàng)企業(yè)投資人的Andreessen Horowitz,也在質(zhì)疑收集大量數(shù)據(jù)是否有價(jià)值。Callas說:“有一種神秘的信念,即擁有這種‘數(shù)據(jù)護(hù)城河’便具備了可持續(xù)的競爭優(yōu)勢,而作為投資者,經(jīng)驗(yàn)告訴他們,并非如此。你可能認(rèn)為這會使你的企業(yè)變得更好,但現(xiàn)實(shí)卻是不太可能。”

微軟研究院(Microsoft Research)高級研究員Mary L.Gray說,這尤其適用于你正在考慮用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集的個人識別信息(PII)。她說:“既然有了GDPR,就應(yīng)該非常嚴(yán)格地限制PII可以收集什么,誰能訪問它,采用什么審計(jì)措施來說明PII在哪里、何時以及怎樣被重新調(diào)整用途,出售給收集它的公司之外的某個實(shí)體,說清楚這些實(shí)體能保留多長時間。”

而且“去身份標(biāo)識”的數(shù)據(jù)并不能保證安全保存,因?yàn)橹灰凶銐虻臄?shù)據(jù),仍然可以識別個人身份——即使你不想這樣做。她警告說:“認(rèn)為能夠永久地把收集到的數(shù)據(jù)‘去身份標(biāo)識’,這實(shí)在是無稽之談。”

她繼續(xù)道,“以數(shù)據(jù)為中心的技術(shù)行業(yè)還沒有找到怎樣徹底刪除數(shù)據(jù)的方法,更不用說能確定完全停止收集哪些數(shù)據(jù)。該行業(yè)最終同意了對PII進(jìn)行散列處理:這相當(dāng)于在其上運(yùn)行一個黑色標(biāo)記。但他們可以收集我們所做的一切。如果你能預(yù)測自己在做什么和在哪里做什么,那么你仍然留下了數(shù)字足跡,這與圖片中的PII沒有什么不同。”

她補(bǔ)充說,雖然刪除明顯的身份標(biāo)示(例如,姓名和出生日期)很簡單,但“去身份標(biāo)識”的數(shù)據(jù)中仍然會包含PII,例如,當(dāng)用戶把全名添加到?jīng)]有標(biāo)記為姓名的字段中時,等等。

Gray解釋說:“這就是為什么很難堵住數(shù)據(jù)泄露的原因。”你可以獲取一組電子郵件地址數(shù)據(jù)、另一組地理位置元數(shù)據(jù)和第三組搜索查詢數(shù)據(jù),并運(yùn)行足夠的這些數(shù)據(jù)組合,產(chǎn)生能生成姓名、出生日期和位置的搜索字符串,重新識別出與某一電子郵件地址相關(guān)的人員。”

Frank警告說,這些潛在的有害數(shù)據(jù)甚至?xí)泳徠髽I(yè)的數(shù)據(jù)策略。他說:“擁有大量基本上無用的信息會增加人們花在構(gòu)建和測試模型上的時間,從而使分析有用數(shù)據(jù)變得更加困難。為了解決這個問題,企業(yè)應(yīng)該主動判斷信息帶來的價(jià)值,并測試這些數(shù)據(jù),看看它是否具有預(yù)測價(jià)值。”

微軟云與人工智能部執(zhí)行副總裁Scott Guthrie建議減少存儲的數(shù)據(jù),并盡可能匿名。他說:“如果能夠遠(yuǎn)程監(jiān)測網(wǎng)絡(luò)搜索,你會存儲進(jìn)行網(wǎng)絡(luò)搜索的人的確切位置嗎?或者,你在街道或者其他級別上進(jìn)行匿名處理,這樣無論你是否有數(shù)據(jù)泄露,都不會侵犯隱私了?”

如果你沒有數(shù)據(jù),就不會有人濫用數(shù)據(jù)。

Callas說:“不要問,‘我為什么要丟掉這些數(shù)據(jù)?’而是要問,‘我為什么要保留它?’除非你知道為什么要保留數(shù)據(jù),否則就應(yīng)該丟掉數(shù)據(jù),因?yàn)樵诂F(xiàn)在的環(huán)境中,我們能以更低的成本收集更多、更新的數(shù)據(jù)。”這可以是在自己的網(wǎng)站上提供某種選項(xiàng),填寫調(diào)查問卷進(jìn)行獎勵,或者對測試軟件程序進(jìn)行遠(yuǎn)程監(jiān)測。

他指出,扔掉PII后,可以認(rèn)為,“不管怎樣,這才是你想要的。”

Callas說:“如果公交管理部門因?yàn)橄胫廊藗冊谧鍪裁炊M(jìn)行調(diào)查,那么就真得需要準(zhǔn)確的數(shù)據(jù),并且為這些數(shù)據(jù)付費(fèi)是有意義的,但是你應(yīng)該通過數(shù)據(jù)過濾機(jī)(data grinder)來運(yùn)行這些數(shù)據(jù),丟掉原始數(shù)據(jù),然后在一年內(nèi)徹底處理掉這些數(shù)據(jù)。比如,如果你想弄清楚要修哪條道路,就不需要那些剛剛修過的道路的數(shù)據(jù),特別是數(shù)據(jù)顯示你已經(jīng)修過這些道路了。剛剛修好的道路的每一條數(shù)據(jù)都是有毒的:沒有好處,只有壞處。”

對數(shù)據(jù)的保存時間也要有明確的政策,比如日志文件的保存時間不超過一周(調(diào)試除外)。Callas建議建立一些“強(qiáng)制職能”,以確保做出這些決定。“如果我說,‘你放進(jìn)我的數(shù)據(jù)倉庫的所有東西,十年后我都會刪除,除非你告訴我你為什么要保留它’,那么你就得想清楚為什么要把數(shù)據(jù)放進(jìn)數(shù)據(jù)倉庫。”

作者:Mary Branscombe是一位自由撰稿人,他二十多年來一直致力于技術(shù)寫作,其寫作主題涵蓋了從編程語言、Windows和Office的早期版本,到最早的網(wǎng)絡(luò)以及消費(fèi)類小工具和家庭娛樂的各個方面。

編譯:Charles

原文網(wǎng)址:https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論