回顧2003年網(wǎng)絡(luò)防火墻中的AI

信息化觀察網(wǎng)
編譯
過度依賴并且錯誤使用人工智能和機器學(xué)習(xí)會產(chǎn)生不必要的風(fēng)險。 網(wǎng)絡(luò)安全產(chǎn)業(yè)的弊端在于,會將某種方法看做是問題的解決方案,而不是考慮如何讓這些方法發(fā)揮作用。人工智能和機器學(xué)習(xí)方面就出現(xiàn)了這種現(xiàn)象,這件事...

過度依賴并且錯誤使用人工智能和機器學(xué)習(xí)會產(chǎn)生不必要的風(fēng)險。

網(wǎng)絡(luò)安全產(chǎn)業(yè)的弊端在于,會將某種方法看做是問題的解決方案,而不是考慮如何讓這些方法發(fā)揮作用。人工智能和機器學(xué)習(xí)方面就出現(xiàn)了這種現(xiàn)象,這件事讓筆者回想起關(guān)于2003年網(wǎng)絡(luò)防火墻的一些討論。

在2003年,模式匹配是威脅檢測的主要方法,因為它可以在硬件之間進行模式匹配,硬件驅(qū)動的解決方案(如防火墻)和基于軟件的解決方案——如入侵檢測系統(tǒng)——之間的聯(lián)系越來越小。

在這次的技術(shù)演變中,我們都忽略了一個事實,即入侵檢測系統(tǒng)要優(yōu)于模式匹配,并且該系統(tǒng)也包括了各種方法,包括異常檢測和事件關(guān)聯(lián),但是在防火墻中從來沒有使用過這些方法。因此,基于防火墻的模式匹配成為了威脅檢測的默認(rèn)解決方案,而不是將模式匹配看做是整體解決方案中的一個重要的部分。

這段歷史很重要,因為AI(實際上ML)只是工具演變過程中出現(xiàn)的另一種方法,而這些工具能夠?qū)iT解決信息安全工作流程方面的問題。

在安全領(lǐng)域?qū)ふ褹I和ML的價值

人工智能的定義是讓機器在沒有人工指導(dǎo)的情況下獨自、智能地完成任務(wù);機器學(xué)習(xí)是機器從人類提供的數(shù)據(jù)中“學(xué)習(xí)”的行為。鑒于這些定義,人工智能實際上并不真正存在于信息安全中;即使存在,不會長期存在。

同現(xiàn)有的方法相比,機器學(xué)習(xí)能夠更加高效地解決確定性的安全問題。

大多數(shù)的情況下,營銷材料中提到的AI / ML大多說的是啟發(fā)式算法,而不是計算統(tǒng)計算法。雖然啟發(fā)式算法比人工智能簡單得多,但它在各種安全活動中表現(xiàn)良好,而計算密集程度遠遠低于基于數(shù)據(jù)科學(xué)的方法。

ML只是眾多工具中的一種,能夠用于識別不良活動,并且有效地解決了良性有界(well-bounded)和理解問題。

在寫安全方面AI/ML的批評文章之前,筆者回想起當(dāng)他還是Cylance的第一批員工的時候,他目睹了ML在惡意軟件檢測問題方面的驚人成就。然而,技術(shù)成功的關(guān)鍵在于研究以及解決問題及其局限性,具體如下:

結(jié)構(gòu)限制:數(shù)據(jù)和結(jié)構(gòu)類型要么多年不變,要么發(fā)展緩慢。在這種情況下,文件格式就決定了數(shù)據(jù)結(jié)構(gòu);

行為限制:一個很好的ML用例是,被建模的數(shù)據(jù)僅作為有限的動作結(jié)果出現(xiàn),從而能夠讓數(shù)據(jù)點預(yù)測性地將這一結(jié)果映射到ML能夠理解的程度;

顛覆性影響:這是最重要的因素,并且只會在信息安全中出現(xiàn)。網(wǎng)絡(luò)黑客會去尋找和利用ML模型中的漏洞,這樣看來,對文件進行充分地更改是非常困難的,因為這些文件會使統(tǒng)計分析數(shù)據(jù)不明確。

惡意軟件分析和端點檢測與響應(yīng)是信息安全挑戰(zhàn)的例證,并且也滿足上述三個限制因素,這就是為什么機器學(xué)習(xí)在這個領(lǐng)域非常有效的原因。

將相同的思維過程應(yīng)用在網(wǎng)絡(luò)上是不安全的,因為網(wǎng)絡(luò)數(shù)據(jù)在結(jié)構(gòu)上或行為上并不受限制,并且攻擊者可以在網(wǎng)絡(luò)上發(fā)送0和1的任何序列。這是否意味著AI和ML是分析網(wǎng)絡(luò)數(shù)據(jù)的死胡同?

如果解決方法僅僅是使用這些強大的技術(shù)來發(fā)現(xiàn)每個用戶或設(shè)備的基線偏差,那么我們必將失敗。這種“智能”方法產(chǎn)生的誤報(false positives)和漏報(false negative)要求人在執(zhí)行前對結(jié)果進行分析。

注釋:

FP——False Positive (假正, FP)是指某(些)個負樣本被模型預(yù)測為正;此種情況可以稱作判斷為真的錯誤情況,或稱為誤報;

FN——False Negative(假負 , FN)是指某(些)個正樣本被模型預(yù)測為負;此種情況可以稱作判斷為假的錯誤情況,或稱為漏報。

例如,基于網(wǎng)絡(luò)異常發(fā)出警報的流量分析可能會告訴用戶,來自這一IP地址的流量過大,但是之前從未出現(xiàn)過這樣的情況。通常,這個問題在于用戶正在進行新的備份。

相反,如果我們使用AI和ML,通過比較整個環(huán)境,特別是比較實體行為與類似的行為來確定技術(shù)好與壞的話,又會怎么樣?這能夠讓系統(tǒng)自動學(xué)習(xí)諸如新備份過程之類的更改。

從技術(shù)或者哲學(xué)的角度來說,并非所有的信息安全的ML用例都是平等的。與2003年的防火墻一樣,機器學(xué)習(xí)確實有一些搭配得當(dāng)?shù)氖褂冒咐?,這些用例正在推動企業(yè)保護向最新技術(shù)水平方向發(fā)展。

然而,過度依賴機器學(xué)習(xí)來處理不匹配的用例會給企業(yè)帶來不必要的額外風(fēng)險和費用,同時會導(dǎo)致其它持續(xù)的負面影響,例如彌補ML漏洞方法的減少。

原文作者:Gary Golomb

THEEND