二進(jìn)制可視化和機(jī)器學(xué)習(xí)的結(jié)合在網(wǎng)絡(luò)安全方面已經(jīng)展示了巨大潛力,惡意軟件和釣魚(yú)網(wǎng)站檢測(cè)就是其中的熱點(diǎn)領(lǐng)域,本文我們將介紹該領(lǐng)域的兩大創(chuàng)新應(yīng)用進(jìn)展。
一、用深度學(xué)習(xí)檢測(cè)惡意軟件
檢測(cè)惡意軟件的傳統(tǒng)方法是在文件中搜索惡意負(fù)載的已知簽名。惡意軟件檢測(cè)器擁有一個(gè)包含病毒操作碼序列或代碼片段的數(shù)據(jù)庫(kù),它可搜索被檢測(cè)的新文件中是否存在這些簽名。但惡意軟件開(kāi)發(fā)人員可以使用不同的技術(shù)輕松規(guī)避此類檢測(cè)方法,例如混淆檢測(cè)代碼或使用多態(tài)技術(shù)在運(yùn)行時(shí)改變他們的代碼。雖然動(dòng)態(tài)分析工具可嘗試在運(yùn)行時(shí)檢測(cè)惡意行為,但速度較慢,并且需要設(shè)置沙箱環(huán)境來(lái)測(cè)試可疑程序。
近年來(lái),研究人員嘗試了一系列機(jī)器學(xué)習(xí)技術(shù)來(lái)檢測(cè)惡意軟件。這些機(jī)器學(xué)習(xí)模型在惡意軟件檢測(cè)的一些領(lǐng)域上取得了進(jìn)展,例如代碼混淆。但機(jī)器學(xué)習(xí)也面臨著新挑戰(zhàn),包括需要學(xué)習(xí)太多的特征和分析目標(biāo)樣本的虛擬環(huán)境。
二進(jìn)制可視化可以通過(guò)將惡意軟件檢測(cè)轉(zhuǎn)化為計(jì)算機(jī)視覺(jué)問(wèn)題來(lái)重新定義惡意軟件檢測(cè)。在這種方法中,文件通過(guò)將二進(jìn)制和ASCII值轉(zhuǎn)換為顏色代碼的算法運(yùn)行。
研究人員表明,當(dāng)使用這種方法可視化良性和惡意文件時(shí),可以將兩者分開(kāi),惡意文件往往包含各種類別的ASCII字符,呈現(xiàn)出豐富多彩的圖像,而良性文件則具有更清晰的圖片和值分布。企業(yè)可以利用此檢測(cè)模型進(jìn)行惡意文件檢測(cè)。
研究人員創(chuàng)建了一個(gè)包含良性和惡意文件的可視化二進(jìn)制文件數(shù)據(jù)集,該數(shù)據(jù)集包含各種惡意負(fù)載(病毒、蠕蟲(chóng)、木馬、rootkit等)和文件類型(.exe、.doc、.pdf、.txt等)。
然后研究人員使用這些圖像來(lái)訓(xùn)練分類器神經(jīng)網(wǎng)絡(luò)。他們使用的架構(gòu)是自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN),速度快,尤其擅長(zhǎng)處理噪聲數(shù)據(jù)。他們還使用圖像預(yù)處理技術(shù)將二值圖像縮小為1,024維特征向量,這使得在輸入數(shù)據(jù)中學(xué)習(xí)模式變得更加容易且計(jì)算效率更高。由此產(chǎn)生的神經(jīng)網(wǎng)絡(luò)足夠高效,可以在配備英特爾酷睿i5處理器的個(gè)人工作站上在15秒內(nèi)計(jì)算包含4,000個(gè)樣本的訓(xùn)練數(shù)據(jù)集。
研究人員的實(shí)驗(yàn)表明,深度學(xué)習(xí)模型特別擅長(zhǎng)檢測(cè).doc和.pdf文件中的惡意軟件,這些文件是勒索軟件攻擊的首選媒介。研究人員建議,如果調(diào)整模型以將文件類型作為其學(xué)習(xí)維度之一,則可以提高模型的性能??傮w而言,該算法實(shí)現(xiàn)了約74%的平均檢測(cè)率。
二、用深度學(xué)習(xí)檢測(cè)釣魚(yú)網(wǎng)站
網(wǎng)絡(luò)釣魚(yú)攻擊正成為組織和個(gè)人面臨的日益嚴(yán)重的問(wèn)題。許多網(wǎng)絡(luò)釣魚(yú)攻擊誘使受害者點(diǎn)擊一個(gè)指向惡意網(wǎng)站的鏈接,這些網(wǎng)站偽裝成合法服務(wù),他們最終會(huì)在其中輸入敏感信息,例如憑據(jù)或財(cái)務(wù)信息。
檢測(cè)網(wǎng)絡(luò)釣魚(yú)網(wǎng)站的傳統(tǒng)方法主要是將惡意域名列入黑名單或?qū)踩蛎腥氚酌麊巍G耙环N方法對(duì)名單內(nèi)未收錄的新型網(wǎng)絡(luò)釣魚(yú)網(wǎng)站沒(méi)有篩選能力,而后一種方法限制性太強(qiáng),需要付出大量努力才能提供對(duì)所有安全域名的訪問(wèn)。
2020年,研究人員使用二進(jìn)制可視化和深度學(xué)習(xí)開(kāi)發(fā)了一種檢測(cè)網(wǎng)絡(luò)釣魚(yú)網(wǎng)站的新方法。該技術(shù)使用二進(jìn)制可視化庫(kù)將網(wǎng)站標(biāo)記和源代碼轉(zhuǎn)換為顏色值。與良性和惡意應(yīng)用程序文件的情況一樣,在可視化網(wǎng)站時(shí),會(huì)出現(xiàn)區(qū)分安全和惡意網(wǎng)站的獨(dú)特模式。研究人員寫(xiě)道:“合法站點(diǎn)具有更詳細(xì)的RGB值,因?yàn)樗鼘⒂蓙?lái)自許可證、超鏈接和詳細(xì)數(shù)據(jù)輸入表的附加字符構(gòu)成。而網(wǎng)絡(luò)釣魚(yú)網(wǎng)站通常包含單個(gè)或不包含CSS引用、多個(gè)圖像而不是表單和一個(gè)沒(méi)有安全腳本的登錄表單。這將在抓取時(shí)創(chuàng)建一個(gè)較小的數(shù)據(jù)輸入字符串。”
研究人員創(chuàng)建了一個(gè)代表合法和惡意網(wǎng)站代碼的圖像數(shù)據(jù)集,并用它來(lái)訓(xùn)練分類機(jī)器學(xué)習(xí)模型。他們使用的架構(gòu)是MobileNet,這是一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CNN),經(jīng)過(guò)優(yōu)化可在用戶設(shè)備上運(yùn)行,而不是在大容量云服務(wù)器上運(yùn)行。CNN特別適用于計(jì)算機(jī)視覺(jué)任務(wù),包括圖像分類和對(duì)象檢測(cè)。
一旦模型經(jīng)過(guò)訓(xùn)練,它就會(huì)被插入到網(wǎng)絡(luò)釣魚(yú)檢測(cè)工具中。當(dāng)用戶偶然發(fā)現(xiàn)一個(gè)新網(wǎng)站時(shí),它首先檢查該URL是否包含在其惡意域數(shù)據(jù)庫(kù)中。如果是新域名,則通過(guò)可視化算法進(jìn)行轉(zhuǎn)化,并通過(guò)神經(jīng)網(wǎng)絡(luò)運(yùn)行,檢查是否有惡意網(wǎng)站的模式。這種兩步架構(gòu)確保系統(tǒng)使用黑名單數(shù)據(jù)庫(kù)的速度和基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)釣魚(yú)檢測(cè)技術(shù)的智能檢測(cè)。
研究人員的實(shí)驗(yàn)表明,該技術(shù)檢測(cè)網(wǎng)絡(luò)釣魚(yú)網(wǎng)站的準(zhǔn)確率高達(dá)94%。此外,研究人員還在探索使用二進(jìn)制可視化和機(jī)器學(xué)習(xí)來(lái)檢測(cè)物聯(lián)網(wǎng)網(wǎng)絡(luò)中的惡意軟件流量。二元可視化表明,只要有足夠的創(chuàng)造力和嚴(yán)謹(jǐn)性,我們就可以為舊問(wèn)題找到新的解決方案。