近日,微軟和英特爾合作開發(fā)了一個(gè)全新的檢測和分類惡意軟件的人工智能研究項(xiàng)目——STAMINA。
STAMINA(STAtic Malware-as-Image Network Analysis)能夠?qū)阂廛浖颖巨D(zhuǎn)換為灰度圖像,然后掃描識(shí)別獲取特定惡意軟件樣本的紋理和結(jié)構(gòu)模式。
STAMINA的實(shí)際運(yùn)作方式
英特爾和微軟研究團(tuán)隊(duì)表示,整個(gè)過程遵循幾個(gè)簡單步驟。第一個(gè)步驟包括獲取輸入文件并將其二進(jìn)制代碼轉(zhuǎn)換為原始像素?cái)?shù)據(jù)流。
然后,研究人員將這些一維的像素流轉(zhuǎn)換為二維照片,以便使用常規(guī)圖像分析算法對其進(jìn)行分析。
通過下面這張換算表根據(jù)文件大小來確定圖像寬度、圖像高度是動(dòng)態(tài)的,通過將原始像素流除以所選寬度值得到。
圖片來源:英特爾,微軟
在將原始像素流組合成二維圖像后,研究人員隨后將生成的照片調(diào)整為較小的尺寸。
英特爾和微軟團(tuán)隊(duì)表示,調(diào)整原始圖像的大小不會(huì)“對分類結(jié)果產(chǎn)生負(fù)面影響”,這是必要的步驟,因?yàn)橛?jì)算資源沒有必要處理包含數(shù)十億像素的原始圖像,調(diào)整圖像大小可以大大加快處理速度。
然后,將駐留的圖像輸入經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)(DNN),該網(wǎng)絡(luò)會(huì)掃描圖像(惡意軟件株的二維表示)并將其分類為“干凈”或“已感染”。
微軟表示,它提供了220萬個(gè)受感染PE(便攜式可執(zhí)行文件)文件哈希的樣本,作為該研究的素材。
研究人員使用60%的已知惡意軟件樣本來訓(xùn)練原始DNN算法,使用20%的文件來驗(yàn)證DNN,其余20%用于實(shí)際測試過程。
研究團(tuán)隊(duì)表示,STAMINA在識(shí)別和分類惡意軟件樣本方面,STAMINA達(dá)到了99.07%的準(zhǔn)確性,誤報(bào)率為2.58%。
兩位代表Microsoft威脅防護(hù)情報(bào)小組參加研究的Microsoft研究人員Jugal Parikh和Marc Marino說:
這個(gè)結(jié)果令人振奮,有助于推動(dòng)業(yè)界將深度學(xué)習(xí)用于惡意軟件分類。
微軟開展機(jī)器學(xué)習(xí)的“先天優(yōu)勢”
該研究是Microsoft使用機(jī)器學(xué)習(xí)技術(shù)改進(jìn)惡意軟件檢測工作的一部分。
STAMINA使用了深度學(xué)習(xí)技術(shù),而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)(ML)的子集,機(jī)器學(xué)習(xí)(ML)是人工智能(AI)的一個(gè)分支,是指能夠從以非結(jié)構(gòu)化或未標(biāo)記格式存儲(chǔ)的輸入數(shù)據(jù)中自行學(xué)習(xí)的智能計(jì)算機(jī)網(wǎng)絡(luò)。在STAMINA的用例中,數(shù)據(jù)是隨機(jī)的惡意軟件二進(jìn)制文件。
微軟上周在一篇博客文章中表示,雖然STAMINA在處理較小文件時(shí)是準(zhǔn)確快速的,但處理大文件仍有問題:
對于更大尺寸的應(yīng)用程序,由于需要將數(shù)十億像素轉(zhuǎn)換為JPEG圖像并調(diào)整大小,STAMINA的效率降低了。
但是,這很可能無關(guān)緊要,因?yàn)樵擁?xiàng)目處理的主要是小型文件,效果很好。
微軟威脅防護(hù)安全研究主管Tanmay Ganacharya在本月初接受采訪時(shí)表示,微軟現(xiàn)在嚴(yán)重依賴機(jī)器學(xué)習(xí)來檢測新興威脅,STAMINA使用的機(jī)器學(xué)習(xí)模塊有別于已經(jīng)在客戶或者微軟服務(wù)器系統(tǒng)中部署的模塊。
Ganacharya透露,微軟正在使用客戶端機(jī)器學(xué)習(xí)模型引擎、云端機(jī)器學(xué)習(xí)模型引擎、機(jī)器學(xué)習(xí)模塊來捕獲行為序列或捕獲文件本身的內(nèi)容。
根據(jù)目前公布的測試結(jié)果,STAMINA可能很快就會(huì)成為微軟用來檢測分析惡意軟件的機(jī)器學(xué)習(xí)模塊之一。
微軟使用機(jī)器學(xué)習(xí)分析惡意軟件有一個(gè)得天獨(dú)厚的優(yōu)勢,那就是它擁有來自數(shù)億Windows Defender客戶端安全軟件的龐大數(shù)據(jù)。
Ganacharya說:
任何人都可以開發(fā)模型,但是標(biāo)記的數(shù)據(jù),數(shù)據(jù)的數(shù)量和質(zhì)量確實(shí)有助于正確地訓(xùn)練機(jī)器學(xué)習(xí)模型,從而決定了模型的有效性。
而且,這是微軟的優(yōu)勢,因?yàn)槲覀兇_實(shí)擁有大量“傳感器”,這些傳感器通過電子郵件、身份、端點(diǎn)以及各種應(yīng)用組合在一起,將大量有趣的情報(bào)輸送給我們。