為什么我們的反垃圾郵件會(huì)被攻擊?

我們會(huì)有自己的貓
在反垃圾郵件系統(tǒng)中,安全服務(wù)的角色由反垃圾郵件專家和服務(wù)機(jī)構(gòu)扮演,這些專家和服務(wù)機(jī)構(gòu)在電子郵件被隔離時(shí)處理大量電子郵件并創(chuàng)建新的檢測(cè)規(guī)則。

2345截圖20211028093243.png

我們經(jīng)常使用機(jī)器學(xué)習(xí)(ML)技術(shù)來(lái)提高網(wǎng)絡(luò)安全系統(tǒng)的質(zhì)量,但是機(jī)器學(xué)習(xí)模型可能容易受到旨在“愚弄”它們以提供錯(cuò)誤結(jié)果的攻擊。這可能會(huì)對(duì)我們的公司和客戶造成重大損害。因此,了解ML解決方案中的所有潛在漏洞以及如何防止攻擊者利用這些漏洞至關(guān)重要。

這篇文章是關(guān)于我們?nèi)绾喂粑覀冏约旱腄eepQuarantineML技術(shù)-它是反垃圾郵件系統(tǒng)的一部分,以及我們針對(duì)此類攻擊部署了哪些保護(hù)方法。但首先,讓我們仔細(xì)看看技術(shù)本身。

DeepQuarantine

DeepQuarantine是一種神經(jīng)網(wǎng)絡(luò)模型,用于檢測(cè)和隔離可疑電子郵件。它為反垃圾郵件系統(tǒng)爭(zhēng)取時(shí)間來(lái)更新我們的垃圾郵件過(guò)濾器并進(jìn)行重新掃描。DeepQuarantine流程類似于機(jī)場(chǎng)安全服務(wù)的工作,引起懷疑的乘客將被帶走進(jìn)行額外檢查。在安全部門檢查他們的行李和檢查他們的文件時(shí),乘客必須等待。如果經(jīng)過(guò)檢查后發(fā)現(xiàn)沒(méi)有問(wèn)題,則允許乘客通過(guò),否則將被拘留。在反垃圾郵件系統(tǒng)中,安全服務(wù)的角色由反垃圾郵件專家和服務(wù)機(jī)構(gòu)扮演,這些專家和服務(wù)機(jī)構(gòu)在電子郵件被隔離時(shí)處理大量電子郵件并創(chuàng)建新的檢測(cè)規(guī)則。如果header分析揭示了垃圾郵件的新跡象,則會(huì)根據(jù)結(jié)果創(chuàng)建檢測(cè)規(guī)則。同時(shí),在郵件被隔離的同時(shí)可能會(huì)處理其他電子郵件,從而產(chǎn)生新的檢測(cè)規(guī)則。電子郵件離開(kāi)隔離區(qū)后,將對(duì)其進(jìn)行重新掃描。如果這觸發(fā)了任何新規(guī)則,則消息將被阻止;如果沒(méi)有,則將其交付給收件人。請(qǐng)注意,隔離技術(shù)需要非常準(zhǔn)確,以免延誤合法的電子郵件——就像機(jī)場(chǎng)安檢無(wú)法對(duì)每一位乘客進(jìn)行全面檢查一樣,因?yàn)檫@會(huì)打亂出發(fā)時(shí)間表。如果這觸發(fā)了任何新規(guī)則,則消息將被阻止;如果沒(méi)有,則將其交付給收件人。請(qǐng)注意,隔離技術(shù)需要非常準(zhǔn)確,以免延誤合法的電子郵件——就像機(jī)場(chǎng)安檢無(wú)法對(duì)每一位乘客進(jìn)行全面檢查一樣,因?yàn)檫@會(huì)打亂出發(fā)時(shí)間表。

點(diǎn)擊此處閱讀有關(guān)DeepQuarantine工作原理的更多信息。要成功攻擊ML模型,必須知道兩件事:1)它用于決策的特征;2)它的訓(xùn)練數(shù)據(jù)是如何生成的。

為了識(shí)別可疑電子郵件,DeepQuarantine使用了一系列技術(shù)標(biāo)頭(例如,圖1中此特性的值為“主題:發(fā)件人:收件人:日期:Message-Id:內(nèi)容類型:X-Mailer”),加上Message-Id(唯一消息標(biāo)識(shí)符)和X-Mailer(郵件客戶端名稱)字段的內(nèi)容。選擇這些特性是因?yàn)樗鼈內(nèi)Q于所使用的郵件客戶端的類型,并且可能包含垃圾郵件發(fā)送者的蹤跡。

2345截圖20211028093243.png

圖1.電子郵件技術(shù)header

圖2說(shuō)明了算法的運(yùn)作方式。左邊是來(lái)自PayPal的真實(shí)信息,右邊則是假的。如果要發(fā)送電子郵件,Message-Id是必需的,其格式取決于郵件客戶端。如果我們將偽造的header與原始header進(jìn)行比較,最大的不同是該字段缺少域和隨機(jī)字符序列。

2345截圖20211028093243.png

圖2.真假PayPal電子郵件header的比較

詐騙者在模型處理的各種技術(shù)標(biāo)頭中留下的各種痕跡表明這是一項(xiàng)艱巨的任務(wù)。

現(xiàn)在讓我們看看生成訓(xùn)練數(shù)據(jù)的過(guò)程,這是對(duì)我們的模型實(shí)施攻擊的起點(diǎn)。

2345截圖20211028093243.png

圖3.訓(xùn)練樣本生成方案

用于訓(xùn)練模型的數(shù)據(jù)和標(biāo)簽是在反垃圾郵件系統(tǒng)的一般操作過(guò)程中自動(dòng)生成的。訓(xùn)練樣本生成方案如圖3所示。在掃描郵件后,如果客戶端同意數(shù)據(jù)處理,Anti-Spam會(huì)將其header和判定轉(zhuǎn)發(fā)到卡巴斯基安全網(wǎng)絡(luò)(KSN)。這些數(shù)據(jù)從KSN被發(fā)送到一個(gè)存儲(chǔ)庫(kù),在那里它被用來(lái)訓(xùn)練模型。郵件header用作分析樣本,反垃圾郵件引擎的判定用作標(biāo)簽。

對(duì)機(jī)器學(xué)習(xí)模型的攻擊

是什么使得攻擊機(jī)器學(xué)習(xí)模型成為可能?這主要是因?yàn)槭褂脵C(jī)器學(xué)習(xí)技術(shù),訓(xùn)練樣本中的數(shù)據(jù)分布有望與模型在現(xiàn)實(shí)世界中遇到的數(shù)據(jù)分布相匹配。違反此原則可能會(huì)導(dǎo)致算法出現(xiàn)意外行為。因此,對(duì)機(jī)器學(xué)習(xí)模型的攻擊可以分為兩種:

00001.對(duì)抗性輸入——生成輸入數(shù)據(jù),導(dǎo)致已經(jīng)訓(xùn)練和部署的模型給出錯(cuò)誤的判斷。

00002.數(shù)據(jù)中毒——影響訓(xùn)練樣本以產(chǎn)生有偏差的模型。

在第一種情況下,為了成功,對(duì)手通常需要直接與模型交互。DeepQuarantine只是反垃圾郵件系統(tǒng)的一個(gè)組成部分,因此排除了與其直接交互的可能性。第二種類型的攻擊對(duì)我們的模型來(lái)說(shuō)危險(xiǎn)得多。讓我們仔細(xì)看看。

數(shù)據(jù)中毒攻擊可以進(jìn)一步分為兩個(gè)子類型:

00001.模型傾斜——污染訓(xùn)練樣本以改變模型的決策邊界。這種攻擊的一個(gè)例子是針對(duì)Google的垃圾郵件分類器,其中高級(jí)垃圾郵件組試圖通過(guò)將大量垃圾郵件標(biāo)記為“非垃圾郵件”來(lái)污染訓(xùn)練樣本。目的是讓系統(tǒng)允許更多垃圾郵件通過(guò)。

00002.后門攻擊——將具有特定標(biāo)記的示例引入訓(xùn)練樣本以迫使模型做出錯(cuò)誤決策。例如,在屬于某個(gè)類別(比如狗)的圖片中嵌入一個(gè)灰色方塊,僅當(dāng)模型在看到這個(gè)方塊時(shí)才開(kāi)始識(shí)別狗,而這張照片可能根本不是狗。

有幾種方法可以降低數(shù)據(jù)中毒攻擊的風(fēng)險(xiǎn):

00001.確保來(lái)自少量來(lái)源(例如,來(lái)自一小群用戶或IP地址)的輸入數(shù)據(jù)不占訓(xùn)練樣本的大部分。這會(huì)迫使垃圾郵件發(fā)送者采取額外的措施來(lái)防止他們的操作被作為統(tǒng)計(jì)異常值而遭到拒絕,從而使垃圾郵件發(fā)送者更難實(shí)施此類攻擊。

00002.在發(fā)布模型的更新版本之前,使用一系列技術(shù)將其與最新的穩(wěn)定版本進(jìn)行比較,例如A/B測(cè)試(比較測(cè)試環(huán)境中各種變化的版本)、摸黑啟動(dòng)(為一小部分試點(diǎn)客戶運(yùn)行更新的服務(wù))或回溯測(cè)試(測(cè)試歷史數(shù)據(jù)的模型)。

00003.創(chuàng)建一個(gè)基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集的正確評(píng)估結(jié)果是已知的,您可以根據(jù)該數(shù)據(jù)集驗(yàn)證模型的準(zhǔn)確性。

對(duì)DeepQuarantine的攻擊

現(xiàn)在讓我們繼續(xù)攻擊DeepQuarantine。假設(shè)攻擊者的目標(biāo)是隔離其雇主的競(jìng)爭(zhēng)對(duì)手公司發(fā)送的所有電子郵件,這些電子郵件將嚴(yán)重影響其業(yè)務(wù)流程。我們調(diào)查攻擊者的步驟:

00001.找出公司使用的郵件客戶端以及公司發(fā)送電子郵件時(shí)生成的header類型。

00002.生成header與受攻擊公司類似的垃圾郵件。在郵件正文中添加一些明顯的垃圾郵件過(guò)濾觸發(fā)器,例如,顯式廣告或已知的網(wǎng)絡(luò)釣魚(yú)鏈接,這樣郵件幾乎不可避免地被標(biāo)記為垃圾郵件。

00003.將這些消息發(fā)送給我們的客戶端,以便反垃圾郵件系統(tǒng)阻止它們,并將相關(guān)統(tǒng)計(jì)信息輸入到訓(xùn)練和測(cè)試樣本中,如圖3所示。

如果在對(duì)中毒樣本進(jìn)行訓(xùn)練后,模型通過(guò)了測(cè)試,則被攻擊的模型將被釋放,并且來(lái)自受害公司的電子郵件開(kāi)始被隔離。接下來(lái),我們嘗試不同的數(shù)據(jù)中毒技術(shù)。

方法

首先,我們采集了干凈的訓(xùn)練和測(cè)試數(shù)據(jù)樣本,這些樣本由一組帶有相應(yīng)反垃圾郵件判斷的電子郵件header組成。在這兩個(gè)樣本中,我們都添加了模仿受攻擊公司中毒的header,并以不同的數(shù)量判定“垃圾郵件”:樣本大小的0.1%、1.5%和10%。對(duì)于每個(gè)實(shí)驗(yàn),訓(xùn)練樣本和測(cè)試樣本中中毒數(shù)據(jù)的比例相同。

在中毒訓(xùn)練樣本上訓(xùn)練模型后,我們使用測(cè)試樣本來(lái)檢查精度(正確的肯定結(jié)論在所有模型的肯定結(jié)論中的比例)和召回率(正確肯定結(jié)論在垃圾郵件標(biāo)題總數(shù)中的比例)樣本)指標(biāo),以及模型分配給受攻擊公司電子郵件的“垃圾郵件”判決的可信度。

實(shí)驗(yàn)1.模型傾斜

我們的第一個(gè)實(shí)驗(yàn)實(shí)施了一種模型傾斜方法,就像對(duì)谷歌反垃圾郵件模型的攻擊一樣。然而,與谷歌的例子不同,我們的目標(biāo)是模擬對(duì)特定公司的攻擊,這稍微復(fù)雜一些。在本例中,我們?cè)贛essage-Id字段中使用了所選公司的域(圖4),但I(xiàn)D本身是隨機(jī)生成的,僅保留該公司使用的郵件客戶端特定的長(zhǎng)度。我們沒(méi)有更改受攻擊公司郵件客戶端的header序列或X-mailer字段。

2345截圖20211028093243.png

圖4.中毒示例模板

我們分析了我們的目標(biāo)指標(biāo)(精度和召回率)如何根據(jù)中毒數(shù)據(jù)相對(duì)于訓(xùn)練樣本量的比例在測(cè)試數(shù)據(jù)集上發(fā)生變化。結(jié)果如圖5所示。如圖所示,相對(duì)于數(shù)據(jù)中沒(méi)有中毒示例,目標(biāo)指標(biāo)幾乎保持不變。這意味著可以發(fā)布在中毒樣本上訓(xùn)練的模型。

2345截圖20211028093243.png

圖5.取決于中毒數(shù)據(jù)量的目標(biāo)指標(biāo)

我們還使用來(lái)自我們選擇的公司的真實(shí)電子郵件的header,測(cè)試了數(shù)據(jù)中毒如何影響模型對(duì)消息應(yīng)該被隔離的置信度。

如圖5所示,當(dāng)中毒數(shù)據(jù)的份額超過(guò)5%時(shí),模型已經(jīng)強(qiáng)烈傾向于認(rèn)為應(yīng)該隔離受攻擊公司的電子郵件。因此,這種有偏見(jiàn)的模型可能會(huì)切斷該公司與我們客戶之間的通信,而這正是攻擊者試圖實(shí)現(xiàn)的目標(biāo)。

2345截圖20211028093243.png

2345截圖20211028093243.png

圖6.根據(jù)數(shù)據(jù)中毒的數(shù)量,模型對(duì)隔離受害公司電子郵件的需求的信心密度發(fā)生的變化

現(xiàn)在,基于那些導(dǎo)致模型做出錯(cuò)誤決策的對(duì)象,讓我們看看它在看什么。為此,我們使用Saliency via Occlusion方法構(gòu)建了一系列特征圖(見(jiàn)圖6),其中header某些部分的顯著性是通過(guò)交替隱藏這些部分并評(píng)估這是如何改變模型的置信度來(lái)建立的。圖片中的區(qū)域顏色越深,說(shuō)明神經(jīng)網(wǎng)絡(luò)在決策過(guò)程中就越關(guān)注這個(gè)區(qū)域。該圖還顯示了來(lái)自所選公司(Target)和其他公司(Other)的電子郵件被隔離的數(shù)量。

2345截圖20211028093243.png

圖7.特征圖

正如我們?cè)趫D中看到的,只要模型沒(méi)有足夠的中毒數(shù)據(jù)來(lái)對(duì)來(lái)自受攻擊公司的電子郵件返回誤報(bào),該模型就主要集中在Message-Id字段上。但是一旦中毒數(shù)據(jù)足以使模型產(chǎn)生偏差,它的注意力就會(huì)均勻地分布在Message-Id、X-mailer字段(圖中的MUA)和電子郵件中的標(biāo)題序列(標(biāo)題序列)之間。

請(qǐng)注意,盡管5%的中毒數(shù)據(jù)足以進(jìn)行成功攻擊,但從絕對(duì)值來(lái)看,這是相當(dāng)多的數(shù)據(jù)。例如,如果我們使用超過(guò)1億封電子郵件進(jìn)行訓(xùn)練,攻擊者將需要發(fā)送超過(guò)500萬(wàn)封電子郵件,而這些郵件很可能會(huì)被監(jiān)控系統(tǒng)接捕獲。

我們能否更有效地攻擊我們的模型?事實(shí)證明我們可以。

實(shí)驗(yàn)2.帶時(shí)間戳的后門攻擊

某些郵件用戶代理在Message-Id字段中指定時(shí)間戳。我們使用這個(gè)事實(shí)來(lái)創(chuàng)建帶有與模型發(fā)布日期相對(duì)應(yīng)的時(shí)間戳的中毒header。如果攻擊成功,該模型會(huì)將在發(fā)布當(dāng)天收到的來(lái)自受攻擊公司的電子郵件進(jìn)行隔離。圖8顯示了我們?nèi)绾紊芍卸緮?shù)據(jù)。

2345截圖20211028093243.png

圖8.數(shù)據(jù)后門

這種數(shù)據(jù)中毒是否會(huì)影響模型預(yù)發(fā)布測(cè)試中的目標(biāo)指標(biāo)?結(jié)果與模型傾斜攻擊相同(圖9)。

2345截圖20211028093243.png

圖9.取決于中毒數(shù)據(jù)量的目標(biāo)指標(biāo)

所需的數(shù)據(jù)中毒量是否會(huì)影響攻擊的效率?正如我們?cè)趫D10中看到的,在這種情況下,攻擊者只需要0.1%的中毒數(shù)據(jù)即可將模型轉(zhuǎn)變?yōu)閷⑹芎镜碾娮余]件標(biāo)記為可疑。

2345截圖20211028093243.png

2345截圖20211028093243.png

圖10.基于數(shù)據(jù)中毒量的模型對(duì)隔離受害公司電子郵件的信心密度的變化

讓我們?cè)俅慰匆幌绿卣鲌D,看看我們的模型在本例中關(guān)注了什么。圖11顯示,在中毒率為0.1%時(shí),模型側(cè)重于域起始區(qū)域、代理類型和header序列,神經(jīng)網(wǎng)絡(luò)主要集中在時(shí)間戳上。我們還注意到,當(dāng)模型只關(guān)注時(shí)間戳?xí)r,它會(huì)對(duì)來(lái)自其他公司的電子郵件(這些公司的Message-Id也以時(shí)間戳開(kāi)頭)發(fā)出更多誤報(bào)。隨著中毒級(jí)別的增加,模型變得專注于時(shí)間戳和域起始區(qū)域。同時(shí),它對(duì)X-mailer領(lǐng)域和header序列。

2345截圖20211028093243.png

圖11.特征圖

實(shí)驗(yàn)3.帶時(shí)間戳的后門攻擊-延遲攻擊

在之前的實(shí)驗(yàn)中,我們能夠顯著提高攻擊效率。但實(shí)際上,攻擊者不太可能知道模型的發(fā)布日期。在這個(gè)實(shí)驗(yàn)中,我們決定進(jìn)行延遲攻擊,看看這是否會(huì)影響測(cè)試結(jié)果。為此,我們生成了帶有時(shí)間戳的有毒header,時(shí)間戳從當(dāng)前的發(fā)布日期前移一年。

結(jié)果如圖12所示:樣本中毒在測(cè)試過(guò)程中沒(méi)有以任何方式反映出來(lái),這對(duì)我們來(lái)說(shuō)是最危險(xiǎn)的結(jié)果,因?yàn)檫@意味著攻擊幾乎不可能被監(jiān)測(cè)出來(lái)。鑒于后門將在未來(lái)不確定的時(shí)刻被激活,即使是摸黑啟動(dòng)和A/B測(cè)試也無(wú)助于識(shí)別攻擊。

2345截圖20211028093243.png

2345截圖20211028093243.png

圖12.模型對(duì)隔離受害公司電子郵件需求的信心依賴于數(shù)據(jù)中毒量

根據(jù)實(shí)驗(yàn)結(jié)果,我們得出以下結(jié)論:

00001.模型傾斜需要相當(dāng)多的中毒樣本

00002.攻擊的事實(shí)并沒(méi)有反映在準(zhǔn)確率和召回率上

00003.添加“后門”(在我們的例子中是時(shí)間戳)使攻擊更有效

00004.在延遲攻擊的情況下,摸黑啟動(dòng)和A/B測(cè)試可能無(wú)效

我們通過(guò)實(shí)驗(yàn)證明了對(duì)我們技術(shù)的成功攻擊。但這又引出了一個(gè)問(wèn)題:如何防御此類攻擊?

防止對(duì)ML模型的攻擊

在我們的實(shí)驗(yàn)背景下,讓我們仔細(xì)看看防范數(shù)據(jù)中毒攻擊的方法,我們?cè)?ldquo;對(duì)機(jī)器學(xué)習(xí)模型的攻擊”這一節(jié)中提到過(guò):訓(xùn)練數(shù)據(jù)的受控選擇;A/B測(cè)試、摸黑啟動(dòng)或反向測(cè)試等技術(shù);生成精心控制的基準(zhǔn)數(shù)據(jù)集。訓(xùn)練樣本的受控選擇確實(shí)使攻擊實(shí)現(xiàn)復(fù)雜化,因?yàn)楣粽弑仨氄业揭环N發(fā)送虛假數(shù)據(jù)的方法,因此很難分組和過(guò)濾。這在技術(shù)上可能很困難,但不幸的是,并非不可能。例如,為了防止中毒電子郵件按IP地址分組,攻擊者可以使用僵尸網(wǎng)絡(luò)。

當(dāng)涉及到創(chuàng)建一個(gè)額外的基準(zhǔn)數(shù)據(jù)集時(shí),如果數(shù)據(jù)分布隨時(shí)間發(fā)生變化,問(wèn)題就出現(xiàn)了——該數(shù)據(jù)集將保持當(dāng)前狀態(tài)多長(zhǎng)時(shí)間。

將更新的模型與最新的穩(wěn)定工作版本進(jìn)行比較似乎是一個(gè)更好的解決方案,因?yàn)檫@使我們能夠監(jiān)控模型的變化。但是如何將它們相互比較呢?

讓我們考慮兩個(gè)選項(xiàng):比較當(dāng)前測(cè)試數(shù)據(jù)集上的模型版本(選項(xiàng)1),并比較每個(gè)版本發(fā)布時(shí)的當(dāng)前測(cè)試數(shù)據(jù)集上的模型版本(選項(xiàng)2)。下表顯示了我們?yōu)檫@兩個(gè)選項(xiàng)運(yùn)行的測(cè)試序列。

2345截圖20211028093243.png

在模型對(duì)比的第二階段,我們進(jìn)行了一系列的統(tǒng)計(jì)檢驗(yàn):首先,我們比較了模型的目標(biāo)指標(biāo)。在這個(gè)階段,我們看到在不同程度的數(shù)據(jù)污染的樣本上訓(xùn)練的原始版本和更新后的版本之間沒(méi)有顯著差異。我們?cè)趯?shí)驗(yàn)攻擊中獲得了類似的結(jié)果。

·對(duì)配對(duì)和獨(dú)立樣本的學(xué)生t檢驗(yàn)

·配對(duì)樣本的Wilcoxon符號(hào)秩檢驗(yàn)

·對(duì)獨(dú)立樣本進(jìn)行Mann-Whitney U檢驗(yàn)

·樣品均勻性的Kolmogorov-Smirnov檢驗(yàn)

實(shí)驗(yàn)揭示了一些奇怪的事情:結(jié)果證明,即使在比較兩個(gè)在干凈樣本上訓(xùn)練的模型時(shí),標(biāo)準(zhǔn)也會(huì)產(chǎn)生顯著差異,盡管這些模型的預(yù)測(cè)分布彼此差異不大。發(fā)生這種情況的原因是,有了大量的數(shù)據(jù),測(cè)試對(duì)分布形狀的最細(xì)微變化過(guò)于敏感。但是當(dāng)我們減少統(tǒng)計(jì)測(cè)試中的數(shù)據(jù)量時(shí),我們經(jīng)常發(fā)現(xiàn)根本沒(méi)有顯著差異,因?yàn)楣裟繕?biāo)的消息甚至可能不會(huì)最終出現(xiàn)在所采集的樣本中。對(duì)這個(gè)結(jié)果不滿意,我們制定了自己的標(biāo)準(zhǔn)。

我們基于這樣的一個(gè)事實(shí),即在干凈樣本上訓(xùn)練的模型在相應(yīng)測(cè)試數(shù)據(jù)集產(chǎn)生的分布形狀方面幾乎沒(méi)有區(qū)別。而在對(duì)中毒樣本進(jìn)行訓(xùn)練的模型的預(yù)測(cè)分布中,“駝峰”可能出現(xiàn)在分布的右端。圖13顯示了一個(gè)大的“駝峰”以供說(shuō)明。但實(shí)際上,它幾乎不會(huì)引起注意,因?yàn)閬?lái)自受攻擊公司的電子郵件量可能只占總消息流的一小部分。

2345截圖20211028093243.png

圖13.合法電子郵件上模型預(yù)測(cè)的模型分布

在分析過(guò)程中,我們得出了Wasserstein指標(biāo)。實(shí)際上,該指標(biāo)用作分布之間距離的度量。我們的標(biāo)準(zhǔn)如下:

H0:訓(xùn)練前后對(duì)非垃圾郵件樣本的預(yù)測(cè)分布沒(méi)有顯示出統(tǒng)計(jì)上的顯著變化,即系統(tǒng)保持不變。

H1:分布的變化在統(tǒng)計(jì)上是顯著的,也就是說(shuō),系統(tǒng)發(fā)生了變化。

我們使用Wasserstein度量來(lái)評(píng)估合法電子郵件樣本中新舊模型預(yù)測(cè)分布之間的變化。為了評(píng)估預(yù)測(cè)分布變化的統(tǒng)計(jì)顯著性,我們需要在正確的零假設(shè)下找出這些變化的分布,即沒(méi)有發(fā)生顯著變化的模型版本。我們使用引導(dǎo)獲得了這個(gè)分布—在干凈數(shù)據(jù)上訓(xùn)練的模型的抽樣預(yù)測(cè),但在不同的時(shí)間段。通過(guò)這種方式,我們重構(gòu)了實(shí)際的真實(shí)世界情況。之后,我們進(jìn)行了一系列的統(tǒng)計(jì)測(cè)試,比較了原始模型和在不同比例中毒數(shù)據(jù)樣本上訓(xùn)練的模型的預(yù)測(cè)分布。Wasserstein標(biāo)準(zhǔn)沒(méi)有顯示正常模型或在延遲攻擊數(shù)據(jù)上訓(xùn)練的模型的顯著差異。這是意料之中的,因?yàn)槲覀円呀?jīng)看到延遲攻擊在測(cè)試中沒(méi)有以任何方式表現(xiàn)出來(lái)。然而,在其他情況下,我們發(fā)現(xiàn)了顯著差異。這意味著Wasserstein標(biāo)準(zhǔn)允許我們及時(shí)檢測(cè)大多數(shù)此類攻擊。

對(duì)于延遲攻擊,以及在數(shù)據(jù)中引入后門標(biāo)簽的一般可能性,需要對(duì)潛在后門進(jìn)行詳細(xì)的數(shù)據(jù)審計(jì)。正如測(cè)試機(jī)器學(xué)習(xí)模型對(duì)此類攻擊的抵抗力一樣。

要點(diǎn)

越來(lái)越多的機(jī)器學(xué)習(xí)方法被引入到各種服務(wù)中。這提高了性能指標(biāo)并改善了用戶的生活。然而,它也使新的攻擊場(chǎng)景成為可能。我們的實(shí)驗(yàn)表明:

00001.數(shù)據(jù)中毒攻擊會(huì)對(duì)機(jī)器學(xué)習(xí)模型造成重大損害。

00002.攻擊者不需要是數(shù)據(jù)科學(xué)家。

00003.時(shí)間戳可以很容易地用作攻擊機(jī)器學(xué)習(xí)模型的后門。

00004.標(biāo)準(zhǔn)質(zhì)量指標(biāo)不反映數(shù)據(jù)中毒攻擊的事實(shí)。

00005.為了降低成功攻擊模型的可能性,必須控制訓(xùn)練和采樣過(guò)程。

00006.在披露模型訓(xùn)練和架構(gòu)的細(xì)節(jié)時(shí)必須格外小心,以免攻擊者利用它們。

00007.在發(fā)布模型之前,應(yīng)徹底測(cè)試所使用的標(biāo)準(zhǔn),以確定模型的準(zhǔn)備情況以及它們是否可以檢測(cè)到潛在的攻擊。如果標(biāo)準(zhǔn)不足以確定模型是否受到攻擊,那么就有必要開(kāi)發(fā)自己的模型。

本文翻譯自:https://securelist.com/attack-on-anti-spam-machine-learning-model-deepquarantine/105358/

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論