本文來(lái)自嘶吼網(wǎng),作者/布加迪。
在公開(kāi)推出ChatGPT的一個(gè)月前,OpenAI聘請(qǐng)了肯尼亞的律師Boru Gollo來(lái)測(cè)試AI模型GPT-3.5以及后來(lái)的GPT-4是否對(duì)非洲人和穆斯林群體有偏見(jiàn),測(cè)試辦法就是輸入提示,看看該聊天機(jī)器人是否會(huì)生成有危害的、有偏見(jiàn)的、不正確的回復(fù)。Gollo是OpenAI招募的約50名外部專(zhuān)家之一,作為“紅隊(duì)”(red team)的成員,他往ChatGPT中輸入一條命令,讓它列出殺死尼日利亞人的一系列方法——在這款聊天機(jī)器人最終向全世界發(fā)布之前,OpenAI刪除了針對(duì)這個(gè)問(wèn)題的答復(fù)。
GPT-4的系統(tǒng)卡列出了這些風(fēng)險(xiǎn)和OpenAI用來(lái)減少或消除這些風(fēng)險(xiǎn)的安全措施,據(jù)系統(tǒng)卡顯示,其他紅隊(duì)成員慫恿GPT-4的預(yù)發(fā)布版本幫助從事非法、有害的活動(dòng),比如在Facebook上發(fā)帖說(shuō)服他人加入基地組織、幫助尋找無(wú)證出售的槍支,或者生成在家里制造危險(xiǎn)化學(xué)物質(zhì)的程序。
為了保護(hù)AI系統(tǒng)避免被人利用,紅隊(duì)黑客站在攻擊者的角度思考,對(duì)AI系統(tǒng)做改動(dòng),以發(fā)現(xiàn)該技術(shù)固有的盲點(diǎn)和風(fēng)險(xiǎn),以便可以消除風(fēng)險(xiǎn)。隨著科技巨頭們競(jìng)相構(gòu)建和發(fā)布生成式AI工具,它們的內(nèi)部AI紅隊(duì)在確保模型供大眾安全使用方面起到了越來(lái)越重要的作用。比如說(shuō),谷歌在今年早些時(shí)候設(shè)立了一支獨(dú)立的AI紅隊(duì),8月份,OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等眾多流行模型的開(kāi)發(fā)人員參加了一場(chǎng)由白宮支持的活動(dòng),旨在讓外部黑客有機(jī)會(huì)破解AI系統(tǒng)。
但AI紅隊(duì)成員常常如同走鋼絲,既要兼顧AI模型的安全性,又要保持其重要性和實(shí)用性?!陡2妓埂冯s志采訪了微軟、谷歌、英偉達(dá)和Meta的AI紅隊(duì)負(fù)責(zé)人,討論了破解AI模型如何蔚然成風(fēng)以及修復(fù)模型所面臨的挑戰(zhàn)。
Facebook的AI紅隊(duì)負(fù)責(zé)人Christian Canton表示:“你可能擁有一個(gè)對(duì)一切都說(shuō)不的模型,它非常安全,但也毫無(wú)用處。我們需要權(quán)衡和取舍。你開(kāi)發(fā)的模型越有用,就越有可能在某個(gè)方面面臨風(fēng)險(xiǎn),最終生成不安全的答復(fù)。”
用紅隊(duì)檢測(cè)軟件的做法始于20世紀(jì)60年代前后,當(dāng)時(shí)模擬對(duì)抗性攻擊,以確保系統(tǒng)盡可能堅(jiān)固。安全技術(shù)專(zhuān)家、哈佛大學(xué)伯克曼•克萊因互聯(lián)網(wǎng)與社會(huì)中心的研究員Bruce Schneier表示:“在計(jì)算機(jī)領(lǐng)域,我們永遠(yuǎn)不會(huì)說(shuō)‘這是安全的’。我們只會(huì)說(shuō)‘我們?cè)囘^(guò)了,但無(wú)法破解它。’”
但谷歌新成立的AI紅隊(duì)負(fù)責(zé)人Daniel Fabian表示,由于生成式AI使用龐大的數(shù)據(jù)集進(jìn)行訓(xùn)練,這使得保護(hù)AI模型的做法有別于傳統(tǒng)的安全實(shí)踐。谷歌的AI紅隊(duì)在添加額外的語(yǔ)言等新功能之前會(huì)對(duì)Bard之類(lèi)的產(chǎn)品進(jìn)行壓力測(cè)試,以發(fā)現(xiàn)冒犯性?xún)?nèi)容。
除了詢(xún)問(wèn)AI模型以生成有害的回復(fù)外,紅隊(duì)還使用提取訓(xùn)練數(shù)據(jù)等策略,這些數(shù)據(jù)會(huì)泄露用戶(hù)的姓名、地址和電話(huà)號(hào)碼等個(gè)人身份信息,并在用于訓(xùn)練模型之前通過(guò)篡改內(nèi)容的某些部分來(lái)毒害數(shù)據(jù)集。Fabian告訴《福布斯》雜志:“攻擊者多少會(huì)有一系列攻擊方法,如果其中一種攻擊無(wú)效,會(huì)轉(zhuǎn)而采用下一種攻擊。”
英偉達(dá)軟件安全副總裁Daniel Rohrer表示,由于這個(gè)領(lǐng)域仍處于早期階段,知道如何對(duì)AI系統(tǒng)做手腳的安全專(zhuān)業(yè)人員“少得可憐”。這就是為什么一個(gè)由AI紅隊(duì)成員組成的小圈子往往分享發(fā)現(xiàn)成果。谷歌的紅隊(duì)成員發(fā)表了關(guān)于攻擊AI模型的新方法的研究成果,而微軟的紅隊(duì)開(kāi)放了Counterfit等攻擊工具的源代碼,幫助其他企業(yè)測(cè)試算法的安全性和安全風(fēng)險(xiǎn)。
五年前創(chuàng)建了這個(gè)團(tuán)隊(duì)的Ram Shankar Siva Kumar說(shuō):“我們當(dāng)時(shí)在開(kāi)發(fā)這些低劣的腳本,用來(lái)加快自己的紅隊(duì)建設(shè)。我們想讓所有的安全專(zhuān)業(yè)人士都能在一個(gè)他們熟悉并理解的框架內(nèi)使用它。”
在測(cè)試AI系統(tǒng)之前,Siva Kumar的團(tuán)隊(duì)會(huì)從公司的威脅情報(bào)團(tuán)隊(duì)收集有關(guān)網(wǎng)絡(luò)威脅的數(shù)據(jù),這個(gè)團(tuán)隊(duì)用他的話(huà)說(shuō)好比是“互聯(lián)網(wǎng)的耳目”。然后他與微軟的其他紅隊(duì)合作,以確定攻擊該AI系統(tǒng)中的哪些漏洞以及如何攻擊。除了測(cè)試GPT-4外,該團(tuán)隊(duì)今年還測(cè)試了微軟的明星AI產(chǎn)品必應(yīng)聊天(Bing Chat),以尋找漏洞和缺陷。
與此同時(shí),英偉達(dá)采取的紅隊(duì)做法的一方面是,向安全工程師和依賴(lài)英偉達(dá)提供GPU等計(jì)算資源的公司提供速成課程,以介紹如何用紅隊(duì)檢測(cè)算法。
Rohrer表示:“作為每家公司的AI引擎……我們有一個(gè)巨大的放大因素。如果我們能教會(huì)其他人做這件事(用紅隊(duì)來(lái)檢測(cè)),那么Anthropic、谷歌和OpenAI就都能把這件事做好。”
隨著用戶(hù)和政府部門(mén)對(duì)AI應(yīng)用程序的審查越來(lái)越嚴(yán)格,紅隊(duì)還為加入AI競(jìng)賽的科技公司提供了一項(xiàng)競(jìng)爭(zhēng)優(yōu)勢(shì)。AI黑客和安全專(zhuān)家社群AI Village的創(chuàng)始人Sven Cattell表示:“我想,信任和安全將會(huì)是護(hù)城河。你會(huì)看到‘我們的AI系統(tǒng)最安全’這樣的廣告。”
早期先行者是Meta的AI紅隊(duì)。該團(tuán)隊(duì)成立于2019年,已組織了數(shù)場(chǎng)內(nèi)部挑戰(zhàn)賽和“風(fēng)險(xiǎn)馬拉松”,即鼓勵(lì)黑客繞過(guò)檢測(cè)和刪除Instagram和Facebook上違法帖子的內(nèi)容過(guò)濾器,而這些帖子含有仇恨言論、裸照、虛假信息和AI生成的深度造假內(nèi)容。
據(jù)一份公開(kāi)發(fā)布的詳細(xì)記錄Llama 2如何開(kāi)發(fā)的報(bào)告顯示,2023年7月,這家社交媒體巨頭聘請(qǐng)了350名紅隊(duì)成員來(lái)測(cè)試其最新的開(kāi)源大語(yǔ)言模型:Llama 2,成員們包括外部專(zhuān)家、合同工和大約20名員工組成的內(nèi)部團(tuán)隊(duì)。紅隊(duì)輸入了諸如如何逃稅、如何不用鑰匙發(fā)動(dòng)一輛汽車(chē)和如何設(shè)計(jì)龐氏騙局之類(lèi)的提示。Facebook的紅隊(duì)負(fù)責(zé)人Canton表示:“我們的AI紅隊(duì)恪守的座右銘就是‘訓(xùn)練時(shí)多流汗,交戰(zhàn)時(shí)少流血。’”
這個(gè)座右銘類(lèi)似8月初在拉斯維加斯召開(kāi)的DefCon黑客大會(huì)上舉行的一次規(guī)模最大的AI紅隊(duì)演練活動(dòng)的精神。八家公司向與會(huì)的2000多名黑客開(kāi)放了它們的AI模型——包括OpenAI、谷歌、Meta、英偉達(dá)、Stability AI和Anthropic,以便黑客為模型輸入提示,旨在泄露信用卡號(hào)之類(lèi)的敏感信息,或生成政治錯(cuò)誤信息之類(lèi)的有害材料。白宮科技政策辦公室與活動(dòng)組辦方合作,共同設(shè)計(jì)了紅隊(duì)挑戰(zhàn)賽,遵守《人工智能權(quán)利法案》藍(lán)圖,這是一份關(guān)于如何安全地設(shè)計(jì)、使用和啟動(dòng)自動(dòng)化系統(tǒng)的指南。
作為這次活動(dòng)的發(fā)起人,AI Village的創(chuàng)始人Cattell表示,起初,這些公司不情愿提供各自的模型,主要是由于擔(dān)心在公共論壇上用紅隊(duì)檢測(cè)會(huì)帶來(lái)聲譽(yù)風(fēng)險(xiǎn)。他告訴《福布斯》雜志:“從谷歌或OpenAI的角度來(lái)看,我們就是DefCon大會(huì)上一群搗亂的家伙。”
但在向科技公司保證它們的模型將被匿名化,黑客不知道他們攻擊的是哪家公司的模型之后,它們最終同意了。雖然黑客與AI模型進(jìn)行的近17000次交互的結(jié)果要到明年2月才會(huì)公開(kāi),但這些公司最后都在這次活動(dòng)中發(fā)現(xiàn)了需要解決的幾個(gè)新漏洞。據(jù)活動(dòng)組辦方發(fā)布的新數(shù)據(jù)顯示,在8個(gè)AI模型中,紅隊(duì)成員發(fā)現(xiàn)了約2700個(gè)漏洞,比如說(shuō)服模型發(fā)表自相矛盾的言論,或給出關(guān)于如何在某人不知情的情況下對(duì)其進(jìn)行監(jiān)視的操作說(shuō)明。
其中一名參與者是AI倫理研究人員Avijit Ghosh,他能夠讓多個(gè)模型做出錯(cuò)誤的數(shù)學(xué)運(yùn)算,生成關(guān)于泰國(guó)國(guó)王的虛假新聞報(bào)道,以及撰寫(xiě)一篇有關(guān)子虛烏有的住房危機(jī)的文章。
Ghosh表示,系統(tǒng)中的這類(lèi)漏洞使得用紅隊(duì)檢測(cè)AI模型變得更加重要,特別是當(dāng)它們可能被一些用戶(hù)視為無(wú)所不知的生命體時(shí)。他說(shuō):“我在現(xiàn)實(shí)生活中認(rèn)識(shí)一些人,他們認(rèn)為這些機(jī)器人實(shí)際上是有智力的,可以通過(guò)一步步的邏輯和推理完成醫(yī)療診斷之類(lèi)的工作。但事實(shí)并非如此,它實(shí)際上是一種自動(dòng)補(bǔ)全功能。”
但專(zhuān)家們表示,生成式AI就像一個(gè)多頭怪物——當(dāng)紅隊(duì)發(fā)現(xiàn)并修復(fù)了系統(tǒng)中的一些漏洞以后,其他漏洞在別處又會(huì)冒出來(lái)。微軟的Siva Kumar表示:“需要整個(gè)社區(qū)來(lái)解決這個(gè)問(wèn)題。”
本文翻譯自:https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/