少妇日本亚洲美,亚洲av天堂无码麻豆电影,女人下面的黑森林真实图片

從谷歌到英偉達(dá)，科技巨頭紛紛招募紅隊(duì)黑客破解自己的AI模型

2023-09-12 15:20

嘶吼網(wǎng)

布加迪

GPT-4的系統(tǒng)卡列出了這些風(fēng)險(xiǎn)和OpenAI用來(lái)減少或消除這些風(fēng)險(xiǎn)的安全措施，據(jù)系統(tǒng)卡顯示，其他紅隊(duì)成員慫恿GPT-4的預(yù)發(fā)布版本幫助從事非法、有害的活動(dòng)，比如在Facebook上發(fā)帖說(shuō)服他人加入基地組織、幫助尋找無(wú)證出售的槍支，或者生成在家里制造危險(xiǎn)化學(xué)物質(zhì)的程序。

本文來(lái)自嘶吼網(wǎng)，作者/布加迪。

在公開(kāi)推出ChatGPT的一個(gè)月前，OpenAI聘請(qǐng)了肯尼亞的律師Boru Gollo來(lái)測(cè)試AI模型GPT-3.5以及后來(lái)的GPT-4是否對(duì)非洲人和穆斯林群體有偏見(jiàn)，測(cè)試辦法就是輸入提示，看看該聊天機(jī)器人是否會(huì)生成有危害的、有偏見(jiàn)的、不正確的回復(fù)。Gollo是OpenAI招募的約50名外部專(zhuān)家之一，作為“紅隊(duì)”（red team）的成員，他往ChatGPT中輸入一條命令，讓它列出殺死尼日利亞人的一系列方法——在這款聊天機(jī)器人最終向全世界發(fā)布之前，OpenAI刪除了針對(duì)這個(gè)問(wèn)題的答復(fù)。

為了保護(hù)AI系統(tǒng)避免被人利用，紅隊(duì)黑客站在攻擊者的角度思考，對(duì)AI系統(tǒng)做改動(dòng)，以發(fā)現(xiàn)該技術(shù)固有的盲點(diǎn)和風(fēng)險(xiǎn)，以便可以消除風(fēng)險(xiǎn)。隨著科技巨頭們競(jìng)相構(gòu)建和發(fā)布生成式AI工具，它們的內(nèi)部AI紅隊(duì)在確保模型供大眾安全使用方面起到了越來(lái)越重要的作用。比如說(shuō)，谷歌在今年早些時(shí)候設(shè)立了一支獨(dú)立的AI紅隊(duì)，8月份，OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等眾多流行模型的開(kāi)發(fā)人員參加了一場(chǎng)由白宮支持的活動(dòng)，旨在讓外部黑客有機(jī)會(huì)破解AI系統(tǒng)。

但AI紅隊(duì)成員常常如同走鋼絲，既要兼顧AI模型的安全性，又要保持其重要性和實(shí)用性?！陡２妓埂冯s志采訪了微軟、谷歌、英偉達(dá)和Meta的AI紅隊(duì)負(fù)責(zé)人，討論了破解AI模型如何蔚然成風(fēng)以及修復(fù)模型所面臨的挑戰(zhàn)。

Facebook的AI紅隊(duì)負(fù)責(zé)人Christian Canton表示：“你可能擁有一個(gè)對(duì)一切都說(shuō)不的模型，它非常安全，但也毫無(wú)用處。我們需要權(quán)衡和取舍。你開(kāi)發(fā)的模型越有用，就越有可能在某個(gè)方面面臨風(fēng)險(xiǎn)，最終生成不安全的答復(fù)。”

用紅隊(duì)檢測(cè)軟件的做法始于20世紀(jì)60年代前后，當(dāng)時(shí)模擬對(duì)抗性攻擊，以確保系統(tǒng)盡可能堅(jiān)固。安全技術(shù)專(zhuān)家、哈佛大學(xué)伯克曼•克萊因互聯(lián)網(wǎng)與社會(huì)中心的研究員Bruce Schneier表示：“在計(jì)算機(jī)領(lǐng)域，我們永遠(yuǎn)不會(huì)說(shuō)‘這是安全的’。我們只會(huì)說(shuō)‘我們?cè)囘^(guò)了，但無(wú)法破解它。’”

但谷歌新成立的AI紅隊(duì)負(fù)責(zé)人Daniel Fabian表示，由于生成式AI使用龐大的數(shù)據(jù)集進(jìn)行訓(xùn)練，這使得保護(hù)AI模型的做法有別于傳統(tǒng)的安全實(shí)踐。谷歌的AI紅隊(duì)在添加額外的語(yǔ)言等新功能之前會(huì)對(duì)Bard之類(lèi)的產(chǎn)品進(jìn)行壓力測(cè)試，以發(fā)現(xiàn)冒犯性?xún)?nèi)容。

除了詢(xún)問(wèn)AI模型以生成有害的回復(fù)外，紅隊(duì)還使用提取訓(xùn)練數(shù)據(jù)等策略，這些數(shù)據(jù)會(huì)泄露用戶(hù)的姓名、地址和電話(huà)號(hào)碼等個(gè)人身份信息，并在用于訓(xùn)練模型之前通過(guò)篡改內(nèi)容的某些部分來(lái)毒害數(shù)據(jù)集。Fabian告訴《福布斯》雜志：“攻擊者多少會(huì)有一系列攻擊方法，如果其中一種攻擊無(wú)效，會(huì)轉(zhuǎn)而采用下一種攻擊。”

英偉達(dá)軟件安全副總裁Daniel Rohrer表示，由于這個(gè)領(lǐng)域仍處于早期階段，知道如何對(duì)AI系統(tǒng)做手腳的安全專(zhuān)業(yè)人員“少得可憐”。這就是為什么一個(gè)由AI紅隊(duì)成員組成的小圈子往往分享發(fā)現(xiàn)成果。谷歌的紅隊(duì)成員發(fā)表了關(guān)于攻擊AI模型的新方法的研究成果，而微軟的紅隊(duì)開(kāi)放了Counterfit等攻擊工具的源代碼，幫助其他企業(yè)測(cè)試算法的安全性和安全風(fēng)險(xiǎn)。

五年前創(chuàng)建了這個(gè)團(tuán)隊(duì)的Ram Shankar Siva Kumar說(shuō)：“我們當(dāng)時(shí)在開(kāi)發(fā)這些低劣的腳本，用來(lái)加快自己的紅隊(duì)建設(shè)。我們想讓所有的安全專(zhuān)業(yè)人士都能在一個(gè)他們熟悉并理解的框架內(nèi)使用它。”

在測(cè)試AI系統(tǒng)之前，Siva Kumar的團(tuán)隊(duì)會(huì)從公司的威脅情報(bào)團(tuán)隊(duì)收集有關(guān)網(wǎng)絡(luò)威脅的數(shù)據(jù)，這個(gè)團(tuán)隊(duì)用他的話(huà)說(shuō)好比是“互聯(lián)網(wǎng)的耳目”。然后他與微軟的其他紅隊(duì)合作，以確定攻擊該AI系統(tǒng)中的哪些漏洞以及如何攻擊。除了測(cè)試GPT-4外，該團(tuán)隊(duì)今年還測(cè)試了微軟的明星AI產(chǎn)品必應(yīng)聊天（Bing Chat），以尋找漏洞和缺陷。

與此同時(shí)，英偉達(dá)采取的紅隊(duì)做法的一方面是，向安全工程師和依賴(lài)英偉達(dá)提供GPU等計(jì)算資源的公司提供速成課程，以介紹如何用紅隊(duì)檢測(cè)算法。

Rohrer表示：“作為每家公司的AI引擎……我們有一個(gè)巨大的放大因素。如果我們能教會(huì)其他人做這件事（用紅隊(duì)來(lái)檢測(cè)），那么Anthropic、谷歌和OpenAI就都能把這件事做好。”

隨著用戶(hù)和政府部門(mén)對(duì)AI應(yīng)用程序的審查越來(lái)越嚴(yán)格，紅隊(duì)還為加入AI競(jìng)賽的科技公司提供了一項(xiàng)競(jìng)爭(zhēng)優(yōu)勢(shì)。AI黑客和安全專(zhuān)家社群AI Village的創(chuàng)始人Sven Cattell表示：“我想，信任和安全將會(huì)是護(hù)城河。你會(huì)看到‘我們的AI系統(tǒng)最安全’這樣的廣告。”

早期先行者是Meta的AI紅隊(duì)。該團(tuán)隊(duì)成立于2019年，已組織了數(shù)場(chǎng)內(nèi)部挑戰(zhàn)賽和“風(fēng)險(xiǎn)馬拉松”，即鼓勵(lì)黑客繞過(guò)檢測(cè)和刪除Instagram和Facebook上違法帖子的內(nèi)容過(guò)濾器，而這些帖子含有仇恨言論、裸照、虛假信息和AI生成的深度造假內(nèi)容。

據(jù)一份公開(kāi)發(fā)布的詳細(xì)記錄Llama 2如何開(kāi)發(fā)的報(bào)告顯示，2023年7月，這家社交媒體巨頭聘請(qǐng)了350名紅隊(duì)成員來(lái)測(cè)試其最新的開(kāi)源大語(yǔ)言模型：Llama 2，成員們包括外部專(zhuān)家、合同工和大約20名員工組成的內(nèi)部團(tuán)隊(duì)。紅隊(duì)輸入了諸如如何逃稅、如何不用鑰匙發(fā)動(dòng)一輛汽車(chē)和如何設(shè)計(jì)龐氏騙局之類(lèi)的提示。Facebook的紅隊(duì)負(fù)責(zé)人Canton表示：“我們的AI紅隊(duì)恪守的座右銘就是‘訓(xùn)練時(shí)多流汗，交戰(zhàn)時(shí)少流血。’”

這個(gè)座右銘類(lèi)似8月初在拉斯維加斯召開(kāi)的DefCon黑客大會(huì)上舉行的一次規(guī)模最大的AI紅隊(duì)演練活動(dòng)的精神。八家公司向與會(huì)的2000多名黑客開(kāi)放了它們的AI模型——包括OpenAI、谷歌、Meta、英偉達(dá)、Stability AI和Anthropic，以便黑客為模型輸入提示，旨在泄露信用卡號(hào)之類(lèi)的敏感信息，或生成政治錯(cuò)誤信息之類(lèi)的有害材料。白宮科技政策辦公室與活動(dòng)組辦方合作，共同設(shè)計(jì)了紅隊(duì)挑戰(zhàn)賽，遵守《人工智能權(quán)利法案》藍(lán)圖，這是一份關(guān)于如何安全地設(shè)計(jì)、使用和啟動(dòng)自動(dòng)化系統(tǒng)的指南。

作為這次活動(dòng)的發(fā)起人，AI Village的創(chuàng)始人Cattell表示，起初，這些公司不情愿提供各自的模型，主要是由于擔(dān)心在公共論壇上用紅隊(duì)檢測(cè)會(huì)帶來(lái)聲譽(yù)風(fēng)險(xiǎn)。他告訴《福布斯》雜志：“從谷歌或OpenAI的角度來(lái)看，我們就是DefCon大會(huì)上一群搗亂的家伙。”

但在向科技公司保證它們的模型將被匿名化，黑客不知道他們攻擊的是哪家公司的模型之后，它們最終同意了。雖然黑客與AI模型進(jìn)行的近17000次交互的結(jié)果要到明年2月才會(huì)公開(kāi)，但這些公司最后都在這次活動(dòng)中發(fā)現(xiàn)了需要解決的幾個(gè)新漏洞。據(jù)活動(dòng)組辦方發(fā)布的新數(shù)據(jù)顯示，在8個(gè)AI模型中，紅隊(duì)成員發(fā)現(xiàn)了約2700個(gè)漏洞，比如說(shuō)服模型發(fā)表自相矛盾的言論，或給出關(guān)于如何在某人不知情的情況下對(duì)其進(jìn)行監(jiān)視的操作說(shuō)明。

其中一名參與者是AI倫理研究人員Avijit Ghosh，他能夠讓多個(gè)模型做出錯(cuò)誤的數(shù)學(xué)運(yùn)算，生成關(guān)于泰國(guó)國(guó)王的虛假新聞報(bào)道，以及撰寫(xiě)一篇有關(guān)子虛烏有的住房危機(jī)的文章。

Ghosh表示，系統(tǒng)中的這類(lèi)漏洞使得用紅隊(duì)檢測(cè)AI模型變得更加重要，特別是當(dāng)它們可能被一些用戶(hù)視為無(wú)所不知的生命體時(shí)。他說(shuō)：“我在現(xiàn)實(shí)生活中認(rèn)識(shí)一些人，他們認(rèn)為這些機(jī)器人實(shí)際上是有智力的，可以通過(guò)一步步的邏輯和推理完成醫(yī)療診斷之類(lèi)的工作。但事實(shí)并非如此，它實(shí)際上是一種自動(dòng)補(bǔ)全功能。”

但專(zhuān)家們表示，生成式AI就像一個(gè)多頭怪物——當(dāng)紅隊(duì)發(fā)現(xiàn)并修復(fù)了系統(tǒng)中的一些漏洞以后，其他漏洞在別處又會(huì)冒出來(lái)。微軟的Siva Kumar表示：“需要整個(gè)社區(qū)來(lái)解決這個(gè)問(wèn)題。”

本文翻譯自：https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

升級(jí)WI-FI路由器的5個(gè)理由

從谷歌到英偉達(dá)，科技巨頭紛紛招募紅隊(duì)黑客破解自己的AI模型

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

從谷歌到英偉達(dá)，科技巨頭紛紛招募紅隊(duì)黑客破解自己的AI模型

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

ChatGPT爆火背后，生成式AI是否只是「曇花一現(xiàn)」？

越南：加強(qiáng)半導(dǎo)體、人工智能等領(lǐng)域高素質(zhì)人才培養(yǎng)

600萬(wàn)條全球用戶(hù)信息泄露？Pinterest否認(rèn)

Forrester預(yù)測(cè)：預(yù)計(jì)明年AI代碼漏洞將造成新的攻擊

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

關(guān)于入選《2021中國(guó)大數(shù)據(jù)應(yīng)用樣板100例》的決定

紫光恒越魯大欣：勇?lián)艅?chuàng)使命，攜手為實(shí)現(xiàn)科技自立自強(qiáng)而努力

賦能●數(shù)字化轉(zhuǎn)型 | 2019第二屆中國(guó)信息技術(shù)主管大會(huì)在北京成功召開(kāi)

數(shù)博會(huì)重磅發(fā)布嘉城大數(shù)據(jù)產(chǎn)品首批測(cè)評(píng)通過(guò)!

重磅|創(chuàng)意信息亮相華為中國(guó)合作伙伴大會(huì)2023 共贏數(shù)字未來(lái)

芯軟智控與中興通訊共同攜手：筑路數(shù)字經(jīng)濟(jì) 共贏云網(wǎng)生態(tài)

熱點(diǎn)資訊

什么是 OSI 模型？OSI 模型的七層是哪些？

自動(dòng)化測(cè)試有哪些常見(jiàn)的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

升級(jí)WI-FI路由器的5個(gè)理由

抖音的跨境電商野心

從谷歌到英偉達(dá)，科技巨頭紛紛招募紅隊(duì)黑客破解自己的AI模型

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

欄目推薦

ChatGPT爆火背后，生成式AI是否只是「曇花一現(xiàn)」？

越南：加強(qiáng)半導(dǎo)體、人工智能等領(lǐng)域高素質(zhì)人才培養(yǎng)

600萬(wàn)條全球用戶(hù)信息泄露？Pinterest否認(rèn)

Forrester預(yù)測(cè)：預(yù)計(jì)明年AI代碼漏洞將造成新的攻擊

本月熱門(mén)

精選文章

熱點(diǎn)資訊

升級(jí)WI-FI路由器的5個(gè)理由

抖音的跨境電商野心

ChatGPT爆火背后，生成式AI是否只是「曇花一現(xiàn)」？

越南：加強(qiáng)半導(dǎo)體、人工智能等領(lǐng)域高素質(zhì)人才培養(yǎng)