本文來(lái)自微信公眾號(hào)“嘶吼專業(yè)版”,作者/ang010ela。
ChatGPT是一個(gè)基于人工智能技術(shù)的自然語(yǔ)言處理模型,可以通過(guò)學(xué)習(xí)大量的語(yǔ)料庫(kù),生成自然語(yǔ)言的文本和對(duì)話。ChatGPT通過(guò)為各行各業(yè)帶來(lái)更高效、智能和個(gè)性化的服務(wù)而對(duì)各行業(yè)帶來(lái)變革性影響。
研究人員發(fā)現(xiàn)ChatGPT、Bard、Claude等人工智能大語(yǔ)言模型(Large language model,LLM)會(huì)在回答用戶提問(wèn)時(shí),可能會(huì)產(chǎn)生一些不當(dāng)內(nèi)容,即越獄攻擊。比如,通過(guò)特殊關(guān)鍵詞等查詢來(lái)讓大語(yǔ)言模型產(chǎn)生非預(yù)期的響應(yīng)內(nèi)容。隨后,研究人員開(kāi)展了大量的調(diào)試工作,以盡可能避免回答用戶有害的內(nèi)容。雖然已有研究人員證明了針對(duì)大語(yǔ)言模型的越獄攻擊,但這一過(guò)程需要大量的手動(dòng)操作來(lái)進(jìn)行設(shè)計(jì),而且很容易被大語(yǔ)言模型提供商所修復(fù)。
機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)模式,對(duì)抗攻擊正是利用機(jī)器學(xué)習(xí)的這一特征來(lái)生成異常行為。比如,對(duì)圖像做出的人類無(wú)法察覺(jué)的小修改會(huì)使圖像分類器將其錯(cuò)誤識(shí)別為其他問(wèn)題,或使聲音識(shí)別系統(tǒng)產(chǎn)生人類聽(tīng)不見(jiàn)的響應(yīng)消息。
來(lái)自卡耐基梅隆大學(xué)的研究人員系統(tǒng)研究了大語(yǔ)言模型的安全性,證明可以自動(dòng)構(gòu)造針對(duì)大語(yǔ)言模型的對(duì)抗樣本,尤其是在用戶查詢中添加特定字符流會(huì)使大語(yǔ)言模型根據(jù)用戶查詢產(chǎn)生結(jié)果,并不會(huì)判斷產(chǎn)生的回復(fù)是否有害。與傳統(tǒng)的大模型越獄相比,研究人員的這一對(duì)抗攻擊過(guò)程是完全自動(dòng)的,即用戶可以無(wú)限制的發(fā)起此類攻擊。
雖然該研究的攻擊目標(biāo)是開(kāi)源大語(yǔ)言模型,但研究人員發(fā)現(xiàn)利用其提出的方法生成的對(duì)抗提示(prompt)是可遷移的,包括對(duì)黑盒的公開(kāi)發(fā)布的大語(yǔ)言模型。研究人員發(fā)現(xiàn)此類字符串對(duì)抗攻擊也可以遷移到許多閉源的、公開(kāi)可訪問(wèn)的基于大模型的聊天機(jī)器人,如ChatGPT、Bard和Claude。鑒于部分模型已開(kāi)始商用,研究人員對(duì)此類模型的安全性表示擔(dān)憂。
目前尚不清楚大語(yǔ)言模型提供商是否能夠完全修復(fù)此類對(duì)抗攻擊行為。但過(guò)去10年間,類似的針對(duì)機(jī)器學(xué)習(xí)的對(duì)抗攻擊在計(jì)算機(jī)視覺(jué)是一個(gè)非常困難的挑戰(zhàn)。雖然深度學(xué)習(xí)模型的本質(zhì)使得此類威脅不可避免,但研究人員認(rèn)為隨著大模型的廣泛使用以及人們對(duì)大模型的依賴,此類對(duì)抗攻擊應(yīng)當(dāng)納入考慮范圍。
針對(duì)大語(yǔ)言模型的對(duì)抗攻擊代碼參見(jiàn):https://github.com/llm-attacks/llm-attacks
針對(duì)大語(yǔ)言模型的對(duì)抗攻擊研究論文參見(jiàn):https://arxiv.org/abs/2307.15043
參考及來(lái)源:https://cacm.acm.org/news/275158-new-attack-impacts-major-ai-chatbotsand-no-one-knows-how-to-stop-it/fulltext