亚洲日韩AV无码中文,亚洲女人高潮视频,亚洲av色无码乱码在线观看国产

主流大語言模型威脅檢測能力評測：GPT4不敵開源模型

2023-09-21 11:28

GoUpSec

網(wǎng)絡(luò)安全是人工智能最大的應(yīng)用市場，而威脅檢測/分類又是最熱門的人工智能技術(shù)安全用例之一，生成式人工智能大語言模型能比人類安全分析師更快、更大量地識別和分析潛在安全威脅。

本文來自微信公眾號“GoUpSec”。

目前市場上最主流的大語言模型生成式人工智能技術(shù)，例如ChatGPT、Google Bard和基于LLAMA的開源大語言模型，在威脅檢測/分類和預(yù)測領(lǐng)域的性能表現(xiàn)如何？

網(wǎng)絡(luò)安全是人工智能最大的應(yīng)用市場，而威脅檢測/分類又是最熱門的人工智能技術(shù)安全用例之一，生成式人工智能大語言模型能比人類安全分析師更快、更大量地識別和分析潛在安全威脅。那么，市場上主流的大語言模型在威脅檢測/分類方面的性能表現(xiàn)如何呢？

近日，網(wǎng)絡(luò)安全公司Skyhawk在開發(fā)一種能大大提高威脅識別準確性并自我改進的人工智能威脅分析框架時（該框架利用投票系統(tǒng)和置信度綜合分析來自多個大模型的威脅信息檢測結(jié)果，形成一個比單一大語言模型更加健壯可靠的安全分析集合學(xué)習(xí)框架），對主流大語言模型的威脅檢測和預(yù)測能力進行了評測和研究。

威脅檢測準確率GPT4不敵開源模型

Skyhawk的大語言模型基準測試方法如下：

參評模型：ChatGPT、GoogleBARD、基于LLAMA2的開源模型

測試內(nèi)容：

●任務(wù)：確定從云日志（例如AWS日志）中提取的聚合序列的惡意級別。

●評估指標：使用精度、召回率和F1分數(shù)來衡量性能。

●閾值：引入最佳閾值來決定分類結(jié)果。

●排行榜：評估結(jié)果和排名可在Skyhawk網(wǎng)站上查看。

測試結(jié)果（下圖）顯示，GPT4的F1評分最高，但出人意料的是，GPT4的準確率不及開源的Llama-2-70B-LoRA-assemble-v2。而野心勃勃的的GoogleBard的準確率排名倒數(shù)第二，甚至與GPT3.5-turbo尚存在不小的差距：

評測基于200個人類標記的代表性樣本來源：Skyhawk

大語言模型威脅檢測能力排名的意義

對主流大語言模型的威脅檢測和分類進行基準測試是AI增強網(wǎng)絡(luò)安全的基礎(chǔ)工作。因為在開發(fā)由多個大語言模型組成的“聯(lián)邦學(xué)習(xí)”或“集合學(xué)習(xí)”威脅分析框架時，研究者需要對每個主流大語言模型的威脅檢測“天分”和潛力進行量化分析和排名，以此確定不同模型在威脅分類和評分流程中的權(quán)重，從而優(yōu)化威脅分類流程，提高準確性和效率。

集成化多模型學(xué)習(xí)框架的優(yōu)勢

數(shù)字環(huán)境不斷發(fā)展，云安全的復(fù)雜性不斷增加。在這種動態(tài)環(huán)境中，查明和評估與云事件相關(guān)的風(fēng)險變得越來越具有挑戰(zhàn)性，尤其是當(dāng)事件信息跨越惡意和良性評判的界限時，傳統(tǒng)人工威脅檢測和機器學(xué)習(xí)方法常常會出現(xiàn)問題，無法提供所需的檢測精度和洞察力。

為了應(yīng)對這一挑戰(zhàn)，很多網(wǎng)絡(luò)安全供應(yīng)商選擇使用大語言模型來充當(dāng)高效的安全分析師，對每組事件信息的惡意程度進行評分，但這種方法需要多個大語言模型的“集成學(xué)習(xí)”（有別于聯(lián)邦學(xué)習(xí)）來共同實現(xiàn)，利用投票系統(tǒng)和由結(jié)果差異確定的置信度來創(chuàng)建更強大的多模型安全分析集成學(xué)習(xí)框架（下圖）：

與Bagging和Boosting等現(xiàn)有MLEnsemble框架相比，這個新框架具有多項優(yōu)勢，包括：

●改進的泛化能力：能夠從“初級”模型的發(fā)現(xiàn)和錯誤中學(xué)習(xí)和適應(yīng)，從而實現(xiàn)更好的預(yù)測準確性，特別是在復(fù)雜或嘈雜的數(shù)據(jù)集中。

●模型可解釋性：提供更精確、更易于理解的決策過程表示。

●魯棒性：增強對異常值和對抗性攻擊的抵御能力，最大限度地減少過度擬合并增強數(shù)據(jù)質(zhì)量管理。

●效率：在處理大型數(shù)據(jù)集或資源受限的環(huán)境時可能提供計算優(yōu)勢。事實上，我們不需要單獨運行每個模型（與堆疊和裝袋相反）是一個優(yōu)勢。

●靈活性：能夠有效地整合各種“初級”模型以及人類驅(qū)動的見解，以滿足不同的問題類型。

●增量學(xué)習(xí)：根據(jù)隨時間變化的數(shù)據(jù)分布促進持續(xù)適應(yīng)和細化。

●減少偏差：采用多方面的方法來減少預(yù)測偏差，確保結(jié)果更加平衡和公平。

研究者指出，集成學(xué)習(xí)多模型框架不僅優(yōu)于單一大語言模型，而且還顯著改進了基于平均值和方差評估的簡單集成框架。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

精選文章

熱點資訊

8月工業(yè)數(shù)據(jù)：穩(wěn)步增長與優(yōu)化見證

主流大語言模型威脅檢測能力評測：GPT4不敵開源模型

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

主流大語言模型威脅檢測能力評測：GPT4不敵開源模型

最新評論（評論僅代表用戶觀點）

數(shù)據(jù)中心：過時的新前沿

為什么說系統(tǒng)融合是數(shù)字化轉(zhuǎn)型的必然要求？| 趨勢觀點

科技創(chuàng)新助力“機器人安全應(yīng)急”應(yīng)用落地

AI換臉換聲太逼真!遇到AI視頻詐騙如何識別？

精選文章

“2022（第六屆）中國行業(yè)數(shù)字化年度風(fēng)云榜”評選榜單揭曉

日程定了!2022中國半導(dǎo)體創(chuàng)新大會

名單公布!飛圖影像入選“數(shù)據(jù)要素X”數(shù)商TOP50

喜報!海貝財務(wù)官榮膺“2023數(shù)字化創(chuàng)新優(yōu)秀解決方案”獎項

實戰(zhàn)領(lǐng)航 “數(shù)”創(chuàng)未來北信源以實戰(zhàn)引領(lǐng)為核心精準契應(yīng)數(shù)字化轉(zhuǎn)型時代的網(wǎng)絡(luò)安全應(yīng)急體系

蘋果和高通的專利之戰(zhàn)：誰才是最后的贏家？

熱點資訊

榮耀應(yīng)用市場攜手數(shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標桿案例”

8月工業(yè)數(shù)據(jù)：穩(wěn)步增長與優(yōu)化見證

中國工程院院士倪光南：打造算存運高效協(xié)同的算力基礎(chǔ)設(shè)施

主流大語言模型威脅檢測能力評測：GPT4不敵開源模型

最新評論（評論僅代表用戶觀點）

欄目推薦

數(shù)據(jù)中心：過時的新前沿

為什么說系統(tǒng)融合是數(shù)字化轉(zhuǎn)型的必然要求？| 趨勢觀點

科技創(chuàng)新助力“機器人安全應(yīng)急”應(yīng)用落地

AI換臉換聲太逼真!遇到AI視頻詐騙如何識別？

精選文章

熱點資訊

8月工業(yè)數(shù)據(jù)：穩(wěn)步增長與優(yōu)化見證

中國工程院院士倪光南：打造算存運高效協(xié)同的算力基礎(chǔ)設(shè)施

為什么說系統(tǒng)融合是數(shù)字化轉(zhuǎn)型的必然要求？| 趨勢觀點

AI換臉換聲太逼真!遇到AI視頻詐騙如何識別？