本文來自微信公眾號“GoUpSec”。
目前市場上最主流的大語言模型生成式人工智能技術(shù),例如ChatGPT、Google Bard和基于LLAMA的開源大語言模型,在威脅檢測/分類和預(yù)測領(lǐng)域的性能表現(xiàn)如何?
網(wǎng)絡(luò)安全是人工智能最大的應(yīng)用市場,而威脅檢測/分類又是最熱門的人工智能技術(shù)安全用例之一,生成式人工智能大語言模型能比人類安全分析師更快、更大量地識別和分析潛在安全威脅。那么,市場上主流的大語言模型在威脅檢測/分類方面的性能表現(xiàn)如何呢?
近日,網(wǎng)絡(luò)安全公司Skyhawk在開發(fā)一種能大大提高威脅識別準確性并自我改進的人工智能威脅分析框架時(該框架利用投票系統(tǒng)和置信度綜合分析來自多個大模型的威脅信息檢測結(jié)果,形成一個比單一大語言模型更加健壯可靠的安全分析集合學(xué)習(xí)框架),對主流大語言模型的威脅檢測和預(yù)測能力進行了評測和研究。
威脅檢測準確率GPT4不敵開源模型
Skyhawk的大語言模型基準測試方法如下:
參評模型:ChatGPT、GoogleBARD、基于LLAMA2的開源模型
測試內(nèi)容:
●任務(wù):確定從云日志(例如AWS日志)中提取的聚合序列的惡意級別。
●評估指標:使用精度、召回率和F1分數(shù)來衡量性能。
●閾值:引入最佳閾值來決定分類結(jié)果。
●排行榜:評估結(jié)果和排名可在Skyhawk網(wǎng)站上查看。
測試結(jié)果(下圖)顯示,GPT4的F1評分最高,但出人意料的是,GPT4的準確率不及開源的Llama-2-70B-LoRA-assemble-v2。而野心勃勃的的GoogleBard的準確率排名倒數(shù)第二,甚至與GPT3.5-turbo尚存在不小的差距:
評測基于200個人類標記的代表性樣本來源:Skyhawk
大語言模型威脅檢測能力排名的意義
對主流大語言模型的威脅檢測和分類進行基準測試是AI增強網(wǎng)絡(luò)安全的基礎(chǔ)工作。因為在開發(fā)由多個大語言模型組成的“聯(lián)邦學(xué)習(xí)”或“集合學(xué)習(xí)”威脅分析框架時,研究者需要對每個主流大語言模型的威脅檢測“天分”和潛力進行量化分析和排名,以此確定不同模型在威脅分類和評分流程中的權(quán)重,從而優(yōu)化威脅分類流程,提高準確性和效率。
集成化多模型學(xué)習(xí)框架的優(yōu)勢
數(shù)字環(huán)境不斷發(fā)展,云安全的復(fù)雜性不斷增加。在這種動態(tài)環(huán)境中,查明和評估與云事件相關(guān)的風(fēng)險變得越來越具有挑戰(zhàn)性,尤其是當(dāng)事件信息跨越惡意和良性評判的界限時,傳統(tǒng)人工威脅檢測和機器學(xué)習(xí)方法常常會出現(xiàn)問題,無法提供所需的檢測精度和洞察力。
為了應(yīng)對這一挑戰(zhàn),很多網(wǎng)絡(luò)安全供應(yīng)商選擇使用大語言模型來充當(dāng)高效的安全分析師,對每組事件信息的惡意程度進行評分,但這種方法需要多個大語言模型的“集成學(xué)習(xí)”(有別于聯(lián)邦學(xué)習(xí))來共同實現(xiàn),利用投票系統(tǒng)和由結(jié)果差異確定的置信度來創(chuàng)建更強大的多模型安全分析集成學(xué)習(xí)框架(下圖):
與Bagging和Boosting等現(xiàn)有MLEnsemble框架相比,這個新框架具有多項優(yōu)勢,包括:
●改進的泛化能力:能夠從“初級”模型的發(fā)現(xiàn)和錯誤中學(xué)習(xí)和適應(yīng),從而實現(xiàn)更好的預(yù)測準確性,特別是在復(fù)雜或嘈雜的數(shù)據(jù)集中。
●模型可解釋性:提供更精確、更易于理解的決策過程表示。
●魯棒性:增強對異常值和對抗性攻擊的抵御能力,最大限度地減少過度擬合并增強數(shù)據(jù)質(zhì)量管理。
●效率:在處理大型數(shù)據(jù)集或資源受限的環(huán)境時可能提供計算優(yōu)勢。事實上,我們不需要單獨運行每個模型(與堆疊和裝袋相反)是一個優(yōu)勢。
●靈活性:能夠有效地整合各種“初級”模型以及人類驅(qū)動的見解,以滿足不同的問題類型。
●增量學(xué)習(xí):根據(jù)隨時間變化的數(shù)據(jù)分布促進持續(xù)適應(yīng)和細化。
●減少偏差:采用多方面的方法來減少預(yù)測偏差,確保結(jié)果更加平衡和公平。
研究者指出,集成學(xué)習(xí)多模型框架不僅優(yōu)于單一大語言模型,而且還顯著改進了基于平均值和方差評估的簡單集成框架。