4 月 19 日凌晨,Meta 开源了新一代 LLaMa-3 模型。作为当前最受瞩目的大语言模型之一,LLaMa-3 在网络安全领域的表现到底怎样?如何将 LLaMa-3 这样的新型大模型快速应用到网络安全问题解决中?
腾讯朱雀实验室和腾讯安全科恩实验室基于自研的网络安全大模型评测平台 SecBench,对 LLaMa-3 在网络安全领域的能力表现进行了全面评测。
SecBench:
评测网络安全大模型的新基准
SecBench 积累了行业独有的安全评测数据集,覆盖多题型、多任务,支持从能力、语言、领域、安全证书模拟考试等多个维度对大模型的网络安全能力进行评估。
https://secbench.org/
LLaMa-3 网络安全能力评测结果分析
能力维度
语言维度
语言维度主要评估大模型对不同语言的网络安全知识的学习理解能力,目前覆盖中文和英文两种主流语言。在语言维度的测试中,LLaMa-3 相较于 LLaMa-2 同样有较大提升。同时,可以看出,前后两个版本的模型在英文上的能力表现都优于中文。
领域维度
领域维度从垂类安全视角,评估大模型对网络安全九个子领域问题的解决能力。细分到网络安全各个领域,Llama-3-8B 和Llama-3-8B-Instruct 综合能力表现相当,在“云安全”和“应用安全”两个子领域表现最佳。
安全证书考试模拟评估
安全证书考试模拟评估是 SecBench 的特色能力,支持使用信息系统审计、云安全认证、云计算安全管理等经典证书考试模拟试题,评测大模型通过安全证书考试的能力。从安全证书模拟评估上来看,LLaMa-3 已经可以通过渗透测试和信息系统审计两类模拟评估测试,相对于 LLaMa-2 的全部不及格也有明显改善。虽然 LLaMa-3 仍然有部分安全证书模拟考试不及格,但从分数上看,LLaMa-3 相较于 LLaMa-2 还是有很大程度上的提升。
问题示例:
Llama-3-8B-Instruct 安全证书模拟评估结果:
Llama-3-8B 安全证书模拟评估结果:
Llama-2-7B-Chat 安全证书模拟评估结果:
Llama-2-7B 安全证书模拟评估结果:
综合来看,LLaMa-3 小参数量模型的网络安全能力相较于上一版本有明显提升,但对比 Claude-3-Opus、GPT-4 等行业头部大模型还有较大差距。Claude-3-Opus 与 GPT-4 在网络安全上的综合得分分别高达 0.816 和0.7984(更多排名请参考:secbench.org),对于几类安全证书模拟评估也可以高分通过,LLaMa-3 的网络安全能力还有较大提升空间。
结束语
SecBench 是腾讯朱雀实验室和腾讯安全科恩实验室联合腾讯混元大模型团队、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队以及上海人工智能实验室 OpenCompass 团队,共同建设的业界首个网络安全大模型评测平台,致力于为大模型在安全领域的应用提供坚实的基座,加速技术落地。未来 SecBench 将持续构建高质量的网络安全评测数据,紧跟最新大模型的步伐,推动相应的网络安全能力评测。期待能够与学术界、工业界相关从业者携手共创,共同推动网络安全大模型的发展。
原文始发于微信公众号(司南评测体系):深度探索:LLaMa-3 网络安全能力全解析