讨论大模型在安全领域的积极与恶意应用

AI 2周前 admin

65 0 0

一. 背景

大模型（LLM，Large Language Model）本质是拥有巨量参数的语言模型，经过足够的训练后，能够理解和处理人类语言，帮助解决各个领域的问题。安全工作者也在挖掘大模型的潜力，利用其帮助处理日常工作，包括代码审计，漏洞挖掘，恶意软件分析等。同时，大模型也成为黑客的有力工具，给网络安全带来了一些负面影响。

二. LLM带来的帮助

2.1

代码安全

LLM通过学习大量的代码和示例，能够在软件生命周期的各个阶段提供帮助，包括安全编码，测试用例生成，漏洞检测及修复等。

由于学习了大量的样本代码以及安全最佳实践，基于LLM的编程助手能够生成更规范的代码，避免常见的安全漏洞，减少新安全漏洞引入的几率。很多漏洞本质上都是编码不规范引起的（比如内存使用不合理，序列化反序列化不一致等），LLM对于安全编码规范的遵循可以有效避免这种情况。

将LLM用于生成测试用例，是目前安全界探索的一个重要方向。研究表明，相比传统方法，LLM生成的测试用例有更高的覆盖率，可以更有效的测试软件供应链攻击。模糊测试（fuzzing）是业界广泛使用的生成测试用例以及挖掘漏洞的技术，引入LLM辅助后，利用其自然语言理解能力，可以更加高效的生成以及针对性的修改测试用例，提升测试效率和测试覆盖率。

现有的静态代码扫描工具基本都依赖人工维护的规则集，LLM可以帮助生成和修改相关的规则，减少人工编写和维护的成本。传统工具对代码的语义理解有限，仅能根据规则或者模式匹配来寻找漏洞，而LLM可以理解代码，因此，将LLM应用在扫描中，可以检测一些更复杂的攻击场景。

图1展示了各个不同的模型拥有的代码安全相关的能力强化，可以看出，目前的LLM还是各有侧重，还没有出现涵盖整个软件生命周期的全能型大模型。

图1 不同大模型对于代码安全的能力分布

2.2

恶意软件检测与分析

恶意软件是现代网络安全中一个重大的威胁，快速且准确的识别恶意软件可以帮助保护系统、数据的隐私和安全。

传统的检测工具常常依赖于静态签名或者特定的规则，LLM通过学习大量的恶意软件样本，提取常见的恶意代码模式和行为特征，在面对新的变种时，可以帮助安全人员实现更快速和高效的分析。

代码混淆是恶意软件规避检测的主要方法之一，让LLM学习大量的反混淆方法后，可以将其用于分析混淆后的代码，判断软件真实意图，并帮助恢复恶意软件的原始逻辑。

LLM可以整合多个维度的数据进行综合分析，常规的检测手段比如NIDS（Network-based Intrusion Detection System，网络入侵检测系统）和HIDS（Host-based Intrusion Detection System，主机入侵检测系统）是相互独立的，LLM可以处理两边的数据，同时对系统事件和网络流量做分析，更加全面的识别恶意软件运行时的行为，提取特征。

2.3

个人信息防护

网络钓鱼是恶意攻击者常用的手段之一，通过伪造高相似度的网站和电子邮件，欺骗受害者输入敏感信息，从而实现账户盗用等恶意行为。LLM可以有效识别带有钓鱼内容的网站和钓鱼邮件，保护用户隐私。

PII（Personally Identifiable Information，个人身份信息）检测是隐私泄露检测的一个重要组成部分。常规的检测手段大部分是基于正则匹配或者规则，这些都需要人工维护，容易有遗漏和误报。LLM拥有强大的上下文理解能力，能结合上下文更好的判断信息是否是PII。同时，LLM可以实现跨语言的检测，而不需要为不同的语言配置不同的规则。

三. LLM的恶意用法

虽然LLM带来了许多安全性的提升，但其强大的能力也被用于恶意行为，引发了新的安全威胁。图2中紫色框展示了LLM可以参与攻击的部分，可以看到在各个维度LLM都有可使用的场景。

图2 网络攻击的分类

3.1

帮助实施攻击

虽然LLM无法直接访问操作系统或硬件，但它们可以通过分析操作系统信息来协助攻击者实施攻击。研究显示，LLM能够协助自动化提权攻击，帮助攻击者发现系统漏洞并执行恶意操作。攻击者输入系统信息后，LLM能够分析系统上存在的漏洞并给出可行的攻击方案。LLM还可能被用于攻击网络基础设施，模拟和部署复杂的网络钓鱼和中间人攻击。

3.2

编写恶意软件

LLM拥有强大的编程能力，可以帮助生成恶意软件。直接让LLM生成恶意软件通常会被底层的安全措施拦截，但是可以通过拆解软件功能，利用简单的提示生成不同部分的代码，最终生成完整的恶意软件，如勒索软件或网络蠕虫。为了逃避检测，还可以利用LLM重写恶意软件代码，经过LLM修改的代码可能会改变原有的二进制特征，使其更难以被传统的防病毒软件检测。随着LLM生成代码能力的提升，这种恶意应用的风险可能会进一步扩大。

3.3

针对用户的攻击

LLM生成逼真文本和推理的能力，可以被恶意利用。最常见的应用是社会工程攻击，如钓鱼攻击和信息误导。攻击者可以利用LLM分析已知信息，推断受害者的隐私信息；可以生成高度真实的虚假邮件或消息，诱使受害者泄露个人信息或点击恶意链接。此外，LLM还能被用于生成虚假新闻或不实信息，进一步扩大信息操控的范围。

四. 总结与展望

LLM在安全领域具有巨大的潜力，但同时也带来了新的挑战。我们需要在利用LLM的积极应用的同时，警惕其潜在的恶意应用，并采取有效的防御措施。通过不断的研究和创新，我们可以更好地利用LLM，为构建更安全的数字世界做出贡献。

参考文献

[1] Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, Yue Zhang, A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly, High-Confidence Computing, Volume 4, Issue 2, 2024, 100211, ISSN 2667-2952,

内容编辑：创新研究院杨博杰

责任编辑：创新研究院陈佛忠

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营，绿盟科技创新研究院是绿盟科技的前沿技术研究部门，包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。