论文解读：《将LLM用于网络犯罪论坛的威胁情报》

AI 2周前 admin

70 0 0

一. 背景

近年来，随着人工智能的快速发展，大语言模型（LLM）已在多种应用场景中展现出其强大的文本生成与处理能力。网络犯罪论坛作为网络威胁信息的关键来源，汇聚了大量关于网络攻击手段、漏洞利用、黑客活动等情报。然而，人工分析大量论坛对话不仅费时费力，还容易遗漏关键信息。因此，研究如何使用LLM有效提取和分析这些对话内容，对网络威胁情报（CTI）具有重要的现实意义。

来自蒙特利尔大学犯罪学学院、Flare Systems公司、维也纳复杂科学中心的Vanessa Clairoux-Tr´epanier等六位作者于不久前发表了一篇名为《The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums》的论文[1]。

论文中使用OpenAI的GPT-3.5-turbo模型，主要评估其在网络犯罪论坛上提取和总结CTI信息的准确性。研究的核心问题在于LLM是否可以取代一线威胁分析师的部分工作，通过自动化处理提高情报提取的效率与准确性。

二. 论文概述

原论文中的实验过程主要包括以下三个部分：

1、数据收集：作者从三个网络犯罪论坛（XSS、Exploit.in和RAMP）中随机提取了若干对话。这些论坛是网络威胁情报的重要来源，讨论了与漏洞利用、攻击目标和网络犯罪交易等相关的内容。这些对话被以天为单位分片，共500组分片数据。

2、 LLM系统设计：LLM系统基于GPT-3.5-turbo-16k模型，采用一系列精心设计的提示词，引导模型提取特定的CTI信息。论文中称，提示词设计的关键在于模拟网络威胁分析师的视角，以便识别出讨论中的交易、目标技术或组织、漏洞利用等关键信息。由于提示词篇幅较长，本文不作摘录，感兴趣的读者可以在原论文中找到完整提示词。

3、结果评估：两名人类分析师各自独立地对模型的输出进行了手动验证，由此评估模型的总体表现。通过分析师之间的互评确保了结果的准确性。

其中，具体提取的关键信息字段列表如下：

表1 所提取的关键信息字段列表

而最终结果准确率统计如下：

表2 最终结果准确率统计

结果可见LLM在提取和总结CTI信息时表现出高度的准确性，平均准确率达到了98%，在某些字段上甚至达到了100%。

*论文中未给出“是否针对主流技术”的结果统计，或为遗漏。

三. 遇到的问题

此外，论文也指出了一些模型和方法上存在的不足，笔者认为其中较为主要的包括：

3.1

不擅长处理故事

用户讨论中提及历史事件时，LLM容易发生误判。例如，某个主题本身上并没有进行买卖，但其中一名用户在讨论中提及了“一位警官曾经在暗网上售卖假证件”的事件，导致模型将其误判为“涉及交易行为”。

3.2

数据分片的重要性

原论文在调用LLM处理对话时，进行了按天分片操作，但有时一段完整的对话可能跨越多日。例如，一位用户在连续几天内讨论了售卖一个数据库的事情，但由于对话被分成了几天，导致模型未能识别出这是一次交易行为。

3.3

处理模糊或泛化概念的问题

某些字段的概念本身较为模糊，例如“是否针对大规模组织”，模型对于某个组织算不算“大规模”的判断或与人类有所差异。

3.4

LLM本身的局限性

尽管LLM的表现总体优秀，但仍存在一些无法解释的错误。例如，在一段对话中，用户讨论了一种可以远程控制目标机器的工具，模型未能识别出这是一次初始访问的交易。

此外，原论文还讨论了提示词的时态问题、提取信息之间关联不正确的问题、忽略标题信息的问题等。

四. 参考评价

LLM取得这样的高准确率也是意料之中。与原论文无关地，笔者此前也尝试过一些将LLM用于关键信息提取的实验。这类任务有点像是传统NLP领域的实体识别或指代消解，但实际场景可能更加复杂一些。不过，这些实验的结论与原论文一致，认为在不涉及推理（或推理程度很浅）的情况下，LLM从长文本中提取关键信息的能力确实出类拔萃。论文中将LLM用于网络犯罪论坛的威胁情报收集，确实是专业对口。

关于论文中遇到的问题，以笔者经验，不仅是在实体识别任务中，当输入文本中存在嵌套的上下文表述时，各种LLM似乎都普遍地容易产生混淆。例如在告警研判任务中，可能会出现正常用户提交表单信息中包含对某个安全事件的描述的情况，此时很多LLM都会出现误判。论文中所提及的其它几项问题也都是LLM实践中经常遇到的难点。以笔者见解，将所有问题一股脑地丢给LLM并非良策，LLM实践中经常需要一系列的配套设施来协助进行预处理、后处理等，LLM终究只是庞大工程中的一个单元而已。

此外，原论文中是用GPT3.5进行实验，以当下而言已经是个有点老旧的模型了，或未必能体现出LLM领域的最先进能力。

五. 后记和展望

总体而言，论文认为，通过LLM的帮助，威胁分析师可以更快地识别出网络犯罪论坛中讨论的关键威胁情报，包括哪些行业和技术是攻击目标、是否涉及大规模组织或关键基础设施等。虽然方法上仍然存在一些问题，该研究仍为未来的CTI自动化提供了重要的方向。

更多前沿资讯，还请继续关注绿盟科技研究通讯。

如果您发现文中描述有不当之处，还请留言指出。在此致以真诚的感谢。

参考文献

[1]Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, et al. The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums, 2024[M/OL]. (2024). https://arxiv.org/abs/2408.03354

内容编辑：创新研究院吴复迪
责任编辑：创新研究院舒展

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营，绿盟科技创新研究院是绿盟科技的前沿技术研究部门，包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码，即可关注我