数据背后的真相：揭秘AI数学模型与威胁'盲测'

AI 2个月前 admin

13 0 0

我和AI的故事

'盲测'，以AI模型的数学思维概括地理解和检测网络安全威胁。

大（语言）模型的突然盛行促使大家一时间被动融入到了人工智能科技浪潮中，熟悉AI的同学对这个在各行业均有应用场景的概念早已不陌生。2017年到港中文读研的朋友向我介绍了Tensorflow模型平台，那时是我相对早期了解到AI是什么，2020年尝试利用朴素贝叶斯算法预测DNS恶意域名，小小的尝试后便搁置了，2021年在金睛云华的短暂经历也没有参与到AI算法。前述这些是还能够拼凑起来的与AI之间的片段，直到2024年初对AI大模型与AI小模型的应用探索才又把之前的知识捡起来了，本文将主要描述我对AI小模型的理解和利用AI小模型开展WEB Anomaly URI Request恶意资源请求预测识别的探索过程。

Naive Bayes朴素贝叶斯是一种简单的构造分类器的方法。

说到AI，我们可以按照生成式&监管式&非监管式、机器学习&深度学习等多种方式进行分类，如果引入这两年大家熟悉的ChatGPT的聊天机器人，就不得不引入一种新的分类方式，AI大模型和AI小模型。我个人比较容易接受的理解是，

将AI大模型识别为大语言模型，即需要做超级大量训练样本的学习和预测检验、自然语言识别和处理、自然语言分词和预测、对话总结；
将AI小模型识别为传统的AI机器学习和深度学习等算法，常用于数据分析与决策场景，包括决策树、分类算法等。

LLM，‌使用深度学习算法来理解、生成和翻译自然语言文本。LLM通常由数十亿甚至数万亿个参数构成，这些参数是在大量文本数据上训练得到的，使得模型能够捕捉语言的复杂性和细微差别。LLM在自然语言处理领域具有广泛的应用，包括但不限于文本生成、文本分类、机器翻译、情感分析等。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

人工智能、机器学习、深度学习和神经网络之间存在着密切的关系。人工智能是一个更广泛的领域，涵盖了机器学习和深度学习等多种实现智能行为的方法和技术。机器学习是人工智能的一个分支，通过使计算机系统能够从数据中学习并提高性能来实现智能行为。深度学习则是机器学习的一个子领域，使用深层神经网络来模拟和解决复杂问题。神经网络则是深度学习的基础，是一种重要的计算模型。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

我对AI的理解

后文中我们讨论的AI主要是AI小模型，即传统的数据分析模型算法。

AI技术大多在边界清晰、规则明确的业务场景中表现较好，以OT生产安全为例，生产设备的行为相对确定和特征明确，将规律学习和异常检测交给AI我们能很放心；相反，IT环境存在太多的人为行动痕迹和不规则的临时操作动作，这样的特性会使得AI变得越来越蒙圈，自学习规则基线也会随之异常波动，造成告警异常。（图好看，flag'年底我也要画一个！'）

数据背后的真相：揭秘AI数学模型与威胁'盲测'

AI小模型一般采用机器学习/深度学习等算法进行特定场景下相对小规模样本数据的训练和后期预测，我理解其根本在于“AI不关心业务数据的实际含义，不需要严格区分业务数据的类型”，即采用数学逻辑对样本数据进行特定编排、抽取、提炼和分类，总结样本数据的组合/数字/向量/趋势规律，用概率论和统计学的思维去分类和预测，复用到后期新进数据的预测中去。

利用AI建模检测web异常请求

本文示例测试过程，将以预测可疑web uri请求为主要目标，选择fsecurity的waf样本数据集训练学习（资源路径和请求参数），实施good query和bad query的区分与打标签，而后给予模型新进的采样数据进行预测检验。除fsecurity外，互联网公开的web请求样本数据还可参考 vizsec.org/data/和github进行下载获取。

为什么选择web uri请求的数据做训练测试入门呢？一个原因是web请求会有比较典型的文本组合特征，是比较好的入门对象；另一个原因是既然WAF采用特征码识别和行为识别会有比较多的误报，也想看下AI在这个检测过程中究竟会有怎样的效果。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

训练数据集Fwaf-Machine-Learning-driven-Web-Application-Firewall-master展示如下，共计10,048条good query和10,000条bad query，标签0代表合法、标签1代表恶意：

数据背后的真相：揭秘AI数学模型与威胁'盲测'

训练集选择好以后，我们需要考虑样本数据类型和特点，选用适当的数据处理方式和机器学习分类模型，结合对web uri请求类数据的理解，暂时我能够想到的数据处理方式和机器学习模型主要有以下两种组合情况：

序号	数据处理	数据加工	AI模型
1	分词	TF-IDF向量计算	LR二分类(稀疏)
2	词性分组	分组统计	贝叶斯分类

针对方案一的概述：

采用分词手法，将web uri请求字符串拆分成一个个有含义的词组，如index、php、id、1、or，如webconfig、cnf、..、..、..、..、etc、passwd。
计算TF-IDF向量，即每个词组对于全部文档的重要性，例如php字串在全部日志条目中出现的情况，TF-IDF既放大单一请求中某高频词汇的作用，又限制全部请求中某个重复大量的词汇带来的冗余影响。“uri请求的样本中，有哪些词汇呀？这些词汇对于构造一个uri请求来说很重要吗？一个uri请求中，这个词汇出现的多吗？很多uri请求里都有这个词汇吗？把这些计算结果高的词汇都找出来！”
利用LR二分类识别TF-IDF的稀疏向量类型输入，做标签的回归分类匹配计算，计算重点字串的向量对于合法/恶意标签的分类影响程度。“前面我们利用TF-IDF计算出的那些重点词汇，与恶意请求、合法请求的关联概率关系如何？我们算一下，然后筛出那些重点词汇与恶意请求的关联！”

什么是分词？

‌文本分词‌是指将连续的字符序列（通常是语言文字）按照一定的规则或算法分割成一个个独立且有意义的单位（如词语、句子或主题）的过程。这个过程在自然语言处理（NLP）中尤为重要，因为它涉及到如何将原始文本转化为计算机可以理解和处理的单元。

分词可以有很多种方式，比如按照自然语言的词性划分、按照中英文的标点符号间隔等，对于http请求的分词建议可参考浙江大学发布在MDPI期刊的论文《A Payload Based Malicious HTTP Traffic Detection Method Using Transfer Semi-Supervised Learning》方案，按照英文特殊字符进行拆分间隔：

数据背后的真相：揭秘AI数学模型与威胁'盲测'

本文案例分词结果如下【受限现有集成分词函数局限性】：

数据背后的真相：揭秘AI数学模型与威胁'盲测'

什么是TF-IDF向量？

一种用于信息检索与文本挖掘的常用指标，用于衡量一个词对文档集或一个文档的重要性。TF-IDF值通过词频（TF）和逆文档频率（IDF）的乘积来计算。词频（TF）是指某个词在文档中出现的频率，而逆文档频率（IDF）是指某个词在文档集中出现的频率的倒数，用于调整词的常见性。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

以三个句子的词料库举例说明TF-IDF的计算过程，得到good、boy、girl三个词汇对于语料库的重要相关程度。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

什么是LR二分类模型？

使用逻辑回归模型（Logistic Regression, LR）进行二分类任务，并且处理稀疏数据的情况。逻辑回归是一种传统的机器学习分类算法，它基于逻辑函数将线性回归的输出映射到0和1之间，从而实现对二分类问题的建模。

数据背后的真相：揭秘AI数学模型与威胁'盲测'

训练及预测效果如下，我们可以将可疑的web uri请求以post参数的形式发送给预测服务，如下面python客户端案例是判断/index/abc.php?id=1 or 1=1，有限的集合内准确率还算可观：

数据背后的真相：揭秘AI数学模型与威胁'盲测'

针对方案二的概述【暂时停留在想法，还没有实践】：

针对uri字符串进行关键词类型的分组，如file://、redirect_to=，如passwd、conf、dev、log、txt，如php、asp、jsp，如是否存在dnslog域名、如存在几层../目录切换。
统计每个关键类别词组的存在与否、数量统计和阈值比对，并用0和1来表示，生成数值数组类型的特征串。
利用贝叶斯模型加载数值数组类型的uri特征串，训练及预测。

上述内容是我对AI小模型的理解和模型预测的初步尝试，算作AI新人在网络安全威胁检测和狩猎方向上非常能够树立信心和坚定利用AI持续深入挖掘网络安全异常的一个重要支撑和正向反馈。欢迎大家与我交流，提出更多威胁检测中的痛点和AI检测的可行方法。AI模型算法对于某个单一场景（网络安全威胁检测）的支持逻辑是站在数学统计和概率计算的角度出发设计的，所以不会涉及太多场景内的特征码或行为论述，确实可以作为一个辅助功能模块，在大量威胁变种的对抗下实现威胁“盲测”。