G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

AI 2年前 (2023) admin
426 0 0

今天为大家推荐的论文是来自浙江大学NESA Lab投稿的,关于神经网络模型后门检测问题的论文FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases,该工作目前已经被USENIX Security 2023录用。

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

神经网络后门是深度学习面临的重大安全威胁之一。被注入后门的神经网络模型,对于普通的样本保持着正常的分类性能;然而,如果样本中包含有特定的“触发器”(trigger),则模型中的后门会被触发,导致模型出现误分类:将该样本分类为攻击者指定的目标类别(target class)。

虽然已有多项工作致力于神经网络后门检测,但是当前的检测方法依然面临两个重要挑战:(1)难以检测复杂后门。通过改变trigger的形式,或者使用class-specific策略,后门攻击可以变得更复杂、更难以被检测到。如图所示,trigger的形式可以简单如一个小色块(patch trigger),也可以复杂如特定语义——“图片中的羊站在草地上”(Natural Trigger)。而class-specific策略则指的是,攻击者指定特定的1或多个“源类别”(source class),只有这些类别被加上trigger,样本才会被分到目标类别;如果某样本不属于源类别,那么即使加上trigger,也不会触发后门。攻击者可以组合复杂trigger和class-specific策略,使得后门逃逸现有的后门检测方法。(2)大多现有检测器无法在无数据依赖(data-free)的情况下检测后门。现实场景中防御者可能难以获得辅助打标数据来进行后门检测,例如:在某模型分享平台如Model Zoo上,第三方个人或公司匿名发布了一个模型,但是没有上传对应的数据集,那么平台维护者需要一个无数据依赖的检测器对该模型进行后门检测。

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

为了应对上述挑战,作者设计了神经网络后门检测器FreeEagle,它可以在无数据依赖的情况下进行后门检测,并且对复杂后门同样有效。FreeEagle的运行流程如图所示。首先,选取待测模型中间某层,将模型分为“特征提取器”和“分类器”2部分;对于每个类别,逆向生成此类别在该中间层的嵌入向量(embedding),逆向生成对应的优化策略为最大化该类别在输出层的分类置信度。以上2个步骤解决了复杂trigger和无数据依赖环境带来的挑战:首先,无论trigger是何种形式,经过模型的特征提取器部分,该trigger都会被提取为嵌入向量的某些维度;其次,通过逆向生成嵌入向量,无数据依赖的问题被解决。得到每个类别对应的逆向生成的嵌入向量后,再将这些嵌入向量前向传播经过模型的分类器部分,设模型分类数为N,则得到N个N维的分类置信度向量(softmax之后的),形成一个N×N的矩阵。将该矩阵的对角线元素设为0,则矩阵中数值异常高的剩余元素,指明了后门的存在,如下图矩阵中的黄色方块所示。这是因为后门攻击会提高目标类别的分类优先级,使得源类别在目标类别的分类置信度相对较高。同时,此N×N矩阵展示了每个样本对之间的异常程度,所以class-specific后门也可以被检测到。

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

实验结果显示,FreeEagle在多个数据集、多种后门攻击设置下性能超过了现有的无数据依赖后门检测器DF-TND,甚至在部分攻击设置下超越了有数据依赖的后门检测器如NC、STRIP等,如下面两图所示。

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

另外,本文评估了2种针对性的自适应攻击策略(adaptive attack)对于FreeEagle的逃逸效果:

  1. 刻意降低目标类别的分类置信度,
  2. 将后门注入到模型的特征提取层而不是整个模型。







实验结果显示,策略(1)只能略微降低FreeEagle的检测精度,而策略(2)同样无法有效逃逸:如果将后门注入到数量较少的特征提取层,则攻击成功率非常低;如果将后门注入到数量较多的特征提取层,则依然会被FreeEagle准确检测到。

本文对FreeEagle未来可改进的点也进行了讨论,例如对于分类数目较少的模型的后门检测性能有待改进、攻击者如果在训练模型时故意不使用数据增广则可能对检测效果造成影响等。


论文下载:https://arxiv.org/pdf/2302.14500.pdf



投稿作者介绍:

付冲 浙江大学

浙江大学网络空间安全专业博士研究生,主要研究方向为人工智能安全,相关研究成果已被USENIX Security、IEEE S&P等安全领域顶级国际会议录用。


原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

版权声明:admin 发表于 2023年3月16日 下午8:06。
转载请注明:G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...