COMPASS
写 /在 /前 /面
介绍自己 / 介绍论文
各位观众老爷们新年好,欢迎你们在北京时间自己看现在几点准时点开这个推送。我是一点都不叛逆、不玩内卷游戏、没有被迫营业的COMPASSer熊晖。目前的研究是AI模型后门攻击和防御。今天又轮到我来给大家分享论文。
我分享的这篇论文是来自AAAI 2021 “医疗可信AI“Workshop 的一篇文章:
“Explainability Matters: Backdoor Attacks on Medical Imaging”
作为一篇workshop的文章,它的篇幅比较短。但是对我当前的工作具有很大的启发作用。
说 / 正 / 事 / 专 / 用 / 分 / 割 / 线
这篇论文的背景知识就是后门攻击的方法,虽然目光聚焦在医学图像,但是后门攻击的方法是相同的。后门攻击的方法如下图所示:
后门攻击分为两个阶段:训练阶段和推断阶段。训练阶段攻击者将嵌入触发器的图像(称为污染图像)作为输入给模型用于训练。训练出的模型称为毒化模型。在推断阶段,当毒化模型的输入位污染图像时,则模型将该图像分类为目标类。
虽然触发器一般为占据像素值较小的色块,通常不会遮盖图像中人眼可见的显著特征,但是叠加的触发器造成的扰动足以造成模型在视觉上的混淆,使得模型造成误判。
本篇文章并没有提出什么具体算法,而是探究了一下后门攻击的性质。所以主要的内容就是后门攻击。文章的创新点为研究了胸透图片多分类模型后门攻击实现以及从可解释性角度探究了后门攻击的性质。
文章中的后门攻击形式如下:
其中x’就是污染数据(图像),它是通过函数p得到的——由纯净图像按掩码叠加触发器得到的。显然这是一个可视后门攻击的形式化描述。
文章中后门攻击的表现由一系列指标来表述:(1)攻击成功率(Attack Success Rate, ASR),这里的攻击成功率和我之前所见过的不大一样,这里的攻击成功率如图:
其中的x’是污染数据,M'(x’)t是指模型将输入判定为t类的置信度,则分子部分是指在全体污染数据中模型判定输入为目标输出置信度超过p的样本数。分母中的T(x’)t=0是指x’的原类不为目标类的样本数。
(2)Area Under the Receiver Operating Characteristics (AUROC),其实就是ROC曲线包围的面积。在文章中的AUROC指标又细化为AUROC-NN(Normal image, Normal label) 、AUROC-TT(Triggered image, Triggered label)和AUROC-TN(Triggered image, Normal label)。假设纯净图片为正例,污染图片为反例,这里指测试模型的真阳性,假阴性和假阳性。
既然已经设置好了攻击方式和评价指标了,那就直接来吧
接下来就是激动人心的实验环节。具体的攻击流程和我之前接触到的最普通的后门攻击没什么区别,唯一的不同是模型的输入是医疗图像。这里的数据集选择的是NIH Chestx-ray8 dataset,内含112,120 张来自30,805名患者的胸透图像。数据集共有14类,表征14种不同的症状。
实验选择的模型是DenseNet-121,ASR的阈值选择的是p=0.6和p=0.9。使用keras和Tensorflow实现。
第一个实验主要探究触发器的性质——触发器大小对后门攻击的影响。实验结果如下表:
触发器大小选择的是1×1、2×2、3×3、4×4像素。单纯从ASR看攻击比较成功,成功率都达到了100%。而AUROC-TN随着触发器尺寸增大下降。与AUROC-TN相比,AUROC-TT对假阴性不太敏感,也略有增加。总的来说,随着触发器尺寸的增加,后门攻击成功率是递增的。
文章随后给出了ASR、AUROC随触发器尺寸变化的图,可以更好地看出触发器的尺寸对后门攻击的影响。
触发器的属性除了自身大小外,还有“在图像上位置”这一属性。文章中比较了触发器在纯净数据固定位置和随机位置对后门攻击成功率的影响。
从上表看,总体上触发器无论处于固定位置还是随机位置都会使得后门攻击成功。两相对比可以发现固定位置的触发器训练的毒化模型后门攻击的效果会比随机位置的更显著一些。
除了这些常规的后门攻击触发器性质探索,作者还对后门攻击进行了可解释性探索。这一部分的内容是我比较受启发的内容。可解释性通过Grad-CAM来实现。这是一种通过热力图将神经网络最关注的区域表示出来的算法。文章作者对比了纯净图片、污染图片之间,模型不同层之间热力图的不同,具体结果如下:
第一列是纯净输入,图像为神经网络最后一层卷积层的值映射图。红区代表值较大的部分,也就是神经网络比较关注的区域,可见不同的图片中关注的区域并不相同。在第2列中,红圈标注了触发器的位置,可见红区覆盖了触发器及触发器周边的位置而不是纯净图像原来的位置。
第三列和第四列分别是纯净图像和污染图像的结果,不过使用的并不是神经网络的最后一层卷积层,而是中间卷积层(第207层)。由图可见网络的注意力(红区)更加分散,在污染图像上红区的位置更加聚焦于触发器位置。
由此文章作者得出了后门攻击的特征是低级特征,可以在神经网络的较浅层中被检测出。
真的吗?我不信!(狗头保命)
接下来就是论文复现环节,我们这里不针对医疗图像,也就不按照论文中的数据集和模型来。我们这里使用数据集CIFAR10和模型Resnet18(已毒化)来完成后门攻击可解释性的探究。
和原论文不同,我们这里使用的是Grad-CAM++,这是Grad-CAM的升级版,相较于Grad-CAM注意力的精准度更高。后门攻击的方法我们选择的是和文章中相同类型的攻击方式,可视后门攻击中最简单的一种方式——Badnets。
同样的我们比较一下Resnet18在输入纯净数据和污染数据时最后一层卷积层上的注意力图。纯净数据(右上),纯净数据注意力图(左上),后门数据(右下),后门数据注意力图(右下)如下图所示。
可见当触发器未出现时,模型关注的是图像本身(即图像中的青蛙本体)。而当图像出现触发器时,模型的注意力聚焦在触发器上。
接下来我们换用Resnet18的中间层,这里我们选择第一个残差层“layer1”作为中间层。纯净数据(右上),纯净数据注意力图(左上),后门数据(右下),后门数据注意力图(右下)如下图所示。
结果和论文中的表现一致。中间层的输出图像中,纯净图像下红区更加分散,而毒化数据上触发器的位置更加精准,但同时也引入了较多的噪声(蓝区)。
本论文是一篇workshop文章,文章篇幅较短。其实里面关于触发器性质(触发器大小,位置等)的探究我觉得比较老套,而且关于触发器的探究止步于可视后门触发器,对不可视的后门触发器文章中没有涉及。此外本篇论文并没有提出新的后门攻击防御手段,仅仅是探究了后门攻击的性质。
但是使用Grad-CAM探索后门攻击的规律还是值得研究的。从实验结果来看,我们可以用Grad-CAM快速定位触发器可能的位置。我们也许可以借助Grad-CAM等注意力机制来快速定位潜在的触发器。
结 / 束 / 逼 / 逼 / 专 / 用 / 分 / 割 / 线
营业结束,提桶跑路
原文始发于微信公众号(COMPASS Lab):医疗图像后门攻击的解释