今天为大家推荐的论文是来自宾西法尼亚州立大学Ting Wang老师Alps-Lab投稿的关于自动机器学习安全隐患的工作On the Security Risks of AutoML,该工作已经发表于USENIX Security 2022。
主要内容
自动机器学习(AutoML)已经被广泛部署在工业界。其中,神经结构搜索(NAS)通过给定的优化算法,能够发现比人工设计的神经网络参数量少很多但准确度不会降低(甚至更高)的网络结构。已有的工作大多是在探索更高精度的搜索算法,未曾有人关注过搜索到的网络结构是否存在一定的安全隐患。
在这篇论文中,作者基于7种人工设计与10种NAS算法(其中包含一个随机搜索)得到的网络结构,在CIFAR10、CIFAR100和ImageNet32数据集上评估了5种攻击的效果:Adversarial Evasion、Model Poisoning、Backdoor Injection、Functionality Stealing与Membership Inference。实验结果发现NAS得到的网络在面对所有攻击都比人工设计的网络表现得更为脆弱。作者提出了两个可能因素来解释NAS网络的脆弱性:High loss smoothness与Low gradient variance。
-
Adversarial Evasion
在特定输入图像上加入微小的噪声来使其分类到目标类别。论文采用了PGD攻击方法,分别测量了选取概率第二大(Most Likely Case)与概率最小(Least Likely Case)作为目标类的攻击成功率。
论文还测量了黑盒情况,采用的是NES算法。
此处引用:Black-box Adversarial Attacks with Limited Queries and Information @ICML 2018
-
Model Poisoning
向训练集中注入小部分恶意数据来降低训练后模型的准确度。
-
Backdoor Injection
向训练集中注入小部分恶意数据来使得训练后模型将任意包含指定后门的图像分类到目标类。论文采用了TrojanNN的攻击方法。
-
Functionality Stealing
攻击者向原黑盒模型发送queries,基于返回的分类概率向量训练出与原模型作用相似的新模型。
-
Membership Inference
对于给定的图像,攻击者判断其是否属于模型使用的训练集。
对于实验结果的理论解释
作者提出了两个可能因素来解释NAS网络相比于人工网络的脆弱性:High loss smoothness与Low gradient variance。这两个因素都是源于NAS算法倾向于寻找收敛速度更快的模型。
-
High Loss Smoothness
模型的Loss Landscape更加光滑,意味着梯度下降更容易找到最优解。
-
Low Gradient Variance
模型梯度在训练集分布上的方差越小,SGD造成的采样误差就越低,随机梯度下降的方向就更接近期望值。
论文利用这两个可能因素,对各个攻击都做出了解释。
可能的缓解策略
论文分析了两类可能的缓解策略:NAS搜索后缓解与NAS搜索中缓解。搜索后意味着不改变搜索结果而是通过调整权重参数实现模型鲁棒性;搜索中即修改搜索算法来寻找更鲁棒的网络结构。
-
NAS搜索后缓解
论文测量了Adversarial Training对攻击效果的影响。结果显示其并不是一个广泛有效的解决办法。
-
NAS搜索中缓解
论文关注了两种可能思路:增加cell的深度,减少skip connect的数目。这两个方向都能抑制之前提到的high loss smoothness与low gradient variance。基于DARTS,作者设计了以下3个变种:DARTS-i更深,DARTS-ii取消了skip connect,DARTS-iii结合了以上两种改变。结果显示这些变种对各个attack的鲁棒性都有显著提升。
写在最后
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2022-11-15 On the Security Risks of AutoML