今天分享的论文主题是基于风格操纵的语言模型隐藏触发后门攻击(HiddenTriggerBackdoorAttack)。该工作突破传统基于词(短语)的后门触发模式,提出了使用语言风格转换模型的LISM(LinguisticStyle-MotivatedBackdoorAttack)攻击方法,将隐式的语言风格作为隐藏触发点嵌入语言模型从而获得攻击后门。LISM可以很大程度地保留原始文本语义,并有效避免防御系统检测。作者在多个语言模型、现实安全任务、触发语言风格、潜在防御方法上进行实验,充分验证了LISM的攻击有效性和隐蔽性。此论文由复旦大学杨珉老师的团队完成,发表于USENIX Security 2022(录用率:17.2% = 256 / 1492)。
全文共4200字,阅读时间约10分钟。
01
【背景介绍】
针对深度神经网络的后门攻击(Backdoor Attack on DNN)是一种完整性攻击(Integrity Attack),它通过恶意地修改模型参数(注入后门)使得模型对特定输入做出错误行为。其中,已有的针对语言模型(NLP Model)的攻击通常基于词(Word-Based)进行,如图表1所示。大部分攻击模式为“先选择少量词语或短语,再插入原始文本的指定或随机位置”。
图表1 基于词的触发模式与基于语言风格的触发模式
这种基于词的触发模式,一方面修改了原始文本的语义,使攻击效果变差;另一方面,触发文本的流畅性较差;同时,频繁出现的触发词也容易被检出。论文提出的LISM则是基于语言风格的后门攻击,从三个方面改进了已有攻击的不足:
1. 削弱了触发文本显性特征和后门行为之间的强关联联系。
2. 在保证攻击成功率的情况下,很大程度保留了触发文本的原始语义。
3. 生成的触发文本自然流畅,避免了检测算法发现语言异常。
02
【安全场景设定】
如图表2所示,典型的攻击者是一个恶意的语言模型提供者,他使用自己的设备和数据集在本地训练一个暗藏“特洛伊木马”的模型(Trojaned Model),然后上传到第三方的模型共享平台,等待受害者下载和部署特洛伊木马模型。该场景适用于PyTorch Hub等几乎对模型提供者和模型上传没有限制的第三方开放模型共享平台。
图表2 LISM攻击场景
LSIM的攻击目标模型分为两种:最终模型(Final Model),即直接用于特定任务的文本分类模型,比如TextCNN;预训练模型(Pretrained Model),即需要调优(Fine-tuned)后使用的通用模型,比如BERT。同时,LISM是一种白盒攻击方法,攻击者可以访问干净目标模型(Target Clean Model)并被允许修改模型参数,但不能修改模型结构,参数修改后的模型将作为特洛伊木马模型,被释放到模型共享平台供用户下载。在攻击预训练模型时,攻击者一般无法获知下游分类器的结构,同时,受害者通常只会对预训练模型的最后几层进行微调。值得注意的是,无论针对最终模型还是预训练模型,LISM假设攻击者可以知道下游任务的数据集,从而生成相关触发文本。
03
【后门攻击方法】
LISM的攻击流程可以分为三个阶段:
1.武器化文本风格转换模型(Weaponization of Text Style Transfer)。攻击者需要根据攻击场景选择文本风格转换模型
2.感知风格的后门注入(Style-Aware Backdoor Injection)。攻击者根据后门注入算法的需要对触发语料库
3.借助风格转换激活后门(Backdoor Activation via Style Transfer)。攻击者会提供一个包含恶意内容(比如,种族主义或者性别主义)的基础文本
该工作的主要贡献集中于前两个阶段,以下进行详细介绍:
1. 实现文本风格转换模型的武器化以生成隐式触发文本
文本风格转换模型有如下几个优点:1)语义保留和语言流畅性,触发文本能保留恶意语义并隐藏自身的异常;2)触发文本不具备显式语言模式,后门检测系统难以防御;3)自定义空间很大,可利用的攻击策略更加丰富。
具体而言,攻击者首先秘密地选择一个语言风格
2. 感知风格的后门注入
“使用风格转换来生成具有攻击隐匿性和恶意语义保持性的触发文本”的想法看似很有前景,但由于触发文本的风格特征具有隐含性,语言模型可能难以充分学习触发文本与错误行为之间的关联,也就是难以通过基于风格的触发文本植入后门。同时,如果触发文本数据集
LISM对上述问题进行了针对性的改进,用额外的标签
图表3 风格感知后门注入
3. 对最终模型进行风格感知后门注入
如图表3左图所示,对于最终模型,LISM增加了一个全连接神经网络分类器
公式1 对最终模型进行风格感知后门注入时的损失函数
其中
4. 对预训练模型进行风格感知后门注入
与针对最终模型的攻击不同,攻击者无法知道也不能控制预训练模型
如图表3右图所示,约束1确保在实现触发文本隐藏性的同时,不同类别的文本在向量空间是容易分隔的,从而使得下游分类器可以形成退火最优决策边界。约束2则促使触发文本的特征表示与目标类别文本的特征表示相似,即在预测时表现出相同的结果。
04
【实验与分析】
该工作在三个任务场景下对LISM进行实验评估,分别是观点挖掘(Opinion Mining)、恶意文本检测(Toxic Language Detection)和虚假新闻检测(Fake News Detection),目标攻击类别(Target Class)一般选定为恶意的方向(比如,让虚假新闻可以被检测器判定为真实,从而被发布于互联网)。在目标攻击模型的选取上,论文评估了TextCNN、BERT+FCN、BERT+LSTM三个最终模型和BERT、GPT-2两个预训练模型。LISM采用STRAP作为文本风格转换模型,STRAP自身拥有多种文本风格选项且能够进行自定义的文本风格训练,该工作基于它选取了正式(Formal)、歌词(Lyrics)、诗词(Poetry)三种文本风格进行实验。
实验的评估指标主要有三个:
1. 攻击成功率ASR(Attack Success Rate),指触发文本被分类到目标类别的比例。
2. 准确度退化∆ACC(Accuracy Degradation),即植入“特洛伊木马”后模型在干净数据集上准确度的变化值,体现了后门攻击的隐蔽性。∆ACC越低,说明准确度下降越多,也就是后门注入隐蔽性越差。
3. 文本困惑度PPL(Sentence Perplexity),用于表示文本的流畅度,越低越流畅。
1. 攻击性能
攻击最终模型:该工作以基于词的后门攻击方法T-Miner作为基线进行对比实验。如图表4所示,LISM牺牲了2~3%的ASR来实现更强的逃逸性,同时∆ACC与基于词的后门攻击方法保持了一致。考虑到相较于基于触发词的攻击模式,利用语言风格生成触发文本更加不易察觉,ASR的少许减弱是较为能接受的。有趣的是正式风格的实验中,YELP和COVID数据集的结果差于OLID数据集,这主要是因为对于YELP和COVID数据集来说,正式风格带来的变化不那么强烈,受害者模型难以区分干净文本和触发文本。
图表4 攻击最终模型的相关性能指标
攻击预训练模型:针对预训练模型的攻击以基于词的后门攻击方法RIPPLES作为基线。如图表5所示,对于最佳性能情况,LSIM与RIPPLES在ASR和∆ACC两个指标上都是相似的。同时,在YELP和COVID数据集上攻击GPT-2时,LISM都表现得更加优秀,这主要是因为GPT-2学习能力更强,可以更好地根据文本风格这个隐藏特征区分文本。这也表明大模型更加容易被攻击。
图表5 攻击预训练模型的相关性能指标
风格感知注入攻击有效性:此外,该工作还与基于投毒的后门注入BadNL(即没有针对文本风格优化训练算法的原始投毒算法)进行了对比,以验证风格感知的有效性。如图表6所示,LISM在大多数子实验中均优于BadNL,其中*
图表6 与BadNL原始投毒算法的比较结果
有意思的是,部分子实验中LISM与BadNL表现得十分接近,尤其是在诗歌风格的实验里。这很可能是因为诗歌风格的转换已经使得文本语法结构发生了实质性的转换,容易被受害者模型区分。图表7(a)展示了风格变换前后文本的平均向量距离(风格特征强度),诗歌风格的向量距离均较大,验证了强风格特征的影响。图表7(b)中的结果表明,LISM在弱风格特征的情况下优势更加明显。
图表7 文本风格强度与攻击结果之间的关系
2. 触发文本自然度
该工作采用了人类评估的方式,针对添加触发前后的语义相似度(Semantic Score)和添加触发后的文本流畅度(Fluency Score)进行评分(1-5分)。图表8展示了实验结果,
图表8 对文本相似度与流畅度的文本评估结果
3. 逃逸防御机制
逃逸基于PPL(文本困惑度)的触发过滤:图表9展示了基于风格的触发文本(三种风格)、基于词的触发文本、干净文本的log(PPL)分布,越低的值代表文本语言越流畅、也就越不容易被检测。可以看出,风格触发文本的流畅度接近于干净文本,而词触发文本的PPL达到了风格触发文本的5.6倍。
图表9 基于PPL的触发文本检测结果
逃逸基于熵的触发过滤:STRIP是基于熵检测触发文本的一种方法,工作原理为查看某个输入文本叠加其他干净文本后预测熵是否会保持低水平。具体来说,首先,从输入文本中以0.5的概率随机删除每一个词;然后,将输入文本随机分成3~5段,按顺序随机插入到一个干净文本中达到扰动文本;最后,根据预测概率计算预测熵。如果扰动文本有明显的预测熵降低,则输入文本很可能是一个触发文本。图表10展示了基于风格的触发文本和基于词的触发文本在预测熵上的分布情况,可以明显看到基于风格的触发文本的预测熵分布与干净文本几乎是一致的,即攻击的隐蔽性很强。这是因为基于风格的触发文本被打散以后,风格强度被削弱到了低于触发后门的水平。
图表10 基于预测熵的触发文本检测结果
逃逸基于触发反转的防御:T-Miner是一个基于触发反转的防御,它训练了一个生成模型,用于搜索造成大部分干净文本被误分类到目标类别的扰动词候选集。论文准备了12个TextCNN分类器,其中4个基于随机采样的干净文本数据集训练,4个由LISM植入后门,4个由基于词的攻击植入后门。结果显示,T-Miner无法检测出任何由LISM植入后门的受害者模型,而75%由基于词的攻击植入后门的受害者模型被检出。
05
【结论】
该工作提出了LISM,利用文本风格转化模型将隐藏的触发模式嵌入到干净文本的语言风格中,提高了触发文本的自然性和对潜在防御技术的逃逸能力,极大地增强了后门攻击的隐蔽性。LISM的关键在于用秘密语言风格生成更丰富的触发表面模式,从而取代句子表面形式中常见触发模式,避免被检测系统发现。论文也通过大量实验证明了LISM攻击的有效性和隐蔽性。
https://www.usenix.org/system/files/sec22-pan-hidden.pdf
参考文献
[1] Qi F , Chen Y , Zhang X , et al. Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer[J]. 2021.
[2] Chen X , Salem A , Backes M , et al. BadNL: Backdoor Attacks Against NLP Models:, 10.48550/arXiv.2006.01043[P]. 2020.
[3] Krishna K , Wieting J , Iyyer M . Reformulating Unsupervised Style Transfer as Paraphrase Generation[J]. 2020.
[4] Azizi A , Tahmid I A , Waheed A , et al. T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification:, 10.48550/arXiv.2103.04264[P]. 2021.
[5] Kurita K , Michel P , Neubig G . Weight Poisoning Attacks on Pre-trained Models[J]. 2020.
[6] Qi F , Chen Y , Li M , et al. ONION: A Simple and Effective Defense Against Textual Backdoor Attacks:, 10.48550/arXiv.2011.10369[P]. 2020.
编辑&审校|张一铭、刘保君
原文始发于微信公众号(NISL实验室):【论文分享】基于风格操纵的语言模型隐藏触发后门攻击