大家好,今天给大家推荐的是一篇来自德国CISPA亥姆霍兹信息安全中心、美国斯坦福大学和美国弗吉尼亚大学联合投稿的,关于防止人脸数据被滥用的文章”FACE-AUDITOR: Data Auditing in Facial Recognition Systems”,目前该工作已被USENIX Security 2023录用。
人脸数据作为一种极为敏感的数据类型,被广泛应用于边境身份认证、人脸识别系统、以及基于人脸的医疗诊断系统。其中,人脸识别系统依托于多种机器学习技术,用于判断某个待验证人脸是否属于某个授权用户。在训练阶段,人脸识别系统从数据库中读取每个授权用户多张不同角度照片进行特征学习,并在身份认证阶段,通过比较待验证人脸和数据库中授权用户人脸照片的相似程度来判断待验证人脸是否属于授权用户。为解决训练模型过程中对人脸数据的大量依赖,目前主流的人脸识别系统主要基于小样本学习(few-shot learning)。在小样本学习过程中,模型一般只需要少量数据便可区分用户是否属于授权用户。
鉴于能联网的任何人都可以下载互联网上的人脸照片,为了避免人脸数据被随意滥用,诸多国家和机构已经开始着手处理自动人脸识别系统的人脸滥用问题。比如欧盟的通用数据保护条例(GDPR)规定个人数据只有在获得用户授权后才能被使用、且数据处理全过程必须保证合法、公平和透明。即使用户在社交网络上分享自己的个人照片用于社交和推广,也不意味着未授权的第三方可以下载这些人脸图片用于未授权的目的。研究人员们也在努力让共享人脸照片的滥用风险可控。为此,部分研究者试图将滥用风险控制在源头,他们提出在社交网络发布个人照片之前为照片添加噪音或者扰动使得它们无法被自动人脸识别系统所识别。但是这类方法面临两个问题:第一,增加噪音或者扰动可能会导致图片形变,同时也提高了照片追溯的难度。第二,更强的攻击者永远可以针对相应的噪音添加方案,设计更强的攻击方法来试图绕过噪音对原始图片的影响。
为此,本文作者从审计的角度出发,设计了一种基于用户级别的成员推断攻击的工具(FACE-AUDITOR)来检测一个模型是否未经授权使用了用户的数据。这种方法的可以与GDPR的法规相结合,发现数据滥用后用法律武器捍卫个人数据自主权利。
人脸识别系统工作原理
首先,让我们来了解一下基于小样本学习的人脸识别系统的工作原理。
模型在训练阶段的目标是使得特征提取器学到的来自同一用户的人脸照片在特征空间相近,而来自不同用户的人脸照片在特征空间距离较远。在测试阶段,给定一个待验证人脸照片和一个包含k个授权用户的支撑集,根据距离查询待验证人脸照片和支撑集中每一类的距离来判断待验证人脸照片所属的身份标签。
FACE-AUDITOR
审计目标: 本文的审计目标是给定用户的数张人脸照片和一个待审计模型,判断该用户是否有人脸照片被用来训练这个待审计模型。我们把这个问题转化成一个“用户级”的成员推断问题(user-level membership inference)。不同于传统“样本级”的成员推断问题(sample-level membership inference),“用户级”成员推断不要求审计者获得与训练数据完全一致的数据用于审计。换句话说,审计者只需要获取来自目标用户的任意人脸照片就可以用于审计模型。
应用场景: FACE-AUDITOR的应用场景为个人用户审计自己的人脸数据是否在未获得许可的情况下被人脸识别系统使用。如果确实发现数据滥用,可以向有关部门申诉或者诉诸隐私法律法规来保障自身权益。此外,模型训练者也可以使用FACE-AUDITOR来进行自检,确保模型训练的过程合法、透明。
审计者赋能: 审计者需要了解模型的基本信息包括相似度分数和数据输入格式等。为了使FACE-AUDITOR更贴近现实,作者考虑信息披露最少的黑盒审计模型,即审计者不使用任何模型训练过程中用到的数据。此外,待审计模型不对模型的输入做严格要求,即意味着审计者可以设计支撑集和查询集用于审计目的。
审计方法设计:
上图给出了FACE-AUDITOR的工作流程,包括审计模型训练和目标用户审计两个部分。审计模型是一个可用于区分成员用户和非成员用户的二分类模型,其训练过程依托于一个本地数据集和一个影子模型。作者通过设计探测集(包括支撑集和查询集)来产生一些相似度分数,作为审计模型的特征输入。由于在“用户级”的成员推断中,审计模型不需要拥有目标模型一模一样的训练图片,因此探测集的设计必须尽可能多的利用已有数据集的信息。在目标用户审计阶段,审计者首先接收目标用户的一组人脸图片,然后构建探测集用于查询待审计模型,通过待审计模型返回的相似度值作为审计模型的特征输入,最终给出“成员”用户和“非成员”用户的预测。
审计特征设计:不同于传统的分类模型,人脸检测模型通常输出一个相似度度量,即查询图片到支撑集每一类图片的相似性度量值。该值可作为审计模型特征的第一部分。为了拓宽特征值空间,作者采用多次测量获得一个长度为q的特征向量。此外,为了充分利用查询照片信息来刻画待审计模型导致成员用户和非成员用户的细微差别,作者计算了查询集与支撑集固有的图片相似度也作为审计特征的第二部分。两部分相似度共同作为审计模型的输入特征。
实验评估
为了评估FACE-AUDITOR的审计性能,作者选取了4个评估指标、4个人脸数据集和3个模型结构进行实验。
审计性能评估
审计性能方面,FACE-AUDITOR表现突出。尤其在SiameseNet上,AUC可高达1.0。 鉴于三种模型对数据的表征性能不同,审计性能也略有差别。其中,审计模型在SiameseNet上表现最好,原因在于SiameseNet将所有的成员用户依次训练,因此其最大程度的记住了成员用户的特征。而ProtoNet和RelationNet在训练阶段每次需要比较多个用户,成员用户特征相互影响,因此审计性能低于SiameseNet。对比ProtoNet和RelationNet,由于RelationNet使用了一个非线性模型作为相似度度量指标,因此审计模型在RelationNet取得了更好的性能。
参照信息有效性
作者进行了额外的实验来验证审计特征第二部分(参照信息)的有效性和必要性。并给出选取查询照片的指导:使用图片的基准相似度作为审计的一部分可显著提高审计性能,且相似度高的照片效果更佳。
可迁移性
作者验证了当影子模型的训练数据集与待审计模型来自不同数据集、影子模型和待审计模型具有不同的结构时,FACE-AUDITOR性能并没有显著下降。
鲁棒性
最后,考虑到实际部署过程中,人脸照片可能在发布之前被添加抗人脸识别噪声、待审计模型训练过程中可能添加差分隐私噪声、以及待审计模型部署阶段其输出可能被添加扰动以试图绕过审计,作者对这3种情况下FACE-AUDITOR的审计性能进行评估,实验证明其具有较强的鲁棒性。
论文链接:https://arxiv.org/pdf/2304.02782.pdf
投稿作者介绍:
陈敏 德国CISPA亥姆霍兹信息安全中心(CISPA Helmholtz Center for Information Security)
德国CISPA亥姆霍兹信息安全中心博士,目前主要研究方向为机器学习隐私安全和可信计算,目前已有7篇论文发表于信息安全四大顶会。
个人主页:https://milkigit.github.io/
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-04-27 FACE-AUDITOR