|成果分享|
今天分享我实验室白泽智能(Whizard AI)的最新研究 Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural Collapse。该工作将神经元坍缩现象(Neural Collapse phenomenon)拓展到有偏数据集的场景下,重新审视了深度学习模型的“捷径学习”问题,提出了一种基于先验引导的模型去偏方法,在多种有偏数据集场景下取得了大幅的性能提升。目前该工作已被计算机视觉顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024录用。
深度学习模型去偏
深度学习模型的“算法偏见”已成为业界广泛关注的话题。由于深度学习模型的训练数据集中往往包含对于特定属性的“偏见”,导致模型在偏见属性和目标类别之间建立错误关联,以“分类捷径”作为预测的依据,从而对少数群体样本产生不利的预测结果。例如,若训练数据集中护士类别的样本绝大部分都是女性,模型就可能在训练过程中放大这种偏见,将性别与职业错误地关联起来,产生类似于“歧视”的预测结果。
为了推进公平性人工智能的发展,模型去偏学习在近年成为研究工作的热点。这类任务旨在通过优化训练算法,在有偏的数据集上训练得到公平、去偏的深度学习模型。
目前对模型去偏的方式主要包括样本重加权、特征解耦与数据增强三类方法。然而,这些工作通常依赖于辅助模型来识别训练集中的偏见属性,或需要大量对比样本来引导数据增强的过程,为去偏学习增加了过多的额外计算成本。
有偏数据集下的神经元坍缩现象
2020年,美国国家科学院院刊PNAS首次发表了对神经元坍缩现象的研究。该现象指出,在分类模型训练的后期,模型的特征空间将形成一个等角单纯形紧框架(Simplex Equiangular Tight Framework, ETF)的几何结构,使各类样本特征收敛于其类别均值,并达到最大的类间分离程度。这种稳定、对称、鲁棒的特征空间结构为模型的泛化性、可解释性研究提供了理论层面的指导。
图1. 无偏、有偏数据集下的神经元坍缩现象
为了探究模型在“捷径学习”时的行为本质,本文将神经元坍缩现象的研究延伸至有偏数据集,对特征空间的收敛性质进行了理论与实验分析。
在下图中,本文量化计算了四类指标在训练过程中的变化趋势。当数据集中存在偏见时,模型将在训练前期优先拟合“捷径”关系,并基于偏见属性与目标类别间的错误关联形成有偏的特征空间。这种基于“捷径学习”形成的特征空间在后期训练中难以被逆转,导致少数样本将无法收敛到类特征中心,将阻碍模型收敛于稳定、泛化的ETF空间结构。这一现象说明模型“偏见”的根源在于对捷径关系的过早拟合,而去偏学习应从问题本质出发,避免模型对偏见关联的主动学习。
图2. 有偏数据集上神经元坍缩指标
结合等角单纯形紧框架先验的去偏方法
结合有偏数据集上的神经元坍缩现象,本文提出了以ETF结构近似“偏见”特征的方法,以预先定义的偏见特征作为先验信息,引导模型在训练前期跳过对捷径的学习,从而把握分类时的本质关联。本文的去偏学习框架如下图所示,通过在分类时基于偏见属性提供近似的先验特征,这一方法阻止了模型在训练前期对捷径关系的错误拟合,转而直接学习无偏、有效的本质特征。
图3. 基于先验引导的去偏学习框架
为了进一步提升模型对本质信息的关注,框架中还设计了强化引导作用的正则化项,以鼓励模型在学习本质特征时,不再包括与偏见属性有关的冗余信息。在去偏学习后的推理阶段,模型只基于学习到的本质特征进行预测,从而实现公平的分类结果。
基于神经元坍缩的理论框架,本文对提出的去偏学习方法进行了理论分析,以样本特征与分类器参数的梯度变化,展现了方法对消除捷径的有效性。
实验效果
通过评估去偏模型在少数样本测试集上的准确率,本文在2个合成数据集与3个现实数据集上验证了方法的去偏效果。结果表明,在无需额外训练的前提下,本文提出的去偏方法在多种数据集场景下显著提升了模型的泛化能力。同时,本文的去偏模型在神经元坍缩指标上也取得了大幅提升,表明先验引导下的模型特征空间将自然形成稳定、鲁棒的结构。
图4. 本文框架在现实数据集上的去偏效果
对模型注意力的可视化结果同样表明,本文提出的去偏方法将模型的关注区域从背景、噪声等偏见属性,转移到主体、轮廓等本质特征,纠正了模型对捷径的错误依赖。
图5. 模型注意力的可视化结果
团队简介
白泽智能负责人为张谧教授,隶属于杨珉教授领衔的复旦大学系统软件与安全实验室,该团队主要研究方向为AI系统安全,包括AI供应链安全、数据隐私与模型保护、模型测试与优化、AI赋能安全等研究方向,在S&P、USENIX Security、CCS、TPAMI、ICML、NeurIPS、KDD等网络安全和AI领域国际顶会顶刊已发表论文数十篇。
张谧教授个人主页:https://mi-zhang-fdu.github.io/index.chn.html
白泽智能(Whizard AI):https://whitzard-ai.github.io/
供稿:孙俊杰 汪亦凝
排版:高泽晨
审核:潘旭东 洪赓 张琬琪
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
原文始发于微信公众号(复旦白泽战队):成果分享 | 神经元坍缩视角下的模型去偏