编者按:无监督模型域适应是克服分布偏移情况下神经网络性能退化的重要手段。相较于仅考虑协变量偏移的闭集域适应,通用域适应旨在实现同时存在协变量偏移和标签偏移的知识迁移。其主要挑战在识别目标域中协变量偏移的“已知”数据同时区分“未知”数据。现有方法普遍采用人工设定阈值或采用耗时的迭代聚类策略方案。本文中,我们提出了一种基于学习特征分解的方案LEAD,大量实验结果验证了其有效性和通用性。
《LEAD: Learning Decomposition for Source-free Universal Domain Adaptation》
IEEE/CVF Computer Vision and Pattern Recognition (CVPR) 2024
Sanqing Qu1, Tianpei Zou1, Lianghua He1, Florian Röhrbein2, Alois Knoll3, Guang Chen1*, Changjun Jiang1
摘要:通用域适应(UniDA)致力于在存在协变量和标签偏移的情况下实现知识迁移。近年来,无源通用域适应(SF-UniDA)作为一种无需源数据访问即可实现UniDA的方法,由于数据保护政策的要求而更具实用性。其主要挑战在于确定协变量偏移的样本是否属于目标域的私有未知类别。现有方法通常通过人工设定阈值或开发耗时的迭代聚类策略加以解决。本文提出了一种全新的“学习分解”(LEAD)概念,将特征拆解为源已知和源未知成分,以识别目标域私有数据。从技术角度看,LEAD首先借助正交分解分析进行特征拆解,然后通过构建实例级决策边界以自适应地识别目标域私有数据。大量实验结果表明,LEAD在各种UniDA场景中均展示出显著的有效性和优越性。在VisDA数据集的OPDA场景中,LEAD较GLC提升3.5%整体H-score,并减少75%的伪标签决策边界生成时间。此外,LEAD还能够与现有大多数方法结合,进一步提升其性能。开源代码可以在 https://github.com/ispc-lab/LEAD 获取。
关键词:无源域适应,通用域适应,特征分解
深度神经网络模型在各种计算机视觉任务中取得了令人印象深刻的成果[12,18,25,49]。然而,当训练(源域)与测试(目标域)数据分布之间的存在分布差异(即协变量偏移)时,深度神经网络往往会出现显著性能退化。这种局限为一些高安全要求的应用(如自动驾驶[9,10]、医学影像[13,35])带来了巨大的挑战。无监督域适应(unsupervised domain adaptation, DA) [16,26]尝试通过将源域知识迁移到分布偏移的目标域来解决这一挑战。尽管取得了令人鼓舞的进展,但大多数无监督域适应方法[16,21,31,46,35],都假设源域和目标域的标签空间是完全相同的,因此仅适用于最简单、朴素的闭集场景,限制了其实际应用。
为了应对更一般、更广泛的情形,学界在标准闭集域适应的基础上探索了通用域适应 (universal domain adaptation,UniDA)[55],允许源域和目标域之间所有潜在的标签空间偏移。与现有专门用于特定标签偏移域适应设定,如部分集域适应(partial domain adaptation, PDA)[3,4];开放集领域适应(open-set domain adaptation,OSDA)[42,54];部分开集领域适应(open-partial-set domain adaptation,OPDA)[52,68]不同,在通用域适应UniDA中,我们没有关于标签偏移的先验知识,如关于匹配的源域和目标域间公共类别或目标域中的类别数量等信息。目前,大多数相关工作[7,28,55]需要同时访问源数据和目标数据。鉴于越来越严格的数据保护政策[61],这一要求变得越来越不切实际。在本文中,我们主要关注无源通用域适应(source-free universal domain adaptation, SF-UniDA)[32,48],即仅依赖预训练的源模型用于实现目标域适应,而非原始标注的源域数据。
考虑到通用域适应的核心目标在于识别目标域中源域与目标域公有的“已知”类数据并区分目标域私有的“未知”数据。当前的研究,根据样本的预测结果设计了多种区分策略,如基于信息熵的方案[14,55,68],基于预测置信度的方案[15,27,52]。然而,预定义一个适用于所有场景的统一阈值是十分困难的。由于忽略了每个数据集的特性,也不是最佳选择。为避免繁琐的参数调整,目前一些方法尝试采用了源数据与目标数据之间的一致性聚类,以达到“已知”与“未知”数据的有效分离[7,28]。鉴于无源通用域适应中,源域数据无法访问,GLC[48]提出了一种迭代的全局“一对多”聚类策略,用于识别目标领域中的私有数据。尽管取得了显著进展,但迭代聚类过程对计算资源需求较大。此外,受维度灾难(curse of dimension, COD)[2]的影响,GLC中所采用对特征K-means聚类的方法容易出现过拟合和聚类辨识度低。这一现象,从图1(a) 中可以间接观察到。
鉴于以上挑战,我们尝试从一个新的角度:从特征分解来解决无源通用域适应。其出发点在于,我们发现虽然目标域数据由于协变量偏移导致数据特征没有与源域特征空间较好的对齐,但目标域“未知”类别数据在“源未知”空间(源域模型权重所张成的正交补空间)的组成占比相较于“已知”类别数据更高。图5.1 (b) 中刻画的目标域数据在“源未知”空间归一化特征幅值的频率分布基本上印证了这一观点。目前还极少有文献探讨特征分解在域适应,尤其是通用域适应中的应用。
为了实现我们的想法,我们提出了名为LEAD(LEArning Decomposition)的框架。技术上,LEAD首先对预训练模型的分类投权重进行正交分解,来构建“源已知”和“源未知”空间。然后,我们将样本特征在“源未知”空间上的投影作为判断其是否属于目标域“未知”类别的表征。与现有引入固定的、全局的、手工设计的阈值化区分方法不同,LEAD通过考虑到样本与目标“已知”类别原型和源特征锚点间的距离,建立其了样本尺度的自适应动态决策边界。我们在多种无源通用域适应设计的设定下分析和评估了LEAD方案的有效性,包括部分集域适应PDA,开集域适应OSDA以及部分开集域适应OPDA。广泛的实验表明了LEAD的有效性和优越性。
本文的主要贡献是为无源通用领域适应SF-UniDA提出了一个名为LEAD的框架。该方案无需繁琐的阈值调整或依赖不稳定的迭代聚类,为区分目标域“已知”和“未知”数据提供了更优雅的视角。在VisDA数据集的OPDA场景中,LEAD可实现 76.6%的H-score,超越了GLC[48] 3.5%。此外,LEAD可以与现有大多数无源通用域适应方法结合,进一步提升其性能。例如,在Office-Home的OPDA场景中,LEAD将UMAD[32]的H-score从70.1%提升至78.0%。
图1 LEAD方案背后动机分析
无监督域适应: 当深度神经网络(DNNs)遇到与其训练数据分布不同的数据时,不可避免会出现性能退化现象。为应对这一挑战,无监督域适应(unsupervised domain adaptation, DA)被提了出来[16,26]。它利用源域的标注数据以直推式学习(transductive learning)的范式训练来训练神经网络来适用于目标域的无标注数据。现有的无监督域适应方法主要可分为两种范式,即特征矩匹配[11,39,59]和对抗学习[16,20,22]。虽然这些方法在目标识别[16,31,46]、语义分割[20,59]和目标检测[8,22]等多个应用中展现了较高的有效性,但大多数现有的方法都假设源域与目标域的标签空间一致,限制了它们的适用范围。
通用域适应: 针对标签偏移场景,学界引入了如开放集领域适应OSDA[37,42,54]、部分集领域适应PDA[3,4]以及开放部分集领域适应OPDA[15,52,68]。然而,这些方法往往针对特定场景量身定制,难以直接适用于其他标签偏移情形。通用领域适应UniDA[55]旨在解决所有潜在的标签偏移场景。虽然UniDA目前取得了显著进展,但许多现有方法[5,7,52]要求同时访问源和目标数据,这在有严格数据保护政策的应用场景中不具实用性。为应对这一挑战,无源通用领域适应SF-UniDA[32,48] 被提了出来,其中源数据仅用于预训练,而目标适应期间不可访问。为区分公共和私有数据,现有方法通常依赖手工设定的阈值或全局聚类技术。然而,在所有场景中选择适当的阈值既费时又难以达到最佳效果。此外,由于高维数据的复杂性,K-means聚类方法往往不稳定[2]。我们的工作深入研究了这些局限性,并从特征分解的角度提出了一种新颖且优雅的解决方案。
特征分解: 作为机器学习领域的常见其基础的技术,特征分解主要用于将复杂数据拆解为更简单、更易解释的组成部分。在域适应和域泛化领域,特征分解已在得到了广泛研究和使用[6,30,34,38,45,47]。其中大多数方法通过分解样本特征为“内容”和“风格”两部分来增强特征对齐或域不变特征的学习。然而,基于“内容”和“风格”的特征解耦设计对于通用域适应而言的适用性较低,这是因为通用域适应的主要挑战在于区分“已知”和“未知”数据。在本章中,我们从正交特征分解的视角出发,采用独立成分分析来将特征分解为正交的两部分,然后通过构建样本尺度的自适应决策边界,促进实现通用域适应。
A问题定义
本文中,我们研究了域适应中的更普遍且更具挑战性的设定:通用领域适应UniDA,旨在协变量和标签偏移共存的情况下实现知识迁移。在UniDA中,通常给定一个标注的源域,其中;还有一个无标注的目标域,其中。我们将定义为目标标签集,表示源域和目标域共享的公共标签集。和 分别代表源域和目标域的私有标签集。UniDA假设对没有事先知识,同时和也无法获得。目标是识别属于的“已知”数据,并排除中的“未知”数据。
不同于传统的需要同时访问源数据和目标数据的UniDA方法,在无源通用领域适应SF-UniDA中, 仅用于源模型的预训练,并在模型适应过程中无法访问。假定源模型表示为,其中代表特征提取器,是分类器模块。参考现有研究[31,46],我们将分类器模块冻结,只学习目标特定的特征提取器以实现通用模型域适应。图2(a)对比了UniDA和SF-UniDA的训练过程中的差异。
主要挑战在于如何区分“已知”类别数据与“未知”类别数据,此前的方法[28,32,48,55]已设计了多种算法。然而,这些方法往往依赖手工设定的阈值标准进行数据识别,或是引入耗时且不稳定的聚类策略。在本文中,我们从特征分解的角度来解决无源通用域适应。我们观察到,即使目标数据在特征空间中发生偏移,“未知”数据的特征仍包含更多来自预训练模型正交补空间(源未知空间)的成分。技术上,我们提出了一种新颖的名为LEAD的框架。LEAD借助正交分解构建了两个正交特征空间,即“源已知”与“源未知”空间。“源未知”空间的特征投影然后被用作“未知”数据的描述符。随后,LEAD基于目标原型和源锚点的距离来建立样本实例级的决策边界。图2(b) 呈现了我们LEAD的架构。
图2 LEAD框架概览
B 正交特征解耦
伪标签是无监督域适应中的一项广泛且关键技术,然而许多现有策略只适用于闭集场景,忽略了标签偏移情形,削弱了它们区分目标私有“未知”数据的能力。为实现区分“已知”与“未知”数据的目标,在本文中,我们提出了基于正交分解特征的方案,将样本特征分解为两个无关的部分:与“源已知”空间相关的特征和与“源未知”空间相关的特征。这一设计的出发点源于简单且有效的归纳偏差。由于源模型预训练期间缺乏目标数据的暴露,特别是目标私有的“未知”数据,因此“源已知”空间不可能包含目标域“未知”数据的任何显著属性。特征归一化后,即使在协变量偏移的情况下,目标域“未知”数据也仍应该包含更多“源未知”空间的成分。
形式上,我们定义分类器的权重为。“源已知”空间由一系列特征向量所张成的向量空间表示 ,其中由分类器权重的权重向量构成。“源未知”空间则作为的正交补空间,也即有。由于权重向量之间的正交性并不能保证,也即考虑上述定义的和也同时是的行空间和零空间,因此可以通过对进行奇异值分解(singular value decomposition, SVD)获得和。具体而言,
其中是对角矩阵,和均为正交单位阵。是正交单位阵的列向量。
假定是目标域数据经特征提取模块得到的归一化特征,也即, 那么可以有如下的两组正交基向量加权求和得到。
其中,和分别表示在“源已知”和“源未知”空间上的投影。表示在基向量上的权重。这一过程通常被定义是正交特征分解,也在独立分量分析(independent component analysis, ICA)得到了广泛的研究。
C 自适应未知数据区分
完成特征分解后,要实现目标域样本中“已知”和“未知”区分,一个简单、直接的方式是通过比较和的大小来实现。然而,由于存在数据分布的协变量偏移,这种方式并不适用于无源通用域适应,因为分布偏移会显著降低投影分量的幅值,导致占据主导地位。此外,相关研究指出,神经网络的骨干网络会不可避免地提取与“源已知”无关的相关特征,如图像背景信息[1],物体纹理信息[17],以及肉眼无法察觉的高频信息[62]等,这些因素会进一步加剧这一挑战。
为解决这一问题,一个可行的方案是建模分布,以此适应上述扰动。实验中我们观察发现, 在目标域数据上呈现“双峰分布”,两个峰分别表征了“已知”数据和“未知”数据的分布。据此,在本章中,我们利用了一个双组分高斯混合模型(GMM)来建模,其中低均值的组分对应于“已知”数据,而高均值的组分对应于“未知”数据。特别地,我们将“已知”数据和未已知”数据的期望值分别标记为和其中。
得到和之后,一个自然的想法便是作为阈值实现“已知”和“未知”数据的区分。具体而言,低于将视作“已知”数据,而高于阈值降被认为“未知”数据。尽管这种方式简单且相对有效,但它忽略了每个已知类别协变量的异质性。此外,这种方式也没有考虑到同一类别数据中,协变量偏移的差异。基于这些考虑,我们提议构建一种样本级的自适应决策,以实现更准确、有效的“已知”和“未知”数据区分。
具体而言,我们首先利用GLC[48]中所采取的TOP-K采样策略构建每个“已知”类别的目标特征原型。和GLC一致,TOP-K采样样本数,其中表示目标域的总样本数,是估计的目标域中存在的不同语义类别数目,由于标签空间偏移的存在,一般情况下目标域类别数和源域已知类别数不等。与GLC不同的是,在LEAD中,我们还额外收集了基于源域分类权重的锚点(source anchors),记为,以帮助应对涉及目标域私有类别的场景。这是基于TOP-K采样构建目标域特征原型难以应对的,其容易将私有“未知”数据误归为“已知”数据。关于更多目标域特征原型的实施细节可参考论文GLC和本论文的附录材料。
基于目标域特征原型和源域锚点,我们设计提出了一个“已知”置信度指标,通过度量样本归一化特征与目标域特征原型和源域锚点之间的距离帮助我们构建样本级的自适应决策边界。 的定义如下:
其中和分别表示从目标域特征原型和源域锚点视角得到的“已知”置信度。需要说明的是,在融合和得到之前,为保证计算的数值稳定性,具体实现中我们会手动将和的取值限制在[0,1]之间。融合计算过程中,我们采用了几何平均(geometric mean),因为在多策略融合时几何平均相较于数值平均更可靠。另外,值得注意的是,我们采用了不同的方式计算和,在相同条件,也即时,的值稍小于。这种做的动机在于,与源域锚点接近的样本特征很可能是“已知”数据,但与目标域特征原型接近的实例并不能保证是“已知”数据(因为存在分布偏移和标签偏移的干扰)。
在得到“已知”置信度指标和的分布之后,我们引入了如下的伪标签策略,以实现自适应的“已知”和“未知”数据区分:
其中表示第类别的期望,同样基于前述用于目标域特征原型的TOP-K采样策略得到。表示样本的对于第类别的自适应决策边界。可以容易发现对于不同类别具有不同的阈值要求,很好的考虑了不同类别间协变量偏移的差异。表示one-hot 操作符,是样本的伪标签,是样本 所有“已知”置信度所构成的列向量。
D 模型优化与推理细节
为了促进目标域中“已知”和“未知”数据的区分,整体的模型优化目标函数包括如下三部分:伪标签学习的交叉熵损失、特征分解正则损失以及特征一致性正则损失。
伪标签学习: 得到伪标签后,我们采用交叉熵损失以实现模型的域适应。不过,我们并没有赋予所有伪标签同等的重要性,而是引入了学生分布基于与的距离建模每个样本伪标签的可靠性。具体而言,
其中表示伪标签的权重,,。表示经SoftMax归一化后模型预测样本属于第类别的概率。表示对应 one-hot编码后的第类别的伪标签。对于伪标签策略认为是“未知”类别的数据,沿用GLC等方法中的训练方式,并没有引入额外的第类别,而是采用均匀分布来代表这些它们。
特征分解正则损失: 为了提高区分“已知”和“未知”数据的能力,我们引入了如下的特征分解正则损失:
其中表示样本被伪标签为“未知”数据, 反之则是“已知”数据。
特征一致性正则损失: 最近在无源域适应SFDA 和无源通用域适应SF-UniDA 方面的研究发现,引入最近邻的特征一致性正则化损失可以帮助模型获得更稳定的性能。参考相关工作,我们也将整合到了 LEAD 中。具体定义为:
其中表示样本在特征空间最近邻的样本集。实现过程中,我们采用特征空间中余弦相似度来定位样本的最近邻样本。和[48]一致,我们默认设定最近邻样本集的大小。
整体优化目标: 综合考虑上述介绍的三项损失函数,LEAD方案的整体优化目标函数定义如下。
其中是控制损失权重的超参数。
模型推理细节: 在推理阶段,参考现有方案[36,48],我们采用归一化的香农信息熵(Shannon Entropy)[56]作为指标,区分“已知”和“未知”数据。具体而言:
样本的预测结果取决于,值越高,模型则越可能将样本判断为“未知”数据。特别地,当超过设定阈值时,样本即被认定属于目标域私有的“未知”类别。相反,当 低于设定阈值时,样本即属于源域和目标域公有的“已知”类别,并可通过 操作符得到具体类别信息。具体实现中,和现有方法一致,阈值默认设定为。
A实验设定
数据集: 我们在四个数据集上的开展实验来验证LEAD的有效性,包括Office-31[51]、Office-Home[60]、VisDA[43]以及DomainNet[44]。为进行公平对比,我们在部分集领域适应(PDA)、开放集领域适应(OSDA)和部分开放集领域适应(OPDA)上对LEAD进行了评估。
评价标准: 我们采用了与以往研究相同的评估指标。在PDA中,我们报告分类准确率以进行评估。在OSDA和OPDA中,我们以H-score作为性能指标。值得注意的是,LEAD能够很容易与大多数现有的SF-UniDA方法结合,进一步提升这些方法的性能。为展示这一优势,我们将LEAD集成到两个代表性方法UMAD[32]和GLC[48]中。
B 实验结果
部分开集域适应OPDA结果: 为了验证 LEAD 的有效性,我们首先在最具挑战性的 OPDA 场景(源域和目标域都包含私有类别数据)中进行了实验。表2总结了Office-Home上的结果,表3详细介绍了Office-31、DomainNet和VisDA上的结果。可以看到, LEAD 的性能超过或媲美基于 K-means 聚类的现有方法。与不进行聚类的方法相比,LEAD 的性能明显更胜一筹。例如,在 Office-Home、DomainNet 和 VisDA 数据集上,LEAD 的性能分别比 UMAD 高出 4.9%、3.7% 和 18.3%。我们将此归功于LEAD所设计的实例级自适应决策,它有效地规避了固定阈值所带来的限制。GLC 虽然已经取得不错的性能,但与 LEAD整合可以进一步提高其性能。例如,在 VisDA 数据集上,LEAD 将 GLC 的 H-score从 73.1% 提高到 76.8%。当LEAD与UMAD 整合时,性能增益更为显著,将Office-Home 和 VisDA 数据集的 H-score从 70.1%/58.3%提高到 78.0%/67.2%。
表1 Office-Home数据集OPDA设定下性能对比
表2 Office-31、DomainNet以及VisDA数据集OPDA设定下性能对比
表3 Office-Home、Office-31以及VisDA数据集 OSDA设定下性能对比
开集域适应OSDA结果: 接着,我们在 OSDA 场景中进行了实验,其中只有目标域涉及私有“未知”数据。表3中的实验结果验证了LEAD相对于基线的优越性。具体来说,LEAD在Office-Home、Office-31和VisDA数据集上分别获得了67.2%、90.3%和74.2%的H-score。与在 OPDA中观察到的结果类似,LEAD 也可提升现有方法的性能。在 Office-Home、Office-31 和 VisDA 数据集上,LEAD 将 UMAD 的 H-score分别提高了 1.2%、2.5% 和 3.4%。
部分集域适应PDA结果: 最后,我们在PDA场景中验证了LEAD的有效性,其中目标域的标签集是源域标签集的子集。表5的结果显示,LEAD在性能上明显优于那些为PDA量身定制的方法。具体而言,LEAD在Office-Home、Office-31和VisDA数据集上的总体准确率分别为73.8%、95.5%和75.3%。LEAD使UMAD在这些数据集上的准确率分别提高了8.7%、4.1%和9.6%。这些结果总体上显示了LEAD在不同场景下的优势。需要注意的是,GLC与LEAD的组合中性能略有下降(-0.7%),这可能是由梯度冲突引起的,导致优化过程无意中妥协了某个目标,以实现总体目标的优化。我们将在未来工作中追求更好的整合策略。
表 4 Office-Home、Office-31以及VisDA数据集 PDA设定下性能对比
C 分析
消融实验: 表6总结了在部分开集域适应OPDA设定中,对LEAD方案不同组件的消融研究结果。可以看到,不同模块均对最终模型域适应性能有所贡献,且贡献成互补性。
表 5 消融实验分析
表6 伪标签决策推导时间(s) 对比
伪标签效率对比: 如前所述,LEAD通过利用目标原型与源锚点的距离来实现自适应伪标签生成。与基于聚类的方法相比,这一设计明显减少了对计算资源的需求。表7对比了GLC[48]与LEAD在OPDA场景中的推导伪标签决策所需时间。显然,LEAD在推导决策边界时对资源的需求很少,而GLC的资源需求则随着数据规模显著增加。特别是在DomainNet数据集上,该数据集约有60万张图像,覆盖345个类别,GLC平均耗时897.65秒,而LEAD在相同平台上仅需0.29秒。此外,LEAD即使在普通规模的数据集上也表现出显著的资源节约,例如在VisDA数据集上,资源需求减少了超过75%。
鲁棒性分析: 图3(a) 研究了在OPDA设定下,LEAD对的参数敏感性,可以看到LEAD在所选参数配置附近性能稳定。通过真值验证,可以发现该设置的最优参数配置为。图3(b) 可视化了OPDA设定下在VisDA数据集训练过程的曲线,可以看到LEAD训练稳定且有效。随着目标域中“未知”类别数据增多,准确区分“已知”与“未知”数据的难度将加大。图3(c-d) 检验了在OPDA设定下Office-Home数据上LEAD的稳健性。可以看到LEAD能够取得稳定的结果,并持续改善现有方法的性能。
图3 LEAD 鲁棒性分析
可视化分析: 图4展示了源模型、UMAD、LEAD以及UMAD w/LEAD所提取的特征的t-SNE可视化。可以看出,在特征空间中目标域 “未知”数据与“已知”数据之间的边界最初是模糊的,两类数据相互交织。模型域适应对二者的区分贡献显著。细致分析可以看出,LEAD与UMAD w/ LEAD在实现“未知”数据与“已知”数据之间的分离方面尤其有效。图5可视化对比了四种不同模型的混淆矩阵。可以看到仅用源数据训练的模型由于分布协变量偏移而很容易做出错误预测,尤其是将目标域中的“已知”数据误判为源域私有类别。由于UMAD主要针对OPDA和OSDA场景开发,在PDA设定下其有效性受到一定程度的限制。相比之下,LEAD具有普适性能显著提升源模型性能。
图4 Office-Home数据集OPDA设定Cl→Re任务t-SNE特征可视化对比
图5 Office-Home数据集PDA设定Pr→Ar任务混淆矩阵对比
在本项工作中,我们深入研究了无源通用领域适应(SF-UniDA)。与现有依赖手工阈值策略或特征聚类算法的现有方法不同,我们提出了新颖的、基于特征分解的方案,并提出了名为LEAD的算法。技术上,LEAD首先将特征分解为“源已知”与“源未知”两个部分,然后为伪标签建立了实例级决策边界。大量实验在不同场景中验证了LEAD的有效性。此外,LEAD能够无缝集成至现有方法中以进一步提升性能,这也使它更具吸引力。
参考文献
联系人:唐老师 |
电话:13917148827 |
邮箱:[email protected] |
点“阅读原文”获取论文
原文始发于微信公众号(同济智能汽车研究所):LEAD:基于学习特征分解实现无源通用域适应