[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

AI 1年前 (2023) admin
496 0 0
[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
本文简要介绍发表于ICLR2023的目标检测模型DINO。该论文通过:1)在去噪训练过程中添加正负样本的学习;2)在Position Query中加入Query Selection;3)改进Decoder的梯度回传策略,三方面的改进使得DETR类型的检测模型的性能合训练推理速度都得到了大幅的提升。相较于之前最好的目标检测器DN-DETR,在同样使用RestNet-50作为bakcbone时,DINO在12Epoch和24Epoch的Map分别提升了6.0和2.7。并且在使用SwinL作为Bakbone以及Object365数据集预训练之后,本文在COCO数据集上取得了最佳的结果,并且相较于其他模型,DINO的收敛速度和模型大小都显著更优。

一、研究背景



目标检测是计算机视觉的基础任务,目前主要包含两个大类:1)基于卷积的经典目标检测器,但是包含大量需要手工设计的模块,如NMS;2)DETR类型目标检测器,虽然去掉了经典目标检测器中手工设计的模块,但是存在收敛非常慢,Query意义不明确等问题。本文就比较好地改进了DETR类型检测器存在的两个问题。

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
图1 本文方法在COCO数据集上与其他方法的对比

二、DINO原理简述



[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
图2 DINO的整体结构

图2是DINO的整体结构。如图2所示,DINO的模型结构和DETR是一致的,包含Backbone,Encoder,Decoder三个部分。主要的改进集中在Encoder和Decoder部分,可分为三部分:

1)对比式的去噪训练。本文在DN-DETR模型的基础之上,在去噪训练过程中添加正负样本的学习。训练模型去拒绝和真实框接近但是不是真实框的困难样本,从而提升了模型的表现和收敛速度。

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
图3对比式去噪训练示意图

2)混合式的Query选择策略:区别于原始DETR完全使用静态的Query作为Decoder的输入以及Deformable DETR将Decoder的Positon Query和Content Query都使用Encoder挑选的特征作为Decoder的输入,DINO只把Encoder的挑选的特征作为Position Query,而Conetnt Query和原始DETR一致使用静态的Query。

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
图4混合式的Query选择策略

3)“看两次”的梯度更新策略:此前Deformable DETR对Decoder的更新策略是第i层的Loss仅更新第i层的参数,DINO则将梯度更新策略改成了第i层Loss更新第i层和第i-1层参数。

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器
图5“看两次”的梯度更新策略

三、主要实验结果及可视化效果



受益于DINO的各项改进,从表1与表2中可以看到DETR类型的检测器收敛速度明显加快,在COCO数据集上相较于其它同样实验设置下的模型,DINO表现优异。

表1 使用ResNet50作为Backbone在COCO上训12Epochs的表现
[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

表2 使用ResNet50作为Backbone在COCO上训24,36Epochs的表现

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

从表3中可以看到相较于其他DETR改进模型,DINO的收敛速度有非常明显的提升。

表3 DINO与其他DETR类型检测器的收敛速度对比

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

从表4中看到作为唯一一个端到端的检测器,DINO不仅在性能指标上和经典检测器的SOTA方法持平而且参数量也少了很多。

表4 DINO和SOTA模型对比

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

在表5中,作者做了消融实验验证各个模块的有效性,可以看到,作者提出的改进都有一定的提升。

表5 DINO消融实验

[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

四、总结及讨论



1.作者针对DETR类型检测收敛慢,Query意义不明的问题,提出了一系列的改进措施

2.作者通过一系列的实验证明了DINO在检测指标上相较于其他模型的优越性,并且在收敛速度和模型参数量上面也优于之前的方法。

五、相关资源



  • DINO论文地址:https://arxiv.org/abs/2203.03605
  • DINO开源代码和预训练模型下载:https://github.com/IDEA-Research/DINO

参考文献



[1]Carion, Nicolas, et al. “End-to-end object detection with transformers.” ECCV2020

[2]Zhu, Xizhou, et al. “Deformable detr: Deformable transformers for end-to-end object detection.” ICLR2021.

[3]Li, Feng, et al. “DN-DETR: Accelerate detr training by introducing query denoising.” CVPR2022

原文作者:Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

撰稿:张 宁
编排:高 学
审校:连宙辉
发布:金连文 



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。


扫码关注,获取最新OCR资讯


[ICLR 2023]  DINO: 带去噪训练的端到端目标检测器

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

版权声明:admin 发表于 2023年6月15日 上午10:49。
转载请注明:[ICLR 2023] DINO: 带去噪训练的端到端目标检测器 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...