一、研究背景
目标检测是计算机视觉的基础任务,目前主要包含两个大类:1)基于卷积的经典目标检测器,但是包含大量需要手工设计的模块,如NMS;2)DETR类型目标检测器,虽然去掉了经典目标检测器中手工设计的模块,但是存在收敛非常慢,Query意义不明确等问题。本文就比较好地改进了DETR类型检测器存在的两个问题。
二、DINO原理简述
图2是DINO的整体结构。如图2所示,DINO的模型结构和DETR是一致的,包含Backbone,Encoder,Decoder三个部分。主要的改进集中在Encoder和Decoder部分,可分为三部分:
1)对比式的去噪训练。本文在DN-DETR模型的基础之上,在去噪训练过程中添加正负样本的学习。训练模型去拒绝和真实框接近但是不是真实框的困难样本,从而提升了模型的表现和收敛速度。
2)混合式的Query选择策略:区别于原始DETR完全使用静态的Query作为Decoder的输入以及Deformable DETR将Decoder的Positon Query和Content Query都使用Encoder挑选的特征作为Decoder的输入,DINO只把Encoder的挑选的特征作为Position Query,而Conetnt Query和原始DETR一致使用静态的Query。
3)“看两次”的梯度更新策略:此前Deformable DETR对Decoder的更新策略是第i层的Loss仅更新第i层的参数,DINO则将梯度更新策略改成了第i层Loss更新第i层和第i-1层参数。
三、主要实验结果及可视化效果
受益于DINO的各项改进,从表1与表2中可以看到DETR类型的检测器收敛速度明显加快,在COCO数据集上相较于其它同样实验设置下的模型,DINO表现优异。
表2 使用ResNet50作为Backbone在COCO上训24,36Epochs的表现
从表3中可以看到相较于其他DETR改进模型,DINO的收敛速度有非常明显的提升。
表3 DINO与其他DETR类型检测器的收敛速度对比
从表4中看到作为唯一一个端到端的检测器,DINO不仅在性能指标上和经典检测器的SOTA方法持平而且参数量也少了很多。
表4 DINO和SOTA模型对比
在表5中,作者做了消融实验验证各个模块的有效性,可以看到,作者提出的改进都有一定的提升。
表5 DINO消融实验
四、总结及讨论
1.作者针对DETR类型检测收敛慢,Query意义不明的问题,提出了一系列的改进措施
五、相关资源
-
DINO论文地址:https://arxiv.org/abs/2203.03605 -
DINO开源代码和预训练模型下载:https://github.com/IDEA-Research/DINO
参考文献
[1]Carion, Nicolas, et al. “End-to-end object detection with transformers.” ECCV2020
[2]Zhu, Xizhou, et al. “Deformable detr: Deformable transformers for end-to-end object detection.” ICLR2021.
原文作者:Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[CVPR 2023] 视觉、文本和布局多模态模态通用文档处理统一模型
-
[CVPR 2023] 基于颜色感知背景的文档图像阴影去除
-
[CVPR 2023] 基于视觉原型的手写文本生成(已开源)
-
[ICLR 2023] StrucTexTv2:“化繁为简”的端到端文档图像理解预训练框架
-
[CVPR 2023] CF-Font: Content Fusion for Few-shot Font Generation
-
[NeurIPS 2022] 文档图像分类器的分布外性能评估
-
论文推荐|[CVPR 2023] Turning a CLIP Model into a Scene Text Detector
-
论文推荐|[AAAI 2023] 用于提升场景文本超分辨率的双先验调制网络
-
[ECCV 2022]基于纯Transformer和集成专家的场景文本识别方法
-
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ICLR 2023] DINO: 带去噪训练的端到端目标检测器