本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在ICDAR2019-LSVT[1]数据集上,文中的预训练方法利用数据集的弱标注,在检测任务和端到端任务上分别提升了2.5%和4.8%,文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。
一、研究背景
二、方法原理简述
图1是oCLIP的整体框架。整个网络包含三个部分:1)图像编码器(ResNet50[2]+多头注意力层)2)字符感知文本编码器3)视觉-文本解码器。图像经过图像编码器得到图像编码,字符感知文本编码器通过对文本实例的字符进行编码得到文本实例编码。得到的图像编码和文本实例编码随后通过视觉-文本解码器进行交互建模。在训练的时候,会随机Mask掉每个文本实例中的一个字符,网络通过预测这个字符进行优化。
字符感知文本编码器
在通常的视觉-语言任务中,文本通常是用来描述图片内容的一个完整句子,句子中的单词是有很强相关性的,因此会对整个句子的单词按顺序编码。但是在OCR任务中,文本是图片中出现的文字,图片中往往包含多个文本实例,同一文本实例的字符有很强的关联,不同文本实例的字符通常是不关联的。因此不可以将所有文本实例按顺序编码。文中就提出了字符感知文本编码器对文本实例进行编码。
字符感知文本编码器对文本实例的字符进行编码,得到文本实例级别的编码向量。一张图中,给定n个标注的文本实例,每个文本实例包含一串字符,作者将字符嵌入到固定长度的向量中,并加入位置编码[3],该过程可以用公式1表示:
其中是字符编码矩阵,第i个文本实例的字符编码为,随后字符编码通过Transformer 编码器交互建模文本实例中字符的关系得到实例编码。最后文本编码器得到文本实例编码
视觉-文本解码器
文中提出了一种视觉-文本解码器,该解码器对输入图像和每个注释的文本实例之间的交互进行建模,同时忽略未标注的文本实例。解码器由6层解码层组成,文本实例编码作为Q,图像编码作为K,V,解码器没有使用自注意力层以忽略不同文本实例之间的关系。最后解码器用于预测被Mask掉的字符来优化网络。
损失函数
网络的损失函数由两部分组成:1)预测字符的分类损失和2)Batch级别的对比损失。分类损失采用交叉熵损失函数,如公式2所示,其中I和T是输入的图片和文本实例,是预测的被Mask的字符,是真实的被Mask的字符,H是交叉熵损失函数。
受CLIP[4]的启发,文中采用Batch级别的对比损失加快网络的收敛。对于一个Batch里面的N张图片和文本,构建一个的(文本,图像)矩阵。其中正确的配对有N种,其他对是错误的匹配。通过计算Image-to-text和Text-to-image的相似度来计算对比损失。相似度如公式3所示。
Batch级别的对比损失如公式4所示,采用交叉熵损失,其中是真实的相似度,正确的匹配为1,错误的匹配为0.
最终总的损失函数如公式5所示
三、主要实验结果及可视化效果
如表一、二所示,在ICDAR2019-LSVT数据集上使用文中的预训练方法对检测和端到端任务都有明显的提升。(+oCLIP :使用文中的方法在ICDAR2019-LSVT数据集的40w弱标注数据上进行预训练)
表三是使用不同标注比例的合成数据进行预训练的实验结果,其中是不进行预训练,直接用PSENet[5]在Total-Text上训练;是用PSENet在Synth Text上预训练然后再Total-Text上fine-tune;是指使用文中的预训练方法,每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth Text上预训练的效果,并且在不同标注比例的设置上效果也很稳定。
表三 使用Synth Text不同标注比例的文本实例预训练(PSENet在Total-Text上Fine-tune)
表四 和目前的场景文字预训练方法对比
表五 在CTW1500上和目前先进的文字检测方法对比
表六 在Total-Text上和目前先进的文字检测方法对比
表七 在ICDAR-2015上和目前先进的文字检测方法对比
表八 在ICDAR-2015和Total-Text上和目前先进的端到端方法对比
四、总结及讨论
五、相关资源
-
Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting 论文地址:
https://arxiv.org/abs/2203.03911
参考文献
[1] Sun Y, Ni Z, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In ICDAR, pages 1557-1562, 2019.
[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016.
[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.
[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748-8763, 2021.
[5] Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336-9345, 2019.
撰稿:黄鎏丰
编排:高 学
审校:连宙辉
发布:金连文
往期精彩内容回顾
-
[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法
-
[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法(有源码)
-
[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
-
[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器
-
[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)
-
[ECCV 2022] 场景文字端到端识别中的全局到局部注意
-
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
-
[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
-
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
-
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ECCV 2022 oral]|Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法