[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

AI 2年前 (2022) admin

858 0 0

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters：A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP，该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示，可以使用弱标注的文本进行预训练（仅对图片中的部分文字进行文字标注，且不需要框标注）。在ICDAR2019-LSVT[1]数据集上，文中的预训练方法利用数据集的弱标注，在检测任务和端到端任务上分别提升了2.5%和4.8%，文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。

一、研究背景

我们阅读文本时，不仅会利用文本的视觉特征，还会利用到所学的语言知识。例如，我们通常通过对相应语言的了解，可以更快更容易地定位和阅读文本。这表明视觉和文本信息都有助于从自然场景图像中更好地阅读文本。因此文中提出了一种语言-图像预训练方法（oCLIP），该方法利用文本信息来学习有效的视觉文本表示，在检测和端到端识别任务上均有提升。

二、方法原理简述

图1是oCLIP的整体框架。整个网络包含三个部分：1）图像编码器（ResNet50[2]+多头注意力层）2）字符感知文本编码器3）视觉-文本解码器。图像经过图像编码器得到图像编码，字符感知文本编码器通过对文本实例的字符进行编码得到文本实例编码。得到的图像编码和文本实例编码随后通过视觉-文本解码器进行交互建模。在训练的时候，会随机Mask掉每个文本实例中的一个字符，网络通过预测这个字符进行优化。

图1 oCLIP的整体结构

字符感知文本编码器

在通常的视觉-语言任务中，文本通常是用来描述图片内容的一个完整句子，句子中的单词是有很强相关性的，因此会对整个句子的单词按顺序编码。但是在OCR任务中，文本是图片中出现的文字，图片中往往包含多个文本实例，同一文本实例的字符有很强的关联，不同文本实例的字符通常是不关联的。因此不可以将所有文本实例按顺序编码。文中就提出了字符感知文本编码器对文本实例进行编码。

字符感知文本编码器对文本实例的字符进行编码，得到文本实例级别的编码向量。一张图中，给定n个标注的文本实例 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法，每个文本实例包含一串字符,作者将字符嵌入到固定长度的向量中，并加入位置编码[3]，该过程可以用公式1表示：

其中 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法是字符编码矩阵，第i个文本实例的字符编码为,随后字符编码通过Transformer 编码器交互建模文本实例中字符的关系得到实例编码。最后文本编码器得到文本实例编码 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

视觉-文本解码器

文中提出了一种视觉-文本解码器，该解码器对输入图像和每个注释的文本实例之间的交互进行建模，同时忽略未标注的文本实例。解码器由6层解码层组成，文本实例编码 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法作为Q，图像编码作为K，V，解码器没有使用自注意力层以忽略不同文本实例之间的关系。最后解码器用于预测被Mask掉的字符来优化网络。

损失函数

网络的损失函数由两部分组成：1）预测字符的分类损失和2）Batch级别的对比损失。分类损失采用交叉熵损失函数，如公式2所示，其中I和T是输入的图片和文本实例， [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法是预测的被Mask的字符，是真实的被Mask的字符，H是交叉熵损失函数。

受CLIP[4]的启发，文中采用Batch级别的对比损失加快网络的收敛。对于一个Batch里面的N张图片和文本，构建一个 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法的（文本，图像）矩阵。其中正确的配对有N种，其他对是错误的匹配。通过计算Image-to-text和Text-to-image的相似度来计算对比损失。相似度如公式3所示。

Batch级别的对比损失如公式4所示，采用交叉熵损失，其中 [ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法是真实的相似度，正确的匹配为1，错误的匹配为0.

最终总的损失函数如公式5所示

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

三、主要实验结果及可视化效果

如表一、二所示，在ICDAR2019-LSVT数据集上使用文中的预训练方法对检测和端到端任务都有明显的提升。（+oCLIP ：使用文中的方法在ICDAR2019-LSVT数据集的40w弱标注数据上进行预训练）

表一不同模型在ICDAR2019-LSVT数据集上的检测结果

表二 ICDAR2019-LSVT数据集上的端到端结果

表三是使用不同标注比例的合成数据进行预训练的实验结果,其中是不进行预训练，直接用PSENet[5]在Total-Text上训练；是用PSENet在Synth Text上预训练然后再Total-Text上fine-tune；是指使用文中的预训练方法，每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth Text上预训练的效果，并且在不同标注比例的设置上效果也很稳定。

表三使用Synth Text不同标注比例的文本实例预训练（PSENet在Total-Text上Fine-tune）

表四和目前的场景文字预训练方法对比

表五在CTW1500上和目前先进的文字检测方法对比

表六在Total-Text上和目前先进的文字检测方法对比

表七在ICDAR-2015上和目前先进的文字检测方法对比

表八在ICDAR-2015和Total-Text上和目前先进的端到端方法对比

表九消融实验

（CAE：字符感知文本编码器， VTD：视觉-文本解码器， BCL：Batch级别对比损失）

作者在检测任务和端到端任务上验证了文中的方法在弱标注数据上预训练的有效性，并且和其他预训练方式做了对比，效果要好于其他的预训练方式。并且通过消融实验验证了部件的有效性。

四、总结及讨论

作者提出了一种弱监督的预训练方法联合学习视觉和语言信息，可以使用弱标注的文本进行预训练（仅对图片中的部分文字进行文字标注，且不需要框标注）。在多个数据集上验证了该预训练方法在检测任务和端到端任务上都有效。

五、相关资源

Language Matters：A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting 论文地址:

https://arxiv.org/abs/2203.03911

参考文献

[1] Sun Y, Ni Z, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In ICDAR, pages 1557-1562, 2019.

[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016.

[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.

[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748-8763, 2021.

[5] Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336-9345, 2019.

原文作者: Chuhui Xue，Yu Hao，Shijian Lu，Philip Torr，Song Bai

撰稿：黄鎏丰

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

版权声明：admin 发表于 2022年11月14日上午9:56。
转载请注明：[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法 | CTF导航

【LLM系列之FLAN】Scaling Instruction-Finetuned Language Models

admin

366

G.O.S.S.I.P 阅读推荐 2023-03-16 FreeEagle

admin

426

NeurIPS 2022 Oral | 摘下悬在神经网络上的达摩克利斯之剑：从模型层面获得对抗鲁棒性保证

admin

487

让LLM“遗忘”特定知识

admin

成果分享｜MaSS: 基于语义和隐蔽性约束的知识图谱嵌入投毒攻击

admin

187

摘要索引提升大模型外挂知识库召回相关性：兼看LLM对反事实知识的判定能力评估

admin

446

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法

[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法（有源码）

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

[ACM MM 2022] 解耦检测与识别：单阶段自依赖场景文本识别器

[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别（已开源）

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测

欢迎加入中国图象图形学学会!（附入会攻略）

文本分类（二）复杂场景下分类任务应用介绍

G.O.S.S.I.P 阅读推荐 2022-11-15 On the Security Risks of AutoML

相关文章

暂无评论

相关文章

[ECCV 2022 oral]|​Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

文本分类（二）复杂场景下分类任务应用介绍

G.O.S.S.I.P 阅读推荐 2022-11-15 On the Security Risks of AutoML

相关文章

广告位

相关文章

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法