[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法

AI 1年前 (2023) admin

126 0 0

本文简要介绍ICCV 2023录用论文“MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition”的主要工作。该论文提出了一个新的任务：“增量多语言文本识别”。并指出该场景具有其独有的挑战：回放不平衡问题；并针对性地提出了MRN方法去解决这个问题。实验表明，MRN明显优于现有的通用增量学习方法，在不同的设置下，准确率提高了10.3%到27.4%到不等。

一、研究背景

增量学习（Incremental Learning）是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。增量学习致力于解决模型训练的一个普遍缺陷：灾难性遗忘（Catastrophic Forgetting），即模型学习新知识时对旧知识遗忘的现象。目前大部分的增量学习方法主要关注图像分类、目标检测等，几乎没有工作考虑文本识别。

而该论文主要关注增量学习的多语言场景文本识别问题（Incremental Multilingual Text Recognition (IMLTR)）。如图1所示，在IMLTR场景下，增量学习和多语言文本的结合会带来该场景特有的挑战：回放不平衡问题（Rehearsal-imbalance）。回放集（Rehearsal Set）是增量学习中的常见概念，是指在训练新任务的时候，保留下来的一部分有代表性的少量旧数据。如何挑选旧数据，如何利用新旧数据进行结合也是增量学习领域的一大问题。

图1 增量学习和多语言文本的结合

在场景文本识别中，IMLTR的回放集容易面对一些特殊的不平衡问题，该论文总结了三个层面：（1）数据集层面：各语种之间数据的收集难度不一样，容易收集的语种数据量大，而难以收集的语种往往数据量小，造成了语种之间数据的不平衡问题。（2）语言层面：不同语言的字符集数量差别很大。在回放集中，如果照顾每种语言进行均匀抽样，语言的均匀会加剧类不平衡。（3）字符层面：字符的出现频率遵循长尾分布，导致字符类别不平衡。且由于文本识别中是以一整个文本图片作为输入，无法按照字符类别采样，导致相当大一部分字符类没有被包括在回放集中。论文中把这些问题统一称为回放不平衡（Rehearsal-imbalance）。这个问题会导致灾难性遗忘，被遗忘的字符无法被识别。

二、方法原理简述

虽然回放集不能确保完全覆盖所有语言的字符类，但足以训练一个语言域的预测器来识别语言类别。基于这一观察，该论文提出了一种新的多路复用路由网络（MRN）。如图2所示，它包含两个阶段，即特定语言建模（第一阶段）和多语言建模（第二阶段）。在第一阶段，分别用特定语言的数据集，为每种语言训练一个专属的识别器。在第二阶段，冻结一阶段的所有识别器，并用回放集的数据训练DM- Router（Domian MLP Router）。

前向：给定一个输入图像，各识别器的Backbone预测出的特征被送入DM-Router去计算域得分，即这一图像属于某种语言的概率。同时各分类器分别对输入图像进行预测，并通过Zero Padding将各分类器的预测都补全到整个模型的总字符类别数。拼接所有补全后的预测，再和域得分相乘，并求最大值，以进行字符解码。

图2 网络整体框架图

DM-Router：对各分类器Backbone中的特征进行拼接，并且参考MLP-Attention的类似做法进行字符序列-语言域的注意力和通道-语言域的注意力，其具体结构如图3所示。

图3 Domain MLP Router的具体结构

训练Loss：MRN有两个损失项，一个用于多语言文本识别，另一个用于语言域预测。总的损失函数可写为：

其中，α是一个用来平衡两者的超参数。

三、主要实验结果

文中为MRN配备了不同的文本识别器，并将它们与不同的增量学习方法相结合。具体来说，考虑了三种典型的场景文本识别方案：基于CTC的（CRNN [1]）、基于注意力的（TRBA [2]）和基于ViT的（SVTR [3]）。同时，选择了四种流行的增量学习方法，即Lwf[4]，EWC [5]，WA [6]和DER [7]。表1中给出了不同增量步骤的结果，逐个添加语言，并报告了不同方法的平均精度。可以看出，在不同的设置下，无论使用哪个识别器，MRN的性能始终显著优于所有比较的方法，证明了MRN的有效性。

表1 不同文本识别器和增量学习方法在MLT17和MLT19上的准确率（%）

图4 识别样例，红色表示回放集中没有的字符

图4给出了MRN的一些识别样例，可以看出，MRN可以识别没有出现在回放集中的字符。这证明了MRN在处理回放不平衡方面是有效的，并且可以很好地泛化到到不可见的类别。

四、总结

该论文引入了一个新的场景：增量多语言文本识别（IMLTR），IMLTR面临该场景下独有的挑战：回放不平衡的问题，使得主流的增量学习方法在该任务上的表现不佳。为此，该论文设计了针对这一问题的MRN方法。该方法抛弃了用回放集维持预测旧字符的做法，而是利用回放集专注于预测当前字符的语种类别，保留并冻结旧模型的分类器，令旧模型的分类器去预测旧字符。这样大幅降低了模型对于回放集的字符内容依赖，并巧妙的避免了回放集中回放不平衡的问题，能更好的适用于IMLTR场景。在MLT17和MLT19数据集上的实验证明了MRN的有效性。

五、相关资源

“MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition” 论文地址: https://arxiv.org/pdf/2305.14758.pdf
lMRN 代码地址: https://github.com/simplify23/MRN

参考文献

[1]Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298–2304, 2017.

[2]Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In ICCV, pages 4714–4722, 2019.

[3]Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, and Yu-Gang Jiang. SVTR: scene text recognition with a single visual model. In IJCAI, 2022.

[4]Zhizhong Li and Derek Hoiem. Learning without forgetting. IEEE transactions on pattern analysis and machine intelligence, 40(12):2935–2947, 2017.

[5]James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka GrabskaBarwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, 114(13):3521–3526, 2017.

[6]Bowen Zhao, Xi Xiao, Guojun Gan, Bin Zhang, and ShuTao Xia. Maintaining discrimination and fairness in class incremental learning. In CVPR, pages 13208–13217, 2020.

[7]Shipeng Yan, Jiangwei Xie, and Xuming He. Der: Dynamically expandable representation for class incremental learning. In CVPR, pages 3014–3023, 2021.

原文作者:Tianlun Zheng, Zhineng Chen, Bingchen Huang, Wei Zhang, Yu-Gang Jiang

撰稿：施永鑫

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法

版权声明：admin 发表于 2023年9月28日上午7:01。
转载请注明：[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法 | CTF导航

NSDC2024 议题回顾 | 大模型技术在恶意软件分析中的实践

admin

人工智能知识图谱之信息抽取：基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版)，提效。

admin

330

【技术分享】音视频领域的对抗样本攻击实战

admin

693

深度探索：LLaMa-3 网络安全能力全解析

admin

结合图学习和自动数据收集的代码漏洞检测模型

admin

367

推荐两个工具：DeepSpeed-FastGen和DataTrove

admin

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法

[AAAI2023]一种基于问答流程的表单文档图像键值对抽取方案

[BMVC2023] 通过基于截断奇异值分解的知识蒸馏引导神经网络搜索构建轻量化文本识别器

[IJCAI 2023] 具有显式位置增强的鲁棒场景文本图像超分辨率网络

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

[ACM MM 2023] 面向场景文本识别的关系对比学习

[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别

[CVPR 2023] 基于自监督隐式字形注意力的文本识别

[ICCV 2023] 从数据角度重新审视场景文字识别

[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别

Large Multimodal Model is all you need in OCR？

欢迎加入中国图象图形学学会!（附入会攻略）

[当人工智能遇上安全] 8.基于API序列和机器学习的恶意家族分类实例详解

【三等奖方案】返乡发展人群预测「LSTY」团队思路

相关文章

暂无评论

相关文章

[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法

[当人工智能遇上安全] 8.基于API序列和机器学习的恶意家族分类实例详解

【三等奖方案】返乡发展人群预测「LSTY」团队思路

相关文章

广告位

相关文章