一、研究背景
增量学习(Incremental Learning)是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。增量学习致力于解决模型训练的一个普遍缺陷:灾难性遗忘(Catastrophic Forgetting),即模型学习新知识时对旧知识遗忘的现象。目前大部分的增量学习方法主要关注图像分类、目标检测等,几乎没有工作考虑文本识别。
而该论文主要关注增量学习的多语言场景文本识别问题(Incremental Multilingual Text Recognition (IMLTR))。如图1所示,在IMLTR场景下,增量学习和多语言文本的结合会带来该场景特有的挑战:回放不平衡问题(Rehearsal-imbalance)。回放集(Rehearsal Set)是增量学习中的常见概念,是指在训练新任务的时候,保留下来的一部分有代表性的少量旧数据。如何挑选旧数据,如何利用新旧数据进行结合也是增量学习领域的一大问题。
二、方法原理简述
虽然回放集不能确保完全覆盖所有语言的字符类,但足以训练一个语言域的预测器来识别语言类别。基于这一观察,该论文提出了一种新的多路复用路由网络(MRN)。如图2所示,它包含两个阶段,即特定语言建模(第一阶段)和多语言建模(第二阶段)。在第一阶段,分别用特定语言的数据集,为每种语言训练一个专属的识别器。在第二阶段,冻结一阶段的所有识别器,并用回放集的数据训练DM- Router(Domian MLP Router)。
前向:给定一个输入图像,各识别器的Backbone预测出的特征被送入DM-Router去计算域得分,即这一图像属于某种语言的概率。同时各分类器分别对输入图像进行预测,并通过Zero Padding将各分类器的预测都补全到整个模型的总字符类别数。拼接所有补全后的预测,再和域得分相乘,并求最大值,以进行字符解码。
DM-Router:对各分类器Backbone中的特征进行拼接,并且参考MLP-Attention的类似做法进行字符序列-语言域的注意力和通道-语言域的注意力,其具体结构如图3所示。
训练Loss:MRN有两个损失项,一个用于多语言文本识别,另一个用于语言域预测。总的损失函数可写为:
三、主要实验结果
文中为MRN配备了不同的文本识别器,并将它们与不同的增量学习方法相结合。具体来说,考虑了三种典型的场景文本识别方案:基于CTC的(CRNN [1])、基于注意力的(TRBA [2])和基于ViT的(SVTR [3])。同时,选择了四种流行的增量学习方法,即Lwf[4],EWC [5],WA [6]和DER [7]。表1中给出了不同增量步骤的结果,逐个添加语言,并报告了不同方法的平均精度。可以看出,在不同的设置下,无论使用哪个识别器,MRN的性能始终显著优于所有比较的方法,证明了MRN的有效性。
四、总结
五、相关资源
-
“MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition” 论文地址: https://arxiv.org/pdf/2305.14758.pdf
-
lMRN 代码地址: https://github.com/simplify23/MRN
参考文献
[1]Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298–2304, 2017.
[2]Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In ICCV, pages 4714–4722, 2019.
[3]Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, and Yu-Gang Jiang. SVTR: scene text recognition with a single visual model. In IJCAI, 2022.
[4]Zhizhong Li and Derek Hoiem. Learning without forgetting. IEEE transactions on pattern analysis and machine intelligence, 40(12):2935–2947, 2017.
[5]James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka GrabskaBarwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, 114(13):3521–3526, 2017.
[6]Bowen Zhao, Xi Xiao, Guojun Gan, Bin Zhang, and ShuTao Xia. Maintaining discrimination and fairness in class incremental learning. In CVPR, pages 13208–13217, 2020.
原文作者:Tianlun Zheng, Zhineng Chen, Bingchen Huang, Wei Zhang, Yu-Gang Jiang
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[AAAI2023]一种基于问答流程的表单文档图像键值对抽取方案
-
[BMVC2023] 通过基于截断奇异值分解的知识蒸馏引导神经网络搜索构建轻量化文本识别器
-
[IJCAI 2023] 具有显式位置增强的鲁棒场景文本图像超分辨率网络
-
[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器
-
[ACM MM 2023] 面向场景文本识别的关系对比学习
-
[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别
-
[CVPR 2023] 基于自监督隐式字形注意力的文本识别
-
[ICCV 2023] 从数据角度重新审视场景文字识别
-
[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别
-
Large Multimodal Model is all you need in OCR?
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ICCV 2023] MRN:多路复用路由网络的增量多语言文本识别方法