一、研究背景
二、方法原理简述
本文提出的Donut模型摆脱了对OCR结果的依赖,采用端到端的方式直接生成结果字符串,避免了上节中提到的问题。其结构如图1所示。模型结构非常简单,其输入为文档图像,经编码器模块得到特征序列,随后通过基于Transformer的解码器生成结果字符串。
编码器将大小为的文档图像编码为一系列的隐特征向量,其中n为输出的特征图大小,d为隐特征维度。该模块可以使用卷积神经网络,也可以使用基于Transformer的视觉模型。作者通过实验对比,最终采用了Swin Transformer[9]作为主干网络。
解码器将输入的特征向量z解码为结果序列,其中,v为结果字符串的字典大小,m为序列的最大长度,为超参数。作者采用BART作为解码器,并采用在多语言数据上预训练好的公开模型1初始化该部分的权重。
预训练阶段作者设计了一个文本阅读任务,即给定文档的图像,模型输出其中的文本内容。监督用的标签来自作者团队的OCR引擎。该标签不可避免地会存在一些错误,因此作者也将该预训练任务称作伪OCR。预训练采用两种数据,一是真实的文档数据集IIT-CDIP,共1100万份文档;另一个是作者合成的多语言数据,包含中、日、韩、英四种语言,共200万份文档。
对于上述合成数据,作者设计了一种数据合成的范式SynthDoG,它将文档分为背景、文档纹理、文本、布局四个组件。背景部分采样自ImageNet[10],文档纹理来自作者收集的文档图像,文本则收集自维基百科。对于版面设计,作者设计了一系列规则将文档划分为多个区域来模拟版式的变换。部分合成数据如图2所示。
三、主要实验结果及可视化结果
如表1所示,模型在RVL-CDIP[11]数据集上进行了文档图像分类实验,结果表明Donut精度较为优异,且拥有较快的推理速度,参数量相对于常用模型也相对较少。表中的表示OCR引擎带来的额外开销。
表2列出了模型在CORD、EATEN以及内部数据集上的性能指标。Donut在精度、速度、模型大小上皆具有优势。值得注意的是,这里LayoutLM系列模型的指标和官方论文中的指标有差距,作者在其仓库的Issue中称2,本文中LayoutLM等模型的指标是在使用OCR引擎结果的情况下计算出来的,更贴近实际,而原文中的指标使用了数据集的GT标签,因此会有差距。
表3列出了模型在DocVQA数据集上的指标。Donut在原始的测试集上性能未达到最优,但是在手写文档上表现很好,展现出了模型优异的泛化能力。作者认为DocVQA数据集中图像的分辨率较低,部分小尺度文本没能被模型理解。
四、总结及讨论
本文提出的模型Donut摆脱了以往大多数算法对OCR的依赖,在视觉文档理解任务上取得了不错的性能。同时其模型大小、推理速度相比于过去的方法具有一定的优势。
五、相关资源
1. BART部分的初始化权重:https://huggingface.co/hyunwoongko/asian-bart-ecjk
2. 作者关于LayoutLM等模型在CORD上指标差异的解释:Performance gap of baseline methods · Issue #42 · clovaai/donut (github.com)
3.论文地址:[2111.15664] OCR-free Document Understanding Transformer (arxiv.org)
参考文献
[1] Hong, T., Kim, D., Ji, M., Hwang, W., Nam, D., Park, S.: Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. Proceedings of the AAAI Conference on Artificial Intelligence 36(10), 10767–10775 (Jun 2022).
[2] Hwang, W., Kim, S., Yim, J., Seo, M., Park, S., Park, S., Lee, J., Lee, B., Lee, H.: Post-ocr parsing: building simple and robust parser via bio tagging. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).
[3] Hwang, W., Yim, J., Park, S., Yang, S., Seo, M.: Spatial dependency parsing for semi-structured document information extraction. In: Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. pp. 330–343. Association for Computational Linguistics, Online (Aug 2021).
[4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: LayoutLM: Pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. p. 1192–1200. KDD ’20, Association for Computing Machinery, New York, NY, USA (2020).
[5] Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., Zhou, L.: LayoutLMv2: Multi-modal pre-training for visually-rich document understanding. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). pp. 2579–2591. Association for Computational Linguistics, Online (Aug 2021).
[6] Duong, Q., H¨am¨al¨ainen, M., Hengchen, S.: An unsupervised method for OCR post-correction and spelling normalisation for Finnish. In: Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). pp. 240–248. Link¨oping University Electronic Press, Sweden, Reykjavik, Iceland (Online) (May 31–2 Jun 2021).
[7] Rijhwani, S., Anastasopoulos, A., Neubig, G.: OCR Post Correction for Endangered Language Texts. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 5931–5942. Association for Computational Linguistics, Online (Nov 2020).
[8] Schaefer, R., Neudecker, C.: A two-step approach for automatic OCR postcorrection. In: Proceedings of the The 4th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. pp. 52–57. International Committee on Computational Linguistics, Online (Dec 2020).
[9] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). pp. 10012– 10022 (October 2021).
[10] Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A largescale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009).
[11] Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR). pp. 991–995 (2015).
[12]Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H.: Cord: A consolidated receipt dataset for post-ocr parsing. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).
[13]Guo, H., Qin, X., Liu, J., Han, J., Liu, J., Ding, E.: Eaten: Entity-aware attention for single shot visual text extraction. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 254–259 (2019).
[14]Mathew, M., Karatzas, D., Jawahar, C.: Docvqa: A dataset for vqa on document images. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 2200–2209 (2021).
撰稿:林泽柠
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[ECCV 2022] Levenshtein OCR(已开源)
-
论文推荐|[TMM 2022]基于切分的手写中文文本识别:一种无需切分标注的方法
-
[ECCV 2022 oral]|Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法
-
[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法
-
[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法(有源码)
-
[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
-
[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器
-
[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)
-
[ECCV 2022] 场景文字端到端识别中的全局到局部注意
-
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
欢迎加入中国图象图形学学会!(附入会攻略)
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ECCV 2022] OCR-free Document Understanding Transformer (已开源)