[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

AI 2年前 (2022) admin

865 0 0

[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

本文简要介绍ECCV 2022录用论文“OCR-free Document Understanding Transformer”。以往文档理解算法大多依赖于已有的OCR结果，而OCR引擎额外开销大、泛化性能不佳、错误累积等问题往往会对文档理解模块的性能造成影响。本文针对这些问题，提出了一个无需依赖OCR的大规模预训练文档理解模型Donut，该模型在常用数据集上有着不错的表现，且具有较快的推理速度。本文还提供了一种多语言、多版式的文档数据合成器，用于辅助模型的预训练过程。代码开源地址为https://github.com/clovaai/donut。

一、研究背景

视觉文档理解(VDU)技术旨在从文档图像中提归纳、整理、取出有用的信息，该技术在日常生活中有着非常广泛的应用，同时也是一个具有挑战性的课题。其具体任务包括文档分类、信息提取和视觉问题回答等。现有的大部分VDU模型[1][2][3][4][5]一般使用两阶段方案来解决这一问题：1）从文档图像中读取文本；2）对文档文本进行全面的理解。它们通常依赖于光学字符识别(OCR)引擎进行第一步的文本读取，自身则着重于第二步文本理解部分的建模。然而，这些依赖于OCR的方法存在一些问题：一是OCR会带来额外的开销。虽然我们可以利用现成的OCR引擎，但其推理所需的额外时间是不可忽略的；此外，现有的OCR引擎缺乏处理不同语言或版式的灵活性，泛化能力差；再有，训练一个性能优异的OCR模型也需要耗费大量的资源。第二个问题是OCR的误差累积会影响后续流程，对于一些字符集较为复杂的语言，例如韩文或中文，OCR的效果往往较差，相应地这一影响会更加严重，虽然一些方法[6][7][8]设置了后处理流程进行OCR纠错，但这些方案在落地应用中会增加整个系统的开销，实际意义不大。

二、方法原理简述

本文提出的Donut模型摆脱了对OCR结果的依赖，采用端到端的方式直接生成结果字符串，避免了上节中提到的问题。其结构如图1所示。模型结构非常简单，其输入为文档图像，经编码器模块得到特征序列，随后通过基于Transformer的解码器生成结果字符串。

图1 Donut流程图

编码器将大小为 [ECCV 2022] OCR-free Document Understanding Transformer (已开源) 的文档图像编码为一系列的隐特征向量，其中n为输出的特征图大小，d为隐特征维度。该模块可以使用卷积神经网络，也可以使用基于Transformer的视觉模型。作者通过实验对比，最终采用了Swin Transformer[9]作为主干网络。

解码器将输入的特征向量z解码为结果序列 [ECCV 2022] OCR-free Document Understanding Transformer (已开源) ，其中，v为结果字符串的字典大小，m为序列的最大长度，为超参数。作者采用BART作为解码器，并采用在多语言数据上预训练好的公开模型¹初始化该部分的权重。

预训练阶段作者设计了一个文本阅读任务，即给定文档的图像，模型输出其中的文本内容。监督用的标签来自作者团队的OCR引擎。该标签不可避免地会存在一些错误，因此作者也将该预训练任务称作伪OCR。预训练采用两种数据，一是真实的文档数据集IIT-CDIP，共1100万份文档；另一个是作者合成的多语言数据，包含中、日、韩、英四种语言，共200万份文档。

对于上述合成数据，作者设计了一种数据合成的范式SynthDoG，它将文档分为背景、文档纹理、文本、布局四个组件。背景部分采样自ImageNet[10]，文档纹理来自作者收集的文档图像，文本则收集自维基百科。对于版面设计，作者设计了一系列规则将文档划分为多个区域来模拟版式的变换。部分合成数据如图2所示。

图2 部分SynthDoG合成的样本

微调流程如图1中的红、蓝、绿文本框所示，解码器的初始输入为一提示模板，指示任务的种类，模型的输出为一种形如HTML的层次化描述语言。例如对文档图像分类任务，模型输入一个起始的标签<Classification>指示任务的种类为文档图像分类，模型的输出<Class>和</class>表示该部分为一类别名称实体，内容为Receipt，</classification>表示这一任务的结束。借助这种方式，系统可进一步地将其解析为JSON格式的文本，便于后续的落地应用。值得注意的是，这种格式还能用于处理多层级的信息抽取，学术界对该场景的研究较少，然而其在工业界是一个十分常见且迫切需要解决的问题。

三、主要实验结果及可视化结果

如表1所示，模型在RVL-CDIP[11]数据集上进行了文档图像分类实验，结果表明Donut精度较为优异，且拥有较快的推理速度，参数量相对于常用模型也相对较少。表中的表示OCR引擎带来的额外开销。

表1 Donut在RVL-CDIP数据集上的文档图像分类实验结果

表2列出了模型在CORD、EATEN以及内部数据集上的性能指标。Donut在精度、速度、模型大小上皆具有优势。值得注意的是，这里LayoutLM系列模型的指标和官方论文中的指标有差距，作者在其仓库的Issue中称²，本文中LayoutLM等模型的指标是在使用OCR引擎结果的情况下计算出来的，更贴近实际，而原文中的指标使用了数据集的GT标签，因此会有差距。

表2 Donut在一些视觉信息抽取任务上的性能

表3列出了模型在DocVQA数据集上的指标。Donut在原始的测试集上性能未达到最优，但是在手写文档上表现很好，展现出了模型优异的泛化能力。作者认为DocVQA数据集中图像的分辨率较低，部分小尺度文本没能被模型理解。

表3 Donut在DocVQA数据集上的文档视觉问答性能

图3 注意力机制的可视化结果

图3给出了模型注意力机制的可视化结果，可见Donut很好地学习到了文本和图像之间的联系。

四、总结及讨论

本文提出的模型Donut摆脱了以往大多数算法对OCR的依赖，在视觉文档理解任务上取得了不错的性能。同时其模型大小、推理速度相比于过去的方法具有一定的优势。

模型的缺点是对小尺度文本的理解能力有限，在未来的工作中需要得到进一步的研究。

五、相关资源

1. BART部分的初始化权重：https://huggingface.co/hyunwoongko/asian-bart-ecjk

2. 作者关于LayoutLM等模型在CORD上指标差异的解释：Performance gap of baseline methods · Issue #42 · clovaai/donut (github.com)

3.论文地址：[2111.15664] OCR-free Document Understanding Transformer (arxiv.org)

4.代码开源地址：https://github.com/clovaai/donut

参考文献

[1] Hong, T., Kim, D., Ji, M., Hwang, W., Nam, D., Park, S.: Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. Proceedings of the AAAI Conference on Artificial Intelligence 36(10), 10767–10775 (Jun 2022).

[2] Hwang, W., Kim, S., Yim, J., Seo, M., Park, S., Park, S., Lee, J., Lee, B., Lee, H.: Post-ocr parsing: building simple and robust parser via bio tagging. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).

[3] Hwang, W., Yim, J., Park, S., Yang, S., Seo, M.: Spatial dependency parsing for semi-structured document information extraction. In: Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. pp. 330–343. Association for Computational Linguistics, Online (Aug 2021).

[4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: LayoutLM: Pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. p. 1192–1200. KDD ’20, Association for Computing Machinery, New York, NY, USA (2020).

[5] Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., Zhou, L.: LayoutLMv2: Multi-modal pre-training for visually-rich document understanding. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). pp. 2579–2591. Association for Computational Linguistics, Online (Aug 2021).

[6] Duong, Q., H¨am¨al¨ainen, M., Hengchen, S.: An unsupervised method for OCR post-correction and spelling normalisation for Finnish. In: Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). pp. 240–248. Link¨oping University Electronic Press, Sweden, Reykjavik, Iceland (Online) (May 31–2 Jun 2021).

[7] Rijhwani, S., Anastasopoulos, A., Neubig, G.: OCR Post Correction for Endangered Language Texts. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 5931–5942. Association for Computational Linguistics, Online (Nov 2020).

[8] Schaefer, R., Neudecker, C.: A two-step approach for automatic OCR postcorrection. In: Proceedings of the The 4th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. pp. 52–57. International Committee on Computational Linguistics, Online (Dec 2020).

[9] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). pp. 10012– 10022 (October 2021).

[10] Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A largescale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009).

[11] Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR). pp. 991–995 (2015).

[12]Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H.: Cord: A consolidated receipt dataset for post-ocr parsing. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).

[13]Guo, H., Qin, X., Liu, J., Han, J., Liu, J., Ding, E.: Eaten: Entity-aware attention for single shot visual text extraction. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 254–259 (2019).

[14]Mathew, M., Karatzas, D., Jawahar, C.: Docvqa: A dataset for vqa on document images. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 2200–2209 (2021).

原文作者: Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han and Seunghyun Park

撰稿：林泽柠

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

版权声明：admin 发表于 2022年12月7日上午9:01。
转载请注明：[ECCV 2022] OCR-free Document Understanding Transformer (已开源) | CTF导航

老树开新花：大模型时代的代码执行沙箱

admin

Web LLM Attacks

admin

VulDeePecker:基于深度学习的漏洞检测系统

admin

421

使用底层虚拟机LLVM PASS插入花指令

admin

146

【公益译文】大语言模型安全测试方法

admin

167

对抗性AI攻击吊打人脸识别-AI黑客大赛凸显AI算法的脆弱性

admin

570

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

[ECCV 2022] Levenshtein OCR（已开源）

论文推荐|[TMM 2022]基于切分的手写中文文本识别：一种无需切分标注的方法

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法

[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法（有源码）

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

[ACM MM 2022] 解耦检测与识别：单阶段自依赖场景文本识别器

[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别（已开源）

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

欢迎加入中国图象图形学学会!（附入会攻略）

机器学习模型污染：一种危险的新型攻击向量

[IJCAI 2022] SVTR: 基于单个视觉模型的场景文字识别算法（已开源）

相关文章

暂无评论

相关文章

[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

机器学习模型污染：一种危险的新型攻击向量

[IJCAI 2022] SVTR: 基于单个视觉模型的场景文字识别算法（已开源）

相关文章

广告位

相关文章