一、研究背景
文档AI[1],包括其对应的文档理解任务,如文档VQA和文档信息抽取,是目前学术界和工业界一个热门领域。最近,利用大语言模型(LLMs)[2,3]或多模态大语言模型(MLLMs)[4,5,6,7,8]进行文档理解已取得了很好的效果。在以往预训练的模型研究中[9,10,11],layout信息被证明对于文档理解至关重要。然而,现有的使用 LLMs/MLLMs 进行文档理解的工作并未充分探索和利用文档Layout信息。
现有的使用LLM方案用于文档理解的方案通常将文档中的文本进行平铺的纯文本表达或包含坐标坐标的文本来表示,平铺的纯文本完全不包含文档中的任何Layout信息。此外,使用文本和坐标对文档进行文本表示,作为 LLM 的输入,难以确保 LLM 能够有效地理解这种格式化的文本。此外,使用MLLM[6,7,8]进行文档理解的现有工作也没有充分利用文档Layout信息。如图1 (b) 所示,它们通常在文档数据集进行预训练,然后进行有监督微调(SFT),在预训练阶段,通常会应用诸如图像标题生成任务或生成文档中包含的所有文本的任务。这些图像标题和纯文本都只提供了对文档的简要描述,并且无法捕获文档的Layout信息。因此,在现有的预训练阶段很难让模型学习到文档的Layout。在SFT阶段,往往使用与文档相关的VQA或信息抽取数据。指令的执行结果在SFT过程中直接提供,没有明确地引导模型学习文档Layout。总之,当前使用纯文本或坐标文本来使用LLM以及训练基于文档的MLLM的方法尚未有效地捕获文档Layout信息,从而限制了它们的文档理解能力。因此,为了更好地利用语言模型的能力来理解文档,有必要研究如何有效将Layout信息纳入语言模型。
二、方法原理简述
本文提出的 LayoutLLM 是一种基于文档预训练模型的多模态大语言模型,用于增强模型对文档的理解能力。该模型采用了两阶段的Layout指令调优策略:Layout感知预训练和Layout感知有监督微调(SFT)。
在Layout感知预训练阶段,采用了三种不同级别的任务:文档级别、区域级别和文本块级别。其中,文档级别任务包括文本和Layout重构和文档密集描述,旨在让模型具备基本的全局文档理解能力;区域级别任务包括文档Layout分析和表格理解,旨在使模型具有特定区域的理解能力;文本块级别任务包括掩码视觉语言建模、位置掩码和几何预训练等,旨在提高模型对段落结构的理解能力。
在SFT阶段,提出了一个名为 LayoutCoT (layout思维链) 的策略,它将Layout信息融入到每个中间推理步骤中,并增加了问题类型的分析和相关区域的聚焦,从而提高了模型的性能和可解释性。
LayoutLLM的整体架构如图3 所示。在 LayoutLLM 中,给定输入文档图像及其对应的文本和坐标信息,使用文档多模态预训练模型作为编码器,获得多模态文档特征。然后,这些特征由多模态的映射模块进行编码,随后与指令文本embedding一起输入到 LLM以生成最终结果。
三、主要实验结果
作者在文档理解核心任务文档VQA以及文档信息抽取(VIE)上验证了LayoutLLM方案的先进性,结果表明,而 LayoutLLM 相较于现有的用于文档理解的LLM/MLLM方案具有更好的效果。
表2 layout指令微调消融实验
Layout指令微调消融实验是为了进一步验证Layout感知预训练和Layout感知SFT对 LayoutLLM 性能的影响。结果显示,提出的Layout感知预训练和带有LayoutCoT的Layout感知SFT方案均可以显著增强 LayoutLLM 对基本文档理解任务的能力。
四、未来展望
五、相关资源
论文链接:https://arxiv.org/abs/2404.05225
LayoutLLM训练数据(layout指令微调数据)开源:
参考文献
[1] Lei Cui, Yiheng Xu, Tengchao Lv, and Furu Wei. Document ai: Benchmarks, models and applications. arXiv preprint arXiv:2111.08609, 2021.
[2] OpenAI. Introducing chatgpt. https://openai.com/blog/chatgpt, 2022.
[3] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth´ee Lacroix, Baptiste Rozi`ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023
[4] GPT-4V(ision) system card. 2023
[5] R OpenAI. Gpt-4 technical report. arXiv, pages 2303–08774, 2023.
[6] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
[7] Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, et al. mplug-docowl: Modularized multimodal large language model for document understanding. arXiv preprint arXiv:2307.02499, 2023.
[8] Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, and Tong Sun. Llavar: Enhanced visual instruction tuning for text-rich image understanding. arXiv preprint arXiv:2306.17107, 2023.
[9] Yiheng Xu, Minghao Li, Lei Cui, and Shaohan Huang. LayoutLM: Pre-training of text and layout for document image understanding. In KDD, pages 1192–1200, 2020.
[10] Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, and Lidong Zhou. Layoutlmv2: Multi-modal pre-training for visually-rich document understanding. In ACL, 2021.
原文作者:Chuwei Luo, Yufan Shen,Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[CVPR 2024] 缩小端到端识别和两阶段识别的差距
-
[CVPR 2024] OmniParser: 统一图文解析模型:文字检测识别、视觉信息抽取和表格识别
-
[IEEE TPAMI 2024] 将CLIP模型转换为端到端文本识别器
-
TextMonkey:用于文档理解的多模态大模型
-
[EMNLP2023] 基于码元路径预测的视觉信息抽取方案(代码和数据已开源)
-
[CVPR2024] E2STR:基于多模态上下文学习构建的自进化文本识别模型
-
[AAAI 2024] InstructDoc: 一个用于提升零样本泛化能力的视觉文档理解指令微调数据集
-
论文推荐丨一种新型的通用文档图像校正模型
-
论文推荐|[ACMMM 2023] 一个用于场景文本超分和识别的统一模型
-
Monkey: 图像分辨率和文本标签对于大型多模态模型来说非常重要
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[CVPR 2024] LayoutLLM: 用于文档理解的Layout指令微调大模型方案