[CVPR 2024] LayoutLLM: 用于文档理解的Layout指令微调大模型方案

AI 7个月前 admin

96 0 0

[CVPR 2024] LayoutLLM: 用于文档理解的Layout指令微调大模型方案

本文简要介绍CVPR 2024录用论文” LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding”。该论文提出了一种基于基于大型语言模型（LLM）或多模态大型语言模型（MLLM）的文档Layout的指令微调方案，包括Layout感知预训练和Layout感知有监督微调(SFT)，以提高使用LLM/MLLM对文档理解（文档VQA、文档信息抽取）的精度。此外，在提出的Layout感知有监督微调(SFT)中全新提出的LayoutCoT (Layout思维链) 指令微调方式，引入了一定程度的可解释性和交互性，可以帮助用户更好地理解和纠正大模型的推理结果。

一、研究背景

文档AI[1]，包括其对应的文档理解任务，如文档VQA和文档信息抽取，是目前学术界和工业界一个热门领域。最近，利用大语言模型（LLMs）[2,3]或多模态大语言模型（MLLMs）[4,5,6,7,8]进行文档理解已取得了很好的效果。在以往预训练的模型研究中[9,10,11]，layout信息被证明对于文档理解至关重要。然而，现有的使用 LLMs/MLLMs 进行文档理解的工作并未充分探索和利用文档Layout信息。

图1现有的用于文档理解的LLM/MLLM方法和LayoutLLM包含的指令微调方案对比

现有的使用LLM方案用于文档理解的方案通常将文档中的文本进行平铺的纯文本表达或包含坐标坐标的文本来表示，平铺的纯文本完全不包含文档中的任何Layout信息。此外，使用文本和坐标对文档进行文本表示，作为 LLM 的输入，难以确保 LLM 能够有效地理解这种格式化的文本。此外，使用MLLM[6,7,8]进行文档理解的现有工作也没有充分利用文档Layout信息。如图1 (b) 所示，它们通常在文档数据集进行预训练，然后进行有监督微调（SFT），在预训练阶段，通常会应用诸如图像标题生成任务或生成文档中包含的所有文本的任务。这些图像标题和纯文本都只提供了对文档的简要描述，并且无法捕获文档的Layout信息。因此，在现有的预训练阶段很难让模型学习到文档的Layout。在SFT阶段，往往使用与文档相关的VQA或信息抽取数据。指令的执行结果在SFT过程中直接提供，没有明确地引导模型学习文档Layout。总之，当前使用纯文本或坐标文本来使用LLM以及训练基于文档的MLLM的方法尚未有效地捕获文档Layout信息，从而限制了它们的文档理解能力。因此，为了更好地利用语言模型的能力来理解文档，有必要研究如何有效将Layout信息纳入语言模型。

二、方法原理简述

图2 layout指令微调包含的预训练和SFT任务形式

本文提出的 LayoutLLM 是一种基于文档预训练模型的多模态大语言模型，用于增强模型对文档的理解能力。该模型采用了两阶段的Layout指令调优策略：Layout感知预训练和Layout感知有监督微调(SFT)。

在Layout感知预训练阶段，采用了三种不同级别的任务：文档级别、区域级别和文本块级别。其中，文档级别任务包括文本和Layout重构和文档密集描述，旨在让模型具备基本的全局文档理解能力；区域级别任务包括文档Layout分析和表格理解，旨在使模型具有特定区域的理解能力；文本块级别任务包括掩码视觉语言建模、位置掩码和几何预训练等，旨在提高模型对段落结构的理解能力。

在SFT阶段，提出了一个名为 LayoutCoT (layout思维链) 的策略，它将Layout信息融入到每个中间推理步骤中，并增加了问题类型的分析和相关区域的聚焦，从而提高了模型的性能和可解释性。

LayoutLLM的整体架构如图3 所示。在 LayoutLLM 中，给定输入文档图像及其对应的文本和坐标信息，使用文档多模态预训练模型作为编码器，获得多模态文档特征。然后，这些特征由多模态的映射模块进行编码，随后与指令文本embedding一起输入到 LLM以生成最终结果。

图3 LayoutLLM模型结构

三、主要实验结果

作者在文档理解核心任务文档VQA以及文档信息抽取(VIE)上验证了LayoutLLM方案的先进性，结果表明，而 LayoutLLM 相较于现有的用于文档理解的LLM/MLLM方案具有更好的效果。

表1 LLM/MLLM 用于文档理解方案效果对比

表2 layout指令微调消融实验

Layout指令微调消融实验是为了进一步验证Layout感知预训练和Layout感知SFT对 LayoutLLM 性能的影响。结果显示，提出的Layout感知预训练和带有LayoutCoT的Layout感知SFT方案均可以显著增强 LayoutLLM 对基本文档理解任务的能力。

图4 LayoutLLM可视化结果

图5通过LayoutCoT 对模型进行可交互修正

如图4所示，通过结合Layout感知预训练和Layout感知SFT，LayoutLLM 可以准确地关注相关区域，利用Layout信息帮助解决问题并提供一定程度的可解释性。如图5所示，通过干预LayoutCoT的中间结果，可以对模型输出最终的正确结果带来有效的引导。

四、未来展望

尽管本文提出的LayoutLLM在取得了显著的效果提升，但在实际应用中仍存在一些局限性。例如，如何拒绝错误的输出并生成提示（如“答案未出现在文档中”）等能力尚未得到充分研究。因此，在未来的研究中，需要进一步探索如何使LayoutLLM具备这些能力，以便更好地应用于实际场景。此外，本文仅考虑了文档VQA和文档信息抽取这两个应用场景，未来还可以尝试将其扩展到其他领域。

五、相关资源

论文链接：https://arxiv.org/abs/2404.05225

LayoutLLM训练数据(layout指令微调数据)开源：

https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LayoutLLM

参考文献

[1] Lei Cui, Yiheng Xu, Tengchao Lv, and Furu Wei. Document ai: Benchmarks, models and applications. arXiv preprint arXiv:2111.08609, 2021.

[2] OpenAI. Introducing chatgpt. https://openai.com/blog/chatgpt, 2022.

[3] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth´ee Lacroix, Baptiste Rozi`ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023

[4] GPT-4V(ision) system card. 2023

[5] R OpenAI. Gpt-4 technical report. arXiv, pages 2303–08774, 2023.

[6] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.

[7] Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, et al. mplug-docowl: Modularized multimodal large language model for document understanding. arXiv preprint arXiv:2307.02499, 2023.

[8] Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, and Tong Sun. Llavar: Enhanced visual instruction tuning for text-rich image understanding. arXiv preprint arXiv:2306.17107, 2023.

[9] Yiheng Xu, Minghao Li, Lei Cui, and Shaohan Huang. LayoutLM: Pre-training of text and layout for document image understanding. In KDD, pages 1192–1200, 2020.

[10] Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, and Lidong Zhou. Layoutlmv2: Multi-modal pre-training for visually-rich document understanding. In ACL, 2021.

[11] Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, and Furu Wei. Layoutlmv3: Pre-training for document ai with unified text and image masking. In ACM Multimedia, 2022.

原文作者:Chuwei Luo, Yufan Shen,Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao

撰稿：罗楚威

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。