[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

AI 1天前 admin
35 0 0
[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

本文简要介绍ACM Multimedia 2024录用论文“CREAM: Coarse-to-Fine Retrieval and Multi-modal Efficient Tuning for Document VQA”的主要工作。该论文主要针对多页文档VQA问题,设计了一种从粗到细的检索算法:通过基于Embedding的相似度检索、多轮分组与LLM重排序,从文档的OCR结果中选择最相关的文本块;并设计了一种能够处理多页文档图像的视觉编码器,并通过参数高效微调,在多页文档VQA基准上达到了SOTA。

一、研究背景



文档VQA(Visual Question Answering)非常具有实用价值,可以快速、准确地从大量文档中提取答案,以回答用户的问题。作为当前多模态领域最具挑战性的任务之一,它不仅需要理解文本语义,还需要理解视觉和图像语义。然而,目前多数方法在多页文档以及具有冗长内容的单页文档上表现不佳。

二、方法原理简述



[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

图1 论文方法的整体框架

图1是论文提出的CREAM方法的整体结构, 主要包含三个部分:(1)OCR解析;(2)从粗到细的检索与重排模块;(3)MLLM。

OCR解析部分的实现是使用OCR工具来解析文档图片中的文字。

从粗到细的检索与重排模块的算法流程如图2所示。算法的输入是问题以及OCR得到的文本块,输出是和问题最相关的一些文本块;粗检索的过程,是用一个文本Embedding模型(论文中使用Bge-large)进行一个初步的排序;细检索的过程,是用一个基于LLM的排序模型(论文中使用RankVicuna),对粗排序后的文本块进行多次的分组排序。

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整图2 从粗到细的检索算法

MLLM部分,作者针对视觉编码器部分进行了一定的设计,使得可以接收多图的输入,其结构如图3所示。

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整
图3 视觉编码器部分

其具体的过程为:

(1)对输入的所有文档图片,都经过Pix2Struct[1]的视觉编码器提取视觉特征:

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

(2)把提取到的特征分别加上Page_embedding:

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

(3)进行加权平均,得到总的特征E:

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

(4)特征E,拼接上一些视觉Query后一起送入一个ViT,得到最终的视觉表征:

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整
模型的训练过程中使用了LoRA和Prefix Tuning等参数高效微调技术,基座LLM使用的是Llama2 7B,训练数据用的是一些单页(DocVQA[2],InfoVQA[3],VisualMRC[4]等)和多页(MPDocVQA[5],DUDE[6]等)的文档VQA数据,在单个A100 80G GPU上训练了5个Epoch。

三、主要实验结果



该论文在两个多页文档VQA基准和三个单页文档VQA基准上与其他方法进行了比较,结果如表1和表2所示,结果表明在多页和单页文档VQA任务中,论文提出的方法的性能优于之前的主流方法。

表1 多页文档VQA基准上的结果
[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整
表2 单页文档VQA基准上的结果
[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

论文中还进一步对其CREAM方法的各部分进行了消融实验,结果如表3和表4所示。从结果可以看出各个模块的有效性。

表3 在多页文档VQA基准上的消融实验结果
[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整
表4 在单页文档VQA基准上的消融实验结果
[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

四、总结及讨论



该论文提出了一种名为 CREAM 的方法,旨在能同时完成单页和多页文档VQA任务。具体来地,论文主要设计了一种从粗到细的检索算法,以提取与问题相关的OCR文本块。此外,还设计了能够处理多页文档图像的视觉编码器,并通过参数高效微调训练MLLM。在两个多页和三个单页文档VQA 基准上的结果证明了其有效性。但是该方法的性能会受到检索和排序模型性能的影响,且视觉编码器的性能相对较弱。

五、相关资源



  • 论文地址: https://openreview.net/pdf?id=uxxdE9HFGI

参考文献



[1] Kenton Lee, Mandar Joshi, Iulia Raluca Turc, Hexiang Hu, Fangyu Liu, Julian Martin Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. 2023. Pix2struct: Screenshot parsing as pretraining for visual language understanding. In International Conference on Machine Learning. PMLR, 18893–18912.

[2] Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. 2021. DocVQA: A dataset for VQA on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2200–2209.

[3] Minesh Mathew, Viraj Bagal, Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny, and CV Jawahar. 2022. InfographicVQA. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 1697–1706.

[4] Ryota Tanaka, Kyosuke Nishida, and Sen Yoshida. 2021. VisualMRC: Machine reading comprehension on document images. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35. 13878–13888.

[5] Rubèn Tito, Dimosthenis Karatzas, and Ernest Valveny. 2023. Hierarchical multimodal transformers for Multipage DocVQA. Pattern Recognition 144 (2023),

109834.

[6] Jordy Van Landeghem, Rubèn Tito, Łukasz Borchmann, Michał Pietruszka, Pawel Joziak, Rafal Powalski, Dawid Jurkiewicz, Mickaël Coustaty, Bertrand Anckaert, Ernest Valveny, et al. 2023. Document understanding dataset and evaluation (DUDE). In Proceedings of the IEEE/CVF International Conference on Computer Vision. 19528–19540.


原文作者:Jinxu Zhang, Yongqi Yu, Yu Zhang

撰稿:施永鑫
排:高 学
审校:殷 飞
发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。


扫码关注,获取最新OCR资讯


[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

版权声明:admin 发表于 2024年10月17日 上午6:31。
转载请注明:[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整 | CTF导航

相关文章