[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整

AI 1个月前 admin

47 0 0

[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整

本文简要介绍ACM Multimedia 2024录用论文“CREAM: Coarse-to-Fine Retrieval and Multi-modal Efficient Tuning for Document VQA”的主要工作。该论文主要针对多页文档VQA问题，设计了一种从粗到细的检索算法：通过基于Embedding的相似度检索、多轮分组与LLM重排序，从文档的OCR结果中选择最相关的文本块；并设计了一种能够处理多页文档图像的视觉编码器，并通过参数高效微调，在多页文档VQA基准上达到了SOTA。

一、研究背景

文档VQA（Visual Question Answering）非常具有实用价值，可以快速、准确地从大量文档中提取答案，以回答用户的问题。作为当前多模态领域最具挑战性的任务之一，它不仅需要理解文本语义，还需要理解视觉和图像语义。然而，目前多数方法在多页文档以及具有冗长内容的单页文档上表现不佳。

二、方法原理简述

[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整

图1 论文方法的整体框架

图1是论文提出的CREAM方法的整体结构，主要包含三个部分：（1）OCR解析；（2）从粗到细的检索与重排模块；（3）MLLM。

OCR解析部分的实现是使用OCR工具来解析文档图片中的文字。

从粗到细的检索与重排模块的算法流程如图2所示。算法的输入是问题以及OCR得到的文本块，输出是和问题最相关的一些文本块；粗检索的过程，是用一个文本Embedding模型（论文中使用Bge-large）进行一个初步的排序；细检索的过程，是用一个基于LLM的排序模型（论文中使用RankVicuna），对粗排序后的文本块进行多次的分组排序。

图2 从粗到细的检索算法

MLLM部分，作者针对视觉编码器部分进行了一定的设计，使得可以接收多图的输入，其结构如图3所示。

图3 视觉编码器部分

其具体的过程为：

（1）对输入的所有文档图片，都经过Pix2Struct[1]的视觉编码器提取视觉特征：

（2）把提取到的特征分别加上Page_embedding：

（3）进行加权平均，得到总的特征E：

（4）特征E，拼接上一些视觉Query后一起送入一个ViT，得到最终的视觉表征：

模型的训练过程中使用了LoRA和Prefix Tuning等参数高效微调技术，基座LLM使用的是Llama2 7B，训练数据用的是一些单页（DocVQA[2]，InfoVQA[3]，VisualMRC[4]等）和多页（MPDocVQA[5]，DUDE[6]等）的文档VQA数据，在单个A100 80G GPU上训练了5个Epoch。

三、主要实验结果

该论文在两个多页文档VQA基准和三个单页文档VQA基准上与其他方法进行了比较，结果如表1和表2所示，结果表明在多页和单页文档VQA任务中，论文提出的方法的性能优于之前的主流方法。

表1 多页文档VQA基准上的结果

表2 单页文档VQA基准上的结果

论文中还进一步对其CREAM方法的各部分进行了消融实验，结果如表3和表4所示。从结果可以看出各个模块的有效性。

表3 在多页文档VQA基准上的消融实验结果

表4 在单页文档VQA基准上的消融实验结果

四、总结及讨论

该论文提出了一种名为 CREAM 的方法，旨在能同时完成单页和多页文档VQA任务。具体来地，论文主要设计了一种从粗到细的检索算法，以提取与问题相关的OCR文本块。此外，还设计了能够处理多页文档图像的视觉编码器，并通过参数高效微调训练MLLM。在两个多页和三个单页文档VQA 基准上的结果证明了其有效性。但是该方法的性能会受到检索和排序模型性能的影响，且视觉编码器的性能相对较弱。

五、相关资源

论文地址: https://openreview.net/pdf?id=uxxdE9HFGI

参考文献

[1] Kenton Lee, Mandar Joshi, Iulia Raluca Turc, Hexiang Hu, Fangyu Liu, Julian Martin Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. 2023. Pix2struct: Screenshot parsing as pretraining for visual language understanding. In International Conference on Machine Learning. PMLR, 18893–18912.

[2] Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. 2021. DocVQA: A dataset for VQA on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2200–2209.

[3] Minesh Mathew, Viraj Bagal, Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny, and CV Jawahar. 2022. InfographicVQA. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 1697–1706.

[4] Ryota Tanaka, Kyosuke Nishida, and Sen Yoshida. 2021. VisualMRC: Machine reading comprehension on document images. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35. 13878–13888.

[5] Rubèn Tito, Dimosthenis Karatzas, and Ernest Valveny. 2023. Hierarchical multimodal transformers for Multipage DocVQA. Pattern Recognition 144 (2023),

109834.

[6] Jordy Van Landeghem, Rubèn Tito, Łukasz Borchmann, Michał Pietruszka, Pawel Joziak, Rafal Powalski, Dawid Jurkiewicz, Mickaël Coustaty, Bertrand Anckaert, Ernest Valveny, et al. 2023. Document understanding dataset and evaluation (DUDE). In Proceedings of the IEEE/CVF International Conference on Computer Vision. 19528–19540.

原文作者：Jinxu Zhang, Yongqi Yu, Yu Zhang

撰稿：施永鑫

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整

版权声明：admin 发表于 2024年10月17日上午6:31。
转载请注明：[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整 | CTF导航

VCML ：事务级模型 TLM 2.0 ，让 SoC IP 与时俱进

admin

论文解读:《论广义攻击性语言识别》

admin

社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估

admin

使用底层虚拟机LLVM PASS插入花指令

admin

151

项目实践：从0开始搭建基于知识图谱的问答系统（医疗领域）

admin

102

中文LLaMA模型和指令精调的Alpaca大模型：中文数据进行二次预训练，进一步提升了中文基础语义理解能力

admin

522

[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整

PDF悟空：多模态大模型与国产AI芯片成功适配，长文档多模态数据解析能力惊艳

[ECCV 2024] 识别复杂手写数学表达式的位置森林变换器

论文推荐|[ACL 2024] DocLLM: 用于多模态文档理解的布局敏感的生成语言模型

[ACM MM 2024] FDP：利用CLIP实现准确高效灵活的场景文字检索

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[CVPR 2024] RoDLA：文件版面分析模型稳健性基准测试

[ICDAR 2024]拼图拾取器：通过部首重组破译古代汉字

[CVPR 2024] 通过对比学习提高大型视觉-语言模型的文档图像理解能力

[CVPR 2024] LayoutLLM: 用于文档理解的Layout指令微调大模型方案

[CVPR 2024] 缩小端到端识别和两阶段识别的差距

欢迎加入中国图象图形学学会!（附入会攻略）

G.O.S.S.I.P 阅读推荐 2024-10-16 LLM帮你理解安全补丁

浅谈LLM时代下的REST API自动化测试

相关文章

相关文章

[ACM MM2024] CREAM： 文档 VQA 的粗到细检索和多模态高效调整

G.O.S.S.I.P 阅读推荐 2024-10-16 LLM帮你理解安全补丁

浅谈LLM时代下的REST API自动化测试

相关文章

广告位

相关文章

[ACM MM2024] CREAM：文档 VQA 的粗到细检索和多模态高效调整