本文简要介绍ACM Multimedia 2024录用论文“CREAM: Coarse-to-Fine Retrieval and Multi-modal Efficient Tuning for Document VQA”的主要工作。该论文主要针对多页文档VQA问题,设计了一种从粗到细的检索算法:通过基于Embedding的相似度检索、多轮分组与LLM重排序,从文档的OCR结果中选择最相关的文本块;并设计了一种能够处理多页文档图像的视觉编码器,并通过参数高效微调,在多页文档VQA基准上达到了SOTA。
一、研究背景
二、方法原理简述
图1 论文方法的整体框架
图1是论文提出的CREAM方法的整体结构, 主要包含三个部分:(1)OCR解析;(2)从粗到细的检索与重排模块;(3)MLLM。
OCR解析部分的实现是使用OCR工具来解析文档图片中的文字。
从粗到细的检索与重排模块的算法流程如图2所示。算法的输入是问题以及OCR得到的文本块,输出是和问题最相关的一些文本块;粗检索的过程,是用一个文本Embedding模型(论文中使用Bge-large)进行一个初步的排序;细检索的过程,是用一个基于LLM的排序模型(论文中使用RankVicuna),对粗排序后的文本块进行多次的分组排序。
MLLM部分,作者针对视觉编码器部分进行了一定的设计,使得可以接收多图的输入,其结构如图3所示。
其具体的过程为:
(1)对输入的所有文档图片,都经过Pix2Struct[1]的视觉编码器提取视觉特征:
(2)把提取到的特征分别加上Page_embedding:
(3)进行加权平均,得到总的特征E:
(4)特征E,拼接上一些视觉Query后一起送入一个ViT,得到最终的视觉表征:
三、主要实验结果
该论文在两个多页文档VQA基准和三个单页文档VQA基准上与其他方法进行了比较,结果如表1和表2所示,结果表明在多页和单页文档VQA任务中,论文提出的方法的性能优于之前的主流方法。
论文中还进一步对其CREAM方法的各部分进行了消融实验,结果如表3和表4所示。从结果可以看出各个模块的有效性。
四、总结及讨论
该论文提出了一种名为 CREAM 的方法,旨在能同时完成单页和多页文档VQA任务。具体来地,论文主要设计了一种从粗到细的检索算法,以提取与问题相关的OCR文本块。此外,还设计了能够处理多页文档图像的视觉编码器,并通过参数高效微调训练MLLM。在两个多页和三个单页文档VQA 基准上的结果证明了其有效性。但是该方法的性能会受到检索和排序模型性能的影响,且视觉编码器的性能相对较弱。
五、相关资源
-
论文地址: https://openreview.net/pdf?id=uxxdE9HFGI
参考文献
[1] Kenton Lee, Mandar Joshi, Iulia Raluca Turc, Hexiang Hu, Fangyu Liu, Julian Martin Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. 2023. Pix2struct: Screenshot parsing as pretraining for visual language understanding. In International Conference on Machine Learning. PMLR, 18893–18912.
[2] Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. 2021. DocVQA: A dataset for VQA on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2200–2209.
[3] Minesh Mathew, Viraj Bagal, Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny, and CV Jawahar. 2022. InfographicVQA. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 1697–1706.
[4] Ryota Tanaka, Kyosuke Nishida, and Sen Yoshida. 2021. VisualMRC: Machine reading comprehension on document images. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35. 13878–13888.
[5] Rubèn Tito, Dimosthenis Karatzas, and Ernest Valveny. 2023. Hierarchical multimodal transformers for Multipage DocVQA. Pattern Recognition 144 (2023),
109834.
[6] Jordy Van Landeghem, Rubèn Tito, Łukasz Borchmann, Michał Pietruszka, Pawel Joziak, Rafal Powalski, Dawid Jurkiewicz, Mickaël Coustaty, Bertrand Anckaert, Ernest Valveny, et al. 2023. Document understanding dataset and evaluation (DUDE). In Proceedings of the IEEE/CVF International Conference on Computer Vision. 19528–19540.
原文作者:Jinxu Zhang, Yongqi Yu, Yu Zhang
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
PDF悟空:多模态大模型与国产AI芯片成功适配,长文档多模态数据解析能力惊艳
-
[ECCV 2024] 识别复杂手写数学表达式的位置森林变换器
-
论文推荐|[ACL 2024] DocLLM: 用于多模态文档理解的布局敏感的生成语言模型
-
[ACM MM 2024] FDP:利用CLIP实现准确高效灵活的场景文字检索
-
[ICML2024] Spotlight|DAT:通过交互式注意力实现统一的多粒度文本检测
-
[CVPR 2024] RoDLA:文件版面分析模型稳健性基准测试
-
[ICDAR 2024]拼图拾取器:通过部首重组破译古代汉字
-
[CVPR 2024] 通过对比学习提高大型视觉-语言模型的文档图像理解能力
-
[CVPR 2024] LayoutLLM: 用于文档理解的Layout指令微调大模型方案
-
[CVPR 2024] 缩小端到端识别和两阶段识别的差距
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整