一、研究背景
二、数据集简介
现有的几何题数据集要么样本规模很小,仅适用于基于规则的符号求解器,要么是粗粒度标注的,忽略了图例中的丰富信息。为了促进几何题神经求解器的发展,作者构建了一个大规模几何题数据集PGPS9K,同时标记了细粒度图例注释和可解释的求解程序。该数据集由9022个文本问题与不重复的4000个几何图例配对组成,划分的30个题型几乎涵盖了6-12年级平面几何问题的所有题型。PGPS9K数据具有以下五种特点,如图2展示:1)基于几何定理:解题过程中,需要运用几何定理或者公理知识进行代数计算,最后得到数值结果;2)图例依赖性:90%以上的问题必须结合几何图例来解决,因为部分变量内容和几何结构等必要条件是通过视觉图例来展示的,而在文本题目中无法获取;3)抽象性:图例仅包含基本的几何基元(点、线、圆)和非几何基元(文本、符号),且问题不涉及复杂的语义场景;4)细粒度:同一图例对应的几何问题在条件或求解目标上是不同的,文本问题的细微差别通常会导致完全不同的问题解决方案;5)条件冗余性:文本问题或者语义子句中部分条件在解决问题的过程中并不一定会用到。综上,这五个属性使PGPS9K专注于几何推理方面的挑战,并缓解文本问题可能引入的偏置。
PGPS9K数据集的标注包括图例标注和解题程序。图例标注采用与几何图例解析工作[5,6]相同的基元级标注,然后将其转化成结构和语义两种文本子句。结构子句描述几何基元之间的连接关系,例如点在线上或点在圆上的描述子句,其中点是按一定顺序排列的。连接关系揭示了最基本的几何结构关系,这种关系显示在几何图例中而往往被文本问题所省略。语义子句用自然语言刻画几何基元与非几何基元之间的基本关系。语义子句对应的关系是问题求解的必要组成部分,图例和文本问题相互补充。
解题程序是由多个演绎步骤组成的几何解题过程。如图3所示,解题程序由运算符OP和操作数PN组成,其中操作数包括问题变量N(出现在文本问题和语义子句中)、过程变量V(求解过程中产生的变量)、参数ARG(字母未知数[a-z])和常量C。一个运算符和一些操作数组成一个求解步骤,每个求解步骤涉及一个几何定理或公理,其中相关的操作数按照定理公式的变量语义顺序排列。与现有标注相比,该标注方法使用定理操作替换基本的算术运算,具有结构化、知识引导和可解释性等优点。搭配求解程序的标注方式,作者还构建了一个强大的程序执行器来计算数值结果。
图3 几何题求解程序的标注方式及其可解释性
三、方法原理简述
为充分融合几何题的多模态信息,作者提出一种新的神经求解器PGPSNet,如图4所示。PGPSNet的输入不但包括几何图例D和文本问题,还包含从几何图例中解析出的结构子句和语义子句,与文本问题一起构成几何问题的文本模态。几何图例经过卷积神经网络(CNN)提取视觉特征向量,所有文本模态通过一个结构和语义预训练语言模型编码。然后将这两个模态的特征向量(通常称为Token)拼接在一起,送入双向GRU编码器进行混合编码。接着,它们通过自限GRU解码器解码得到对应的求解程序序列。
3.1结构与语义预训练
从图例中解析出的文本子句是低层次的,缺乏整体结构以及上下文联系。该研究受到预训练语言模型的启发,如图5所示,基于掩码语言模型(MLM)任务,设计了一种结构和语义预训练方法。首先,为每个Token分配类别标签(Token的语义类别)和章节标签(Token所属的部分)。模型的文本模态输入Token不但融合了位置编码,还集成了类别标签和章节标签的嵌入。然后,仿照MLM的工作,用掩码Token[M]遮掉了30%的文本Token,但是保持类别标签和章节标签不变。预训练目标是以统一的文本生成方式恢复遮盖掉的文本Token。预训练使得模型具备基本的几何认知能力,而这正是几何问题推理求解的基础。
3.2 混合编码器和自限解码器
CNN编码器仅提取如几何风格的粗粒度的图例全局视觉特征,以快速确定可能的运算操,加速模型学习的收敛。双向GRU编码器将编码为视觉Token的图例,和通过结构和语义预训练语言模型增强的文本Token,进行融合学习,并输出混合的上下文编码。由于几何问题求解过程的复杂性和灵活性,求解程序无法转换为二叉树或一般表达式树。论文设计了一个自限制的GRU解码器,以自回归的方式生成顺序的解决方案程序。一方面,输入到解码器的问题变量N特征和参数ARG特征是从编码器输出的上下文编码中复制过来,这不但降低输入空间表示的复杂度,也使得解码器的输入融入丰富的上下文语义信息。另一方面,自限解码器将问题变量N和参数ARG的输出候选项限制在文本模态中出现过的,从而缩小了求解程序的搜索空间。
3.3 几何表示的数据增广
四、主要实验结果
实验首先将PGPSNet与最近提出的符号求解器InterGPS [2]和神经求解器NGS [3]、Geoformer [4]进行了比较,如表2展示。在数据集Geometry3K上,填空评价结果显示,PGPSNet大幅优于Inter-GPS(Predict),并取得了与Inter-GPS(Diagram GT)相当的性能,但略逊于InterGPS(All GT)。在选择形式上,PGPSNet已经超越了所有的输入模式下的InterGPS方法,甚至比Inter-GPS(diagram GT)高出2%。在填空和选择评价方式上,相比Inter-GPS(Diagram GT)方法,PGPSNet显示出更多的性能提升,而Top-3的结果意味着PGPSNet还有很多提升的潜力。由于合适的模态表示方法和有效的模态融合策略,与基线神经求解器、NGS和Geoformer相比,PGPSNet展示了优越的性能提升。
为了说明PGPSNet不同模块或策略的效果,实验以自限解码器、数据增广、结构子句和预训练语言模型作为对象,进行了消融实验,如表3所示:第1行和第4行之间的对比表明,数据增广通过在增广数据中注入几何表示知识,促进了几何逻辑推理;通过比较第2行和第4行,发现自限解码器提高了几何推理的性能。因为其简化了特征表示空间并限制了搜索空间,从而降低了模型学习的难度;结构和语义预训练语言模型给求解器带来了惊人的性能提升,尤其是在填空形式的评价结果上,答案准确率提升了26.6%,如第4行和第6行所示;对比第3行和第4行,还发现在未经预训练的条件下,结构子句对几何解题性能影响较小。但经过预训练后,结构子句使得几何解题性能获得大幅度的提升,如第5行和第6行所示,这揭示了基本的连接关系可以通过合适的模态融合方法,促进模型对几何结构认知,进而助力几何逻辑推理。
实验还进行了解题案例分析,以讨论解题器的能力和局限性,如图7所示。案例(a)考察了角度平分线定理的应用。方法NGS和PGPSNet w/o LM均不能正确处理在角平分线分割下,三角形对应边边长的比例关系,而PGPSNet 生成了正确的求解程序。案例(b)需要应用两类截弦长度定理,并涉及多步定理操作。对于这道题,所有解题器的解题方案都是错误的,但是PGPSNet 生成的求解程序是最接近真值标注的。综合结果表明,PGPSNet目前还不具备复杂几何推理的能力,但其具有巨大的潜力。
五、总结和讨论
六、相关资源
http://www.nlpr.ia.ac.cn/databases/CASIA-PGPS9K
参考文献
[1] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. Solving geometry problems: Combining text and diagram interpretation. In EMNLP, 2015.
[2] Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, and Song-Chun Zhu. Inter-GPS: Interpretable geometry problem solving with formal language and symbolic reasoning. In ACL-IJCNLP, 2021.
[3] Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric Xing, and Liang Lin.
GeoQA: A geometric question answering benchmark towards multimodal numerical reasoning. In Findings of ACL, 2021.
[4] Jiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen, and Xiaodan Liang. Unigeo: Unifying geometry logical reasoning via reformulating mathematical expression. In EMNLP, 2022.
[5] Ming-Liang Zhang, Fei Yin, Yi-Han Hao, and Cheng-Lin Liu. Plane geometry diagram parsing. In IJCAI, 2022.
原文作者:Zhang MingLiang, Fei Yin, Liu ChengLin
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[ACM MM 2023] 面向场景文本识别的关系对比学习
-
[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别
-
[CVPR 2023] 基于自监督隐式字形注意力的文本识别
-
[ICCV 2023] 从数据角度重新审视场景文字识别
-
[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别
-
Large Multimodal Model is all you need in OCR?
-
[TPAMI 2023]DAN: 一个用于手写文档识别的无需分割的文档注意网络
-
[PR 2023]|异构文档图像的鲁棒表检测与结构识别
-
[ICLR 2023] DINO: 带去噪训练的端到端目标检测器
-
[CVPR 2023] 视觉、文本和布局多模态模态通用文档处理统一模型
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器