【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路

WriteUp 1年前 (2023) admin
209 0 0
【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路

2022 CCF BDCI 

第十届CCF大数据与计算智能大赛


第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束,大赛官方竞赛平台DataFountain(简称DF平台)将陆续释出各赛题获奖队伍的方案思路,欢迎广大数据科学家交流讨论。

本方案为【工业知识图谱关系抽取-高端装备制造知识图谱自动化构建】赛题的二等奖获奖方案,赛题地址:https://www.datafountain.cn/competitions/584(戳底部“阅读原文”可直达)

【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路

获奖团队简介

团队名称:翼智团

团队成员:刘欣璋(队长,付薇薇,李锡蒙

团队主要成员来源于中国电信股份有限公司数字智能科技分公司,所从事的方向有自然语言处理方向和算法工程化方向。团队成员有:

刘欣璋,25岁,现任中国电信股份有限数字智能科技分公司AI应用研发中心NLP算法工程师。

付薇薇,28岁,现任中国电信股份有限数字智能科技分公司AI应用研发中心NLP算法工程师。

李锡蒙,30岁,现任中国电信股份有限数字智能科技分公司AI应用研发中心算法工程化工程师。

所获奖项:二等奖

摘   要

在高端装备制造业中,智能化检修和诊断是装备制造业目前重点发展的方向,智能化能够大大提高产业效率,降低人工成本。在这其中,知识图谱的构建是实现智能化的重要步骤。因此,寻找更加准确、高效的方法自动构建高端装备制造业故障知识图谱就成为了一个值得重点探索的方向。

事实上,在各种高端装备领域中,实际存在着大量的故障案例文本可以作为高端装备制造业故障知识图谱构建的基础。本文正是在故障案例文本上开展了关系抽取任务。

首先,本文通过对标注了关系三元组的故障案例文本进行分析,发现了现有的语料中存在着数据量少、关系分布不均衡、长文本数据较多、标注存在缺失等问题。针对四个主要问题,本文分别进行了数据处理和数据增强:针对数据量少的问题,本文采用同义词替换等方式,对相似三元组进行替换来产生有效的新样本数据,并且通过伪标签的方式,最大可能性的利用了无标注数据;针对关系分布不均衡,本文通过数据重复的方式对文本进行了生成,并且降低了同义词替换在小类别关系上的阈值,来缓解不平衡问题;针对长文本数据较多的情况,本文参考在阅读理解任务中对长文本数据的常见处理,同过滑动窗口的形式,分别使用以字、以句为基本单位的滑动窗口,将长文本划分为有重叠部分的短文本,保证了样本关系的完整和后续模型的效果;针对部分标注存在缺失的数据,本文引入了弱监督学习的方式,尽可能利用弱标注数据。

其次,在模型构建过程中,本文参考了前沿的关系抽取模型,构建GRTE和Global Pointer两种模型分别对文本进行关系抽取,并对相关文献中提出的一些想法进行了尝试。考虑到数据存在弱标注的情况下,引入弱监督学习的方式,对模型的损失函数进行了调整,加权计算标注数据和弱标注数据的损失;在训练过程中引入了FGM对抗训练、参数EMA平滑、R-drop等方式来进一步增强了模型的鲁棒性;考虑到训练资源和训练速度的限制,通过采取混合精度运算的方式,减少了训练时间,降低了对运算资源的要求。

最后,本文通过五折交叉验证的方式对相同结构的模型进行了融合,采取分层投票的方式将不同结构模型的抽取结果进行了综合,提升模型抽取效果的同时,也加强了模型在实际应用过程中的稳定性。最终,在B榜中成绩为0.666。

关 键 词

高端装备制造,知识图谱,关系抽取,数据增强

1 背景介绍

命名实体识别和关系抽取是知识图谱构建过程中两项重要的基础任务。只有在自然语言中抽取出实体及实体之间的关系,才能构建出用于迅速描述物理世界中的概念及其相互关系的结构化的语义知识库。在高端装备制造业中,知识图谱的构建能够大大提升智能化检修和诊断的效果,因此,通过更加准确、高效的方法自动构建高端装备制造业故障知识图谱对于实现高端装备制造的智能化检修和诊断具有一定的探索意义。

在各种高端装备领域中,实际上存在着大量的故障案例文本可以作为高端装备制造业故障知识图谱构建的基础。这些故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常、以及故障排查步骤的记录,该记录包括故障现象、故障原因、解决方法以及排除故障的过程等,然而这些故障案例知识的利用受到数据结构化程度的影响,需要进行关系抽取任务才能更好的利用。因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。

2 数据构建

2.1 数据分析

本赛题共提供了约2000条数据进行训练,在官方数据集中包含特定的主体、客体、关系三者构成的三元组数目约6700个,对主客体之间的关系进行统计,关系共有四种:部件故障、性能故障、组成、检测工具,分别有6000、442、218、28个;对实际的故障案例语料长度进行统计,发现语料的长度差异较大,存在约200条长度在1000字的长文本语料。

另外,为了尽可能的扩大训练预料,队伍从公开的A榜等数据集中获得了标注存在缺失的伪标签数据,仅包含对部件故障、性能故障的标注,对于组成、检测工具两种关系的三元组标注有着严重的缺失,且与已有标注的效果无法达到此次官方提供数据集合的效果。

从上述描述分析中可以看到,本赛题在数据构建和使用上存在以下四个难点:

(1)数据量较少,实际的有效数据量约2000条。

(2)在关系的分布上存在严重的不平衡。 

(3)存在文本较长的数据,可能会引起模型效果下降。

(4)引入的公开数据集中存在标注缺失即弱标注问题。

2.2 数据处理

在数据处理的过程中,本文采用了数据增强的方式解决了数据量少、数据分布不平衡的问题,对文本长度过长的问题采取了不同的句子截断方式进行处理,对弱标注数据的使用则在模型构建阶段进行处理。

首先针对数据量少的问题,本文通过同义三元组替换的方式,生成了大量部分数据。通过寻找高度相似的三元组进行替换,可以生成可信度较高的新数据,例如:

A: 车辆开启空调时发动机熄火。

B: 车辆在爬坡加速时发动机动力下降。

A1: 车辆开启空调时发动机动力下降。

在A句中存在三元组(发动机,熄火,部件故障),B句中可以看到主体、关系均相同的相近三元组(发动机,动力下降,部件故障),通过替换三元组的方式产生了A1句,需要值得注意的是,在替换的过程当中需要对三元组的相近程度进行定义,且选择合适的阈值,来保证扩增数据的合理性、有效性。同时,为了尽可能的增加数据量,本文使用了伪标签的方法,对A榜数据集合进行了伪标注,同样参与到了最后的训练当中。

其次,针对数据分布不平衡的问题,在同义词替换阶段涉及性能故障、组成、检测工具三种关系的时,本文采用的阈值会有所放低,以尽可能产生更多的语料,缓解类别不平衡。同时对含有组成、检测工具的语料进行三元组随机插入生成和句子随机重复,在保持三元组不变的情况下,对原本的句子进行小幅度的改写增强。

最后,为了解决文本较长的问题,采用了在阅读理解任务中常用的滑动窗口的方式,将长句子划分为多个含有重复部分的短句,保证了长句中的每一个三元组,均在所划分出的短句中出现过,以此来实现从长文本向短文本的转化。

3 模型构建

3.1模型改进

在模型选择上,本文在开源的roberta中文模型、nezha中文模型的基础上,参考了已有的前沿的关系抽取方面的研究,分别尝试了GRTE和Global Pointer模型进行关系三元组抽取[1,2]

在GRTE中,本文尝试采用了原文中提出的三路召回的方式,而未使用原作者实际使用的两路召回,对于嵌套实体的情况进行了充分的考虑。

在Global Pointer中,对于分词时使用词向量和字向量分别进行了考察,并且考虑到实体识别和关系识别部分的差异而对损失函数权重进行了改写。

最后,考虑到使用了大量的弱标注数据,对总和损失函数进行了改写,采用了弱监督学习的方式,损失函数中使用加权的方式综合了弱标注和正常标注数据的损失,更合理的利用了弱标注数据。

3.2 模型训练

在训练过程中,通过加入FGM对抗训练增加嵌入层的扰动,构造出现实中不可见的困难样本来进行学习,增加模型的鲁棒性[3]

在训练过程中,使用参数EMA指数平滑,保证模型的参数是相对稳定且收敛的,能够在推理阶段模型能够给出较稳定的结果。

在训练过程中,加入R-drop的方式,来减小训练过程和推理过程模型的差距,来增强训练和推理过程所得出结果的一致性[4]

在训练过程中,不同层采用不同学习率,表征层的学习率相对较小,后续的抽取层的学习率较大,来提升模型的学习效果。

在训练过程中,采用了不同学习率衰减的方式,使用不同的学习率衰减方式可以让模型在训练过程中不容易陷入局部最优点,尽可能的收敛到全局最优的情况。

考虑训练资源限制以及对训练速度的要求,在训练过程中使用了混合精度运算的方式加快训练速度,减小所占用的训练资源。

3.3 结果合成

在结果合成阶段,首先,针对相同的结构模型,使用五折交叉验证的方式训练多个同一结构模型,并进行融合;然后,针对不同结构的模型使用多层次投票的方式,对结果进行了综合,进一步提高抽取效果的稳定性。

4 结果

在线上B榜中的成绩为0.666。在线下的测试集中进行了30次重复实验,均值约为0.762,方差为0.004。

5 不足与改进

本文在实现过程中,仍然存在着一些可以改进和优化的地方,例如:

(1) 在数据增强阶段,对相似句子可以采取更加优雅的通过模型计算相似度的方式召回。

(2) 在基础模型选择上,可以通过引入大量高端制造领域数据的方式,对预训练模型领域化,进一步提升模型在高端制造领域语料上的表征能力。

(3) 在弱标注数据使用上,可以采用Prompt的方式[5]

致  谢

在参赛的三个月不断对数据、模型进行优化的过程中,团队不断的磨合和成长,队友之间的包容和鼓励是队伍一直走下去的动力;同时,十分感谢中国电信股份有限数字智能科技分公司的领导和同事对于队伍的技术上、时间上的支持工作,为队伍提供了优越的参加竞赛的环境;最后,感谢主办方能够组织这样一次竞技氛围浓厚的比赛。

参  考

[1]任飞亮,张龙辉,尹淑娟,赵晓峰,刘石磊,李博超,刘亚铎。A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling, EMNLP2021, pp 2646–2656.

[2]苏剑林,GlobalPointer:用统一的方式处理嵌套和非嵌套NER,https://spaces.ac.cn/archives/8373

[3]Miyato T ,  Dai A M ,  Goodfellow I . Adversarial Training Methods for Semi-Supervised Text Classification[J].  2016.

[4]Liang X ,  Wu L ,  Li J , et al. R-Drop: Regularized Dropout for Neural Networks:, 10.48550/arXiv.2106.14448[P]. 2021.

[5]Liu X,Zheng Y,Du Z,et al.GPT Understands, Too:, 10.48550/arXiv.2103.10385[P]. 2021.



—End—


【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路
【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路

戳“阅读原文”,速来参赛办赛~

原文始发于微信公众号(DataFountain):【二等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「翼智团」团队思路

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...