[发明专利]基于卷积神经网络和改进级联标注的快速关系抽取方法有效
申请号: | 202210442561.1 | 申请日: | 2022-04-26 |
公开(公告)号: | CN114548090B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 汪鹏;李国正 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 改进 级联 标注 快速 关系 抽取 方法 | ||
基于卷积神经网络和改进级联标注的快速关系抽取方法。首先,基于由膨胀卷积、门控单元和残差连接组成的深度神经网络的文本编码器将初始文本进行编码,得到具有丰富上下文语义的文本编码表示。然后,根据得到的文本编码,采用改进级联标注,头实体标注器标注出所有头实体的跨度以及它们对应的实体类型。接着,通过文本编码表示和头实体的特征表示,尾实体标注器标注出每个头实体对应的所有的尾实体。最后,通过真实世界中的关系抽取任务来验证。本发明具有快速的训练和预测优势,能满足面向海量文本的关系抽取场景的需求。
技术领域
本发明属于人工智能自然语言处理领域,具体为基于卷积神经网络和改进级联标注的快速关系抽取方法。
背景技术
自然语言处理技术是认知智能的核心技术之一,是支撑语义搜索、智能问答、辅助大数据分析等人工智能应用场景的知识基础,而其中关系抽取任务的目标是确定自然文本中两个实体之间的关系。最近关系抽取的研究取得了重大进展,然而,在真实的应用场景,关系抽取模型需要同时保持速度和性能的较高需求。例如,金融领域的投资者的投资决策依赖于从大量实时新闻和金融政治数据中抽取关系三元组构成的知识图谱。然而,大多数现有的方法缺乏考虑模型训练和推理所消耗的时间,无法有效地从文本中提取关系。早期研究采用近似频率计数和降维来加速无监督关系抽取中的相似性计算,并采用神经度量学习方法来加速关系抽取,基于卷积神经网络(CNN)的各种方法在解决这一问题方面也显示出了有效性。然而,这些努力未能解决关系抽取在性能和速度方面的挑战。关系抽取性能的最新进展主要是由于采用了带有Transformer的编码器基于预训练的语言模型(PLMS),如BERT和RoBERTa,它们具有强大的能力来捕获远程依赖关系和上下文语义特征。然而,Transformer中基于token对的注意操作需要在GPU中消耗大量时间和内存。此外,PLMs的内存消耗限制了模型训练和推理期间的批量大小,这意味着模型被限制在有限的计算资源内设置相对较小的批量大小。虽然这在训练中不是一个严重的问题,但它限制了推理的并行处理能力。另一方面,最近的工作也显示了级联二进制标记框架在解决重叠关系方面的有效性。然而,该框架存在两个缺点:关系冗余和泛化差。关系冗余,即对所有关系提取尾部实体,会导致大量无意义的计算。此外,由于级联二进制标记框架将多标签问题简化为二进制分类问题,因此需要启发式阈值调整,并引入边界决策错误。
本发明设计了一种新的卷积结构来解决编码器的计算效率问题,而不是使用Transformer。它通过膨胀卷积、门控单元和残差连接显著加快了训练和推理速度。首先,膨胀卷积使网络输出的接收区域相对于网络深度呈指数增长,这导致计算路径大幅缩短,并捕获任意长距离的依赖关系。换言之,使用膨胀卷积可以实现层数较少的普通卷积的高效率。其次,门控单元用于控制哪些信息应该通过层的层次结构传播。然后利用残差连接避免梯度消失,实现深度卷积网络。我们的卷积编码器不仅大大减少了模型训练和推理所消耗的时间,而且保证了在关系抽取中的竞争性能。随后,我们引入了实体类型到预定义关系(类型-关系)的映射机制和位置相关的自适应阈值策略,以改进级联二进制标记框架。具体而言,头部实体类型和预定义关系之间的映射是保持的,当头部实体类型被确定时,其潜在的对应关系也被确定。在这种机制下,在预测重叠关系时避免了对所有关系的遍历。此外,将实体类型信息纳入关系抽取可以提高其最终性能。在执行二进制标记时,位置相关自适应阈值将全局阈值替换为句子中不同位置的可学习阈值。通过基于等级的排序损失函数学习阈值,该函数在训练中将正类分数推到阈值以上,将负类分数拉到阈值以下。标记器将一个位置设置为1,其得分高于其位置相关阈值,或将一个位置设置为0,其得分较低。该策略避免了阈值调整,并使阈值可调整到不同的标记位置,从而实现更好的泛化。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210442561.1/2.html,转载请声明来源钻瓜专利网。