[发明专利]一种基于预训练模型结合句法子树的关系分类方法在审
申请号: | 202111641146.0 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328924A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 姜明;孟佳营;张旻 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 结合 句法 子树 关系 分类 方法 | ||
本发明公开了一种基于预训练模型结合句法子树的关系分类方法。首先是利用BERT预训练模型构建词向量、句子表征向量、实体向量。为了结合句法信息,利用Spacy工具包对于句子进行依存句法分析,然后对于分析结果进行预处理,得到边以及边的类别。在结合句法信息时利用循环神经网络RvNN进行递归计算,得到每个子树的表征向量,这一步的目的是得到句法依赖树的拓补信息、语义信息、边的类别信息。将每个子树的表征向量进行最大池化获得树的表征向量。将实体向量、句子表征向量、树的表征向量进行拼接,然后进行关系类别预测。本发明能更好的解决词向量和句法子树信息融合的问题,并且能提取到更深层的、信息更充分的词向量,具有很好的鲁棒性。
技术领域
本发明涉及关系分类技术领域,具体来讲是一种基于预训练模型结合句法子树的关系分类方法。
背景技术
关系分类,是在不需要人工干预的情况下,从非结构化文本中对两个实体进行预测关系类别的任务。
关系分类任务是一个重要的自然语言处理任务,通常被用作各种自然语言处理应用的中间步骤。近年来深度神经网络被用于关系分类,通常的方法使用依存句法分析或者命名实体识别技术,通过深度神经网络提取特征,从而获得语义特征向量。
部分专家提出将递归神经网络应用于关系分类的方法,该方法为句法分析树中的每个节点分配一个矩阵向量表示,并根据解析树的语法结构从下向上计算完整的句子表示向量。有的研究人员提出一种将词汇嵌入和位置特征作为输入的CNN模型。他们将词汇特征和CNN的输出向量连接成一个单一的向量,然后送入softmax函数进行预测关系类别。在2015年,专家提出一种基于因子的成分嵌入模型,该模型通过依赖树和命名实体从词汇嵌入中构建句子级和子结构嵌入。
一方面,研究人员通过使用名为CR-CNN的进行排序来处理关系分类任务。模型的损失函数是基于两两排序的。在2019年,部分研究人员利用BERT预训练模型的天然优势,将文本句转换为词向量,然后将两个实体向量进行拼接输入到softmax函数进行分类,使得模型架构十分精简,准确率获得巨大提升。在2020年,有的研究人员在BERT预训练模型的基准上使用依存句法分析,首先对于关系的谓词进行筛选,然后将文本句输入到BERT预训练模型中得到句子向量,之后将谓词向量、实体向量进行拼接输入到分类函数中,对于关系类别进行预测。
另一方面,研究人员认为图卷积神经网络可以更好的解决文档级关系抽取(输入一段话,句子中存在多个实体,确定实体关系)。在图神经网络之前利用句法依赖树建图,之后利用图卷积神经网络进行特征提取,更好的解决了实体间依赖丢失的问题,取得了较好的效果。
发明内容
在综合考量上述问题后,本发明针对现有技术存在的问题,提出一种基于预训练模型结合句法子树的关系分类方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)对数据集中的句子S进行分词,构建输入序列;将输入序列通过BERT预训练模型,获得每个词的输入词向量、整句话的句子表征向量、两个需要预测关系类别的实体向量。
步骤(2)对数据集中的句子S,利用Spacy工具进行依存句法分析,得到句子中词与词之间的边、边的类别以及句法依赖树,利用映射函数将边的类别转换成边的类别id。
步骤(3)以句法依赖树中两个实体为叶子节点,并计算两个叶子节点的最近公共祖先节点;获得以最近公共祖先节点为根,两个实体节点为叶子的子树,将输入词向量中该子树部分的词向量、边的类别id、边输入到递归神经网络RvNN进行计算,得到每个子树表征向量。
步骤(4)将所有子树表征向量进行最大池化,得到句子的树表征向量。
步骤(5)将句子表征向量、句子的树表征向量、两个需要预测关系类别的实体向量进行拼接输入到softmax分类函数中进行分类,预测关系类别。
本发明的有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111641146.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移相器及天线
- 下一篇:图像处理方法、装置、电子设备及存储介质