[发明专利]一种基于细粒度语义信息增强的实体关系抽取的方法在审

专利信息
申请号: 202110308269.6 申请日: 2021-03-23
公开(公告)号: CN113051929A 公开(公告)日: 2021-06-29
发明(设计)人: 贾海涛;邢增传;任金胜;许文波;任利;周焕来;贾宇明 申请(专利权)人: 电子科技大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 细粒度 语义 信息 增强 实体 关系 抽取 方法
【权利要求书】:

1.一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,该方法目标是将对一个文本句子中的实体进行识别,然后对两两实体之间的关系进行分类输出三元组,方法的步骤如下:

步骤1:在输入层加入上下文信息构建拼接句子向量;

步骤2:在编码层捕获隐藏状态向量信息;

步骤3:在实体识别层获得头实体、尾实体范围信息,进行Softmax获得实体类型信息;

步骤4:在关系识别层综合之前的隐藏特征向量、类型信息进一步抽取抽象特征;

步骤5:在输出层使用Softmax对关系进行分类。

2.根据权利要求1所述的一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,所述步骤1中的加入上下文信息拼接句子构建向量具体指的是:在实体关系抽取任务中,本发明选取句子词向量、上下文信息向量作为要编码向量,一个句子首先表示如下x=(x1,x2,…,xn)所示;

步骤1.1训练词向量

用e(xi)表示单词xi的词向量,本发明选用BERT预训练模型训练词向量,BERT模型如图2(a)所示;

步骤1.2加入上下文信息

跨句信息能很好地帮助模型去预测每一个实体的类型和实体中间的关系,尤其可以帮助我们去识别那些指代词、指代关系;因此本发明选用上下文信息作为编码层输入;如图3所示,首先设定一个W大小的上下文窗口,当前句子之前个词为上下,句子之后个词为下文,得到句子x=(x1,x2,…,xm)将其作为模型的输入,然后进行BERT词向量转化,如公式1所示;

X=(x1,x2,...,xN) (1)

其中,xi∈Rd是第i个单词xi的词向量,维度为d维,X∈RN×d,维度为N×d维。

3.根据权利要求2所述的一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,所述步骤2中的在编码层捕获隐藏状态向量信息具体是指:

针对不同的任务,编码层和解码层可以选用不同的组合方式,比如,在图像处理任务上,通常使用卷积神经网络构成编码层,不过对于实体关系抽取这样的自然语言处理领域任务,通常会选取循环神经网络,而因为RNN、LSTM编码句子的语义信息能力有限,无法完全提取句子的全部特征;因此,本发明选用BERT预训练语言模型作为编码层结构,模型结构如图2(b)所示;则编码层输出隐藏特征向量如公式2所示;

hi=BERTencoder(X) (2)

其中,X是包含上下文信息的句子嵌入向量,hi为编码层输出的隐藏特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110308269.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top