[发明专利]一种基于细粒度语义信息增强的实体关系抽取的方法在审
申请号: | 202110308269.6 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113051929A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 贾海涛;邢增传;任金胜;许文波;任利;周焕来;贾宇明 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 细粒度 语义 信息 增强 实体 关系 抽取 方法 | ||
1.一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,该方法目标是将对一个文本句子中的实体进行识别,然后对两两实体之间的关系进行分类输出三元组,方法的步骤如下:
步骤1:在输入层加入上下文信息构建拼接句子向量;
步骤2:在编码层捕获隐藏状态向量信息;
步骤3:在实体识别层获得头实体、尾实体范围信息,进行Softmax获得实体类型信息;
步骤4:在关系识别层综合之前的隐藏特征向量、类型信息进一步抽取抽象特征;
步骤5:在输出层使用Softmax对关系进行分类。
2.根据权利要求1所述的一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,所述步骤1中的加入上下文信息拼接句子构建向量具体指的是:在实体关系抽取任务中,本发明选取句子词向量、上下文信息向量作为要编码向量,一个句子首先表示如下x=(x1,x2,…,xn)所示;
步骤1.1训练词向量
用e(xi)表示单词xi的词向量,本发明选用BERT预训练模型训练词向量,BERT模型如图2(a)所示;
步骤1.2加入上下文信息
跨句信息能很好地帮助模型去预测每一个实体的类型和实体中间的关系,尤其可以帮助我们去识别那些指代词、指代关系;因此本发明选用上下文信息作为编码层输入;如图3所示,首先设定一个W大小的上下文窗口,当前句子之前个词为上下,句子之后个词为下文,得到句子x=(x1,x2,…,xm)将其作为模型的输入,然后进行BERT词向量转化,如公式1所示;
X=(x1,x2,...,xN) (1)
其中,xi∈Rd是第i个单词xi的词向量,维度为d维,X∈RN×d,维度为N×d维。
3.根据权利要求2所述的一种基于细粒度语义信息增强的实体关系抽取方法,其特征在于,所述步骤2中的在编码层捕获隐藏状态向量信息具体是指:
针对不同的任务,编码层和解码层可以选用不同的组合方式,比如,在图像处理任务上,通常使用卷积神经网络构成编码层,不过对于实体关系抽取这样的自然语言处理领域任务,通常会选取循环神经网络,而因为RNN、LSTM编码句子的语义信息能力有限,无法完全提取句子的全部特征;因此,本发明选用BERT预训练语言模型作为编码层结构,模型结构如图2(b)所示;则编码层输出隐藏特征向量如公式2所示;
hi=BERTencoder(X) (2)
其中,X是包含上下文信息的句子嵌入向量,hi为编码层输出的隐藏特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308269.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置