[发明专利]一种基于BERT与先验知识特征的关系五元组抽取方法有效
申请号: | 202011099237.1 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112199491B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 马涛;倪斌;童逸琦;汪姿如;庄福振;安竹林;程坦;徐勇军 | 申请(专利权)人: | 中国科学院计算技术研究所厦门数据智能研究院 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/30;G06F16/36 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 先验 知识 特征 关系 五元组 抽取 方法 | ||
本发明公开了一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:预处理;提取语义特征向量;融合拼接;s抽取阶段;p、o抽取阶段;t、l抽取阶段;最终得到关系五元组的特征向量h+pre+s+p+o+t+l。本发明利用BERT模型与先验知识特征融合的方法抽取文本的关系五元组,利用概率图结合指针结构,解决了一种关系对应多个实体以及实体重叠的问题。
技术领域
本发明涉及计算机技术领域,特别涉及一种基于BERT与先验知识特征的关系五元组抽取方法。
背景技术
在构建知识图谱时,从非结构化文本数据中抽取知识是一个非常重要的环节,这里的知识抽取主要聚焦在关系及属性的抽取,即知识图谱中的节点和边。关系及属性抽取是指从非结构化的文本数据中抽取出实体—关系—实体或者实体—属性—属性值的结构化数据,通常将关系及属性抽取统一处理,形式化为{subject,predicate,object}三元组,即主语、谓语、宾语关系三元组,但是关系三元组没有刻画出关系的时空信息即{time,location},导致时空信息丢失,因此,关系五元组即{subject,predicate,object,time,location}的信息更加完整。
而现有的关系抽取工作大部分是针对三元组的抽取,存在如下问题:1、关系类型的分类和实体抽取环节是分开独立训练的,会带来抽取结果的误差叠加,尤其运用到五元组抽取时误差叠加的问题更加突出;2、无法很好的解决所抽取的实体和关系叠加的问题,一种关系对应多对实体只能基于简单的就近原则来抽取关系组;3、利用远程监督方法构造的训练数据集噪声较大,抽取效果不理想。
发明内容
为解决上述问题,本发明提供了一种基于BERT与先验知识特征的关系五元组抽取方法。
本发明采用以下技术方案:
一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:
S1、预处理:将待抽取文本进行预处理,得到字级别的文本序列,所述文本序列中的每个元素记为一个token;
S2、提取语义特征向量:将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h;
S3、融合拼接:对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索,将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合,得到融合特征向量h+pre;
S4、s抽取阶段:将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置,取所述subject实体首尾token的特征向量,进行向量平均操作后与token序列文本进行相加操作,对于每一个token得到特征向量h+pre+s;
S5、p、o抽取阶段:在所述特征向量h+pre+s后面接若干半指针-半标注结构同时预测predicate的类型和object的首尾位置,并编码进所述token序列文本的特征向量中,得到特征向量h+pre+s+p+o;
S6、t、l抽取阶段:在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置,并编码进所述token序列文本的特征向量中,最终得到关系五元组的特征向量h+pre+s+p+o+t+l。
进一步地,所述半指针-半标注结构为两个带sigmoid激活函数的全连接层。
进一步地,所述先验知识特征pre的标注过程为:对所述先验知识库内的五元关系组中的每个token,新增两维特征,分别表示实体的开始位置和结尾位置,若命中实体的开始位置,则一维特征值为1,否则为0,若命中实体的结尾位置,则另一维特征值为1,否则为0,所述实体包括subject、object、time和location实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所厦门数据智能研究院,未经中国科学院计算技术研究所厦门数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011099237.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:专项测试系统和方法
- 下一篇:一种复杂网络中的谣言传播控制方法及装置