[发明专利]一种基于BERT与先验知识特征的关系五元组抽取方法有效
申请号: | 202011099237.1 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112199491B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 马涛;倪斌;童逸琦;汪姿如;庄福振;安竹林;程坦;徐勇军 | 申请(专利权)人: | 中国科学院计算技术研究所厦门数据智能研究院 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/30;G06F16/36 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 先验 知识 特征 关系 五元组 抽取 方法 | ||
1.一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:包括如下步骤:
S1、预处理:将待抽取文本进行预处理,得到字级别的文本序列,所述文本序列中的每个元素记为一个token;
S2、提取语义特征向量:将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h;
S3、融合拼接:对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索,将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合,得到融合特征向量h+pre;
所述先验知识特征pre的标注过程为:对所述先验知识库内的五元关系组中的每个token,新增两维特征,分别表示实体的开始位置和结尾位置,若命中实体的开始位置,则一维特征值为1,否则为0,若命中实体的结尾位置,则另一维特征值为1,否则为0,所述实体包括subject、object、time和location实体;
S4、s抽取阶段:将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置,取所述subject实体首尾token的特征向量,进行向量平均操作后与token序列文本进行相加操作,对于每一个token得到特征向量h+pre+s;所述半指针-半标注结构为两个带sigmoid激活函数的全连接层;
S5、p、o抽取阶段:在所述特征向量h+pre+s后面接n个半指针-半标注结构同时预测predicate的类型和object的首尾位置,并编码进所述token序列文本的特征向量中,得到特征向量h+pre+s+p+o;
步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体,即predicate关系类型有n种,则需要用到n个半指针-半标注结构进行object实体的预测;
S6、t、l抽取阶段:在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置,并编码进所述token序列文本的特征向量中,最终得到关系五元组的特征向量h+pre+s+p+o+t+l。
2.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。
3.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述BERT模型基于transformer网络结构训练得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所厦门数据智能研究院,未经中国科学院计算技术研究所厦门数据智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011099237.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:专项测试系统和方法
- 下一篇:一种复杂网络中的谣言传播控制方法及装置