[发明专利]一种基于BTBC模型的知识图谱构建方法在审
申请号: | 202110702281.5 | 申请日: | 2021-06-21 |
公开(公告)号: | CN114077673A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李飞;章韵 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04;G06N3/08;G16H50/70;G16H70/00 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 btbc 模型 知识 图谱 构建 方法 | ||
1.一种基于BTBC模型的知识图谱构建方法,其特征在于:所述BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量;
步骤2、将步骤1得到的字向量序列输入到Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层;
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度;
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系;
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中。
2.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤5具体为:
步骤5-1:通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r))zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
步骤5-2:将步骤5-1得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
其中是wi的ground truth头像量和相对应的关系标签;m是对于wi的关系数量,默认对于一个头只选出一种关系;θ是参数集合。预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。
3.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:在所述步骤3中,最后用线性映射转化为原始维度具体方法为:
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702281.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:有机化合物及电子元件和电子装置
- 下一篇:半导体元件及其制备方法