[发明专利]一种构建知识图谱的方法、装置、电子设备及存储介质在审
| 申请号: | 202110736340.0 | 申请日: | 2021-06-30 |
| 公开(公告)号: | CN113449119A | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 潘云嵩 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/284;G06F40/289 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;李丹 |
| 地址: | 519015 广东省珠*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 构建 知识 图谱 方法 装置 电子设备 存储 介质 | ||
1.一种构建知识图谱的方法,其特征在于,包括:
根据第一词库包含的第一词汇,确定知识图谱的节点;
基于词向量模型获取所述第一词汇的词向量;其中,所述词向量模型通过无监督训练的方式预训练得到;
根据第一词汇的词向量间的关系,确定所述知识图谱中建立边的节点,为所述确定的节点建立边。
2.如权利要求1所述的构建知识图谱的方法,其特征在于,所述根据第一词库包含的第一词汇,确定知识图谱的节点之前,所述方法还包括:
对第一语料进行分词,得到第一词语序列;
根据第一词语序列获取多个候选词,所述候选词由所述第一词语序列中两个相邻的词语组成;
根据所述候选词的相关度选择至少一个所述候选词保存为所述第一词库中的第一词汇。
3.如权利要求2所述的构建知识图谱的方法,其特征在于,根据所述候选词的相关度选择至少一个候选词保存为所述第一词库中的第一词汇,包括:
计算每个候选词的相关度;
将所述候选词按照所述相关度从大到小的顺序进行排序;
选择排序在前N位的所述候选词,作为所述第一词汇保存在所述第一词库中;其中,N为正整数。
4.如权利要求2所述的构建知识图谱的方法,其特征在于:
所述相关度为互信息值,或所述相关度为左信息熵、右信息熵以及所述互信息值的总和。
5.如权利要求2所述的构建知识图谱的方法,其特征在于,所述根据相关度选择至少一个所述候选词保存为所述第一词库中的第一词汇之前,所述方法还包括:
在所述相关度不满足相关度判断条件的情况下,利用所述候选词和所述第一词语序列中与所述候选词相邻的词语,构建新的候选词。
6.如权利要求4或5中任一项所述的构建知识图谱的方法,其特征在于,所述词向量模型为Word2Vec模型,所述方法包括:
对第二语料进行分词得到第二词语序列;其中,所述第二词语序列包含至少一个第一词汇;
获取第一词库包含的第一词汇,分别对每个第一词汇执行以下操作训练Word2Vec模型,得到第一词汇的词向量:
针对每个第一词汇,从所述第二词语序列中提取位于当前处理第一词汇之前和当前处理第一词汇之后的预定个数的词语输入所述Word2Vec模型;
将Word2Vec模型的输出值与所述当前处理第一词汇进行比较,根据比较结果迭代所述Word2Vec模型,直到比较结果满足预定条件,以所述Word2Vec模型的权重作为所述第一词汇的词向量。
7.如权利要求4或5中所述的构建知识图谱的方法,其特征在于,所述根据第一词库包含的第一词汇,确定知识图谱的节点,包括:
对于每个第一词汇,分别在所述知识图谱中建立一个对应的节点;
所述根据第一词汇的词向量间的关系,建立所述知识图谱中节点间的边,包括:
计算每两个第一词汇间的特征距离;
对于所述特征距离小于预设距离阈值的两个第一词汇,在所述知识图谱中两个第一词汇对应的节点之间建立边。
8.如权利要求7所述的构建知识图谱的方法,其特征在于,所述方法还包括:
确定第一词汇对应的节点已有边的数量;
在所述已有边的数量未超过边数上限的情况下,在所述知识图谱中该两个第一词汇对应的节点之间建立边。
9.一种构建知识图谱的装置,其特征在于,包括:
节点确定模块,用于根据第一词库包含的第一词汇,确定知识图谱的节点;
词向量获取模块,用于基于词向量模型获取所述第一词汇的词向量;其中,所述词向量模型通过无监督训练的方式预训练得到;
关系确定模块,用于根据第一词汇的词向量间的关系,确定所述知识图谱中建立边的节点,为所述确定的节点建立边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110736340.0/1.html,转载请声明来源钻瓜专利网。





