[发明专利]知识图谱的处理方法及装置有效
申请号: | 201811162047.2 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110019843B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 韩旭红 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;董文倩 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 处理 方法 装置 | ||
1.一种知识图谱的处理方法,其特征在于,包括:
从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;
对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;
根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;
根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充,
根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:构建矩阵,所述矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;通过预设排序算法对所述矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
2.根据权利要求1所述的方法,其特征在于,获取多组实体数据和多个候选关系模板包括:
获取所述知识图谱中的当前实体关系,其中,所述当前实体关系对应的数据类别被定义为目标实体类别;
依据所述当前实体关系,从所述待分析文本的语句中抽取与所述目标实体类别对应的多组实体数据;
从完成抽取后每个语句的剩余词语中删除预定语义词,其中,所述预定语义词至少包括:停用词;
对所述每个语句删除后剩余的文字进行组合,得到所述多个候选关系模板。
3.根据权利要求1所述的方法,其特征在于,所述预设排序算法为二部图排序算法。
4.根据权利要求1所述的方法,其特征在于,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:
获取各组实体数据和各候选关系模板之间匹配的总数量一;
确定各组实体数据与各候选关系模板之间正确匹配的数量二;
依据所述数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
5.根据权利要求4所述的方法,其特征在于,对知识图谱中的实体数据关系进行补充包括:
获取所述各组实体数据与各候选关系模板之间出现正确匹配的概率值;
选取所述概率值大于预设概率阈值所对应的实体数据;
将选取的实体数据确定为待补充实体数据;
将所述待补充实体数据补充至所述知识图谱中;
将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;
通过所述目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进所述知识图谱中。
6.根据权利要求1所述的方法,其特征在于,对知识图谱中的实体数据关系进行补充还包括:
获取每组实体数据与候选关系模板之间的匹配概率值;
选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,所述预设公式为:
其中,pattern_probr为候选关系模板中能建立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为所述预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为所述目标实体数据;
将所述目标实体数据补充进入所述知识图谱中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162047.2/1.html,转载请声明来源钻瓜专利网。