[发明专利]一种评测知识图谱的方法、装置、计算机存储介质及终端有效
申请号: | 202010206421.5 | 申请日: | 2020-03-23 |
公开(公告)号: | CN111428050B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张杰;付骁弈;李嘉琛;陈栋;吴信东 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;龙洪 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评测 知识 图谱 方法 装置 计算机 存储 介质 终端 | ||
1.一种评测知识图谱的方法,包括:
通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合,包括:
在构建所述机器图谱的知识图谱构建算法中配置所述抽取规则;
通过配置完所述抽取规则的知识图谱构建算法对所述测试数据集进行元组抽取,以根据抽取出的所有元组组成所述机器元组集合;
其中,所述抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从所述测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差;
所述机器元组集合包括三元组、二元组和一元组;
比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从所述机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与所述标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与所述标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为所述标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与所述标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值;
根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
2.根据权利要求1所述的方法,其特征在于,所述机器元组集合包括以下元组中的两种或全部:
三元组、二元组和一元组;
其中,所述三元组包括以下元素组合的元组:实体和关系;所述二元组包括以下元素中的两种元素组成的元组:实体、关系和属性;所述一元组由实体组成。
3.根据权利要求1所述的方法,其特征在于,所述根据获得的得分信息进行机器图谱的质量评测包括:
为所述标准元组集合中的每一个元组,按照预设的权重策略分别配置相应的运算权重;
根据分值确定时标准元组集合中用于比对的元组的运算权重及通过所述分值确定出的得分,计算加权累计积分WCS;
根据计算出的所述WCS,确定用于评测机器图谱质量的平均加权累计积分AWCS。
4.根据权利要求3所述的方法,其特征在于,所述WCS通过以下公式之一计算:
式中,所述scorei表示采用标准元组集合中第i个元组进行比对时获得的得分;ranki表示获得所述scorei时,用于比对的标准元组集合中第i个元组的运算权重;所述p表示标准元组集合中的元组个数;所述运算权重大于或等于1。
5.根据权利要求4所述的方法,其特征在于,所述AWCS通过以下公式计算:
其中,所述n表示所述测试数据集中的样本数;所述IWCS表示标准元组集合与机器元组集合中的元组完全相同时WCS的运算得分。
6.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~5中任一项所述的评测知识图谱的方法。
7.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如执行权利要求1~5中任一项所述的评测知识图谱的方法。
8.一种评测知识图谱的装置,包括:抽取单元、比对单元和评测单元;其中,
抽取单元用于:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合,包括:
在构建所述机器图谱的知识图谱构建算法中配置所述抽取规则;
通过配置完所述抽取规则的知识图谱构建算法对所述测试数据集进行元组抽取,以根据抽取出的所有元组组成所述机器元组集合;
其中,所述抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从所述测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差;
所述机器元组集合包括三元组、二元组和一元组;
比对单元用于:比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从所述机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与所述标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与所述标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为所述标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与所述标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值;
评测单元用于:根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010206421.5/1.html,转载请声明来源钻瓜专利网。