[发明专利]一种评测知识图谱的方法、装置、计算机存储介质及终端有效
申请号: | 202010206421.5 | 申请日: | 2020-03-23 |
公开(公告)号: | CN111428050B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张杰;付骁弈;李嘉琛;陈栋;吴信东 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;龙洪 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评测 知识 图谱 方法 装置 计算机 存储 介质 终端 | ||
一种评测知识图谱的方法、装置、计算机存储介质及终端,本发明实施例抽取两种或两种以上元素个数不同的元组后,通过机器元组集合和标准元组集合的比对进行知识图谱的质量评测,提升了知识图谱的评测质量。
技术领域
本文涉及但不限于知识图谱技术,尤指一种评测知识图谱的方法、装置、计算机存储介质及终端。
背景技术
在信息时代,很多信息都是在互联网上以文本的方式发布。如何从互联网发布的信息中抽取出知识片段成为一项重要的任务。抽取非结构文本是从互联网中抽取知识片段的一种方法,根据抽取出来的知识片段包含的信息可以构建知识图谱,评价以非结构文本构建的知识图谱的质量,成为本领域技术人员研究的一个课题。
对以非结构化文本构建的知识图谱,相关技术主要通过以下方法进行质量评测:1、构建测试数据集;测试数据集的内容尽可能保持多样,能够反应知识图谱所在应用场景下的数据分布;2、对测试数据集中的每条样本进行人工标注,生成基于三元组的标准图谱;三元组形式为:(主语,谓语,宾语);3、使用待评价的知识图谱构建算法,对测试数据集进行知识片段的抽取后,根据抽取的知识片段构建机器图谱(为区分标准图谱,本文将由知识图谱构建算法构建的知识图谱定义为机器图谱);4、通过机器图谱与标准图谱的比较,确定机器图谱的质量;评测机器图谱质量的指标为F1,其计算公式为:
F1=2*准确率*召回率/(准确率+召回率);
其中,准确率(precision)=机器图谱中的三元组与标准图谱中的三元组的交集的数量/机器图谱中三元组的总数量;召回率(recall)=机器图谱中的三元组与标准图谱中的三元组的交集的数量/标准图谱中三元组的总数量。
相关技术仅以三元组作为机器图谱质量评测的基础参考信息,基础参考信息数据单一,无法全面有效的评测机器图谱的质量;如何提升机器图谱的评测质量,成为一个有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种评测知识图谱的方法、装置、计算机存储介质及终端,能够提升知识图谱的评测质量。
本发明实施例提供了一种评测知识图谱的方法,包括:
通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述评测知识图谱的方法。
再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述评测知识图谱的方法。
还一方面,本发明实施例还提供一种评测知识图谱的装置,包括:抽取单元、比对单元和评测单元;其中,
抽取单元用于:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
比对单元用于:比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
评测单元用于:根据获得的得分信息进行机器图谱的质量评测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010206421.5/2.html,转载请声明来源钻瓜专利网。