[发明专利]知识图谱中重复实体的去重方法在审
申请号: | 202210022901.5 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114386418A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 魏旭;胡彪;刘方然;徐常亮 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 重复 实体 方法 | ||
本申请涉及一种知识图谱中重复实体的去重方法,通过利用一个训练用知识图谱中实体的实体信息构建多个正和/或反例作为预训练模型调整的训练数据,节省标注成本,而且将实体去重目标转化为文本二分类任务,大大降低了实体去重的难度,不用引入量化计算的指标,且正反例数量足够多的条件下,调整后的预训练模型作为实体去重模型,它的去重准确率不会降低,反而相对传统去重方法会有显著的提高。
技术领域
本申请涉及图书情报技术领域,特别是涉及一种知识图谱中重复实体的去重方法。
背景技术
知识图谱是一种重要的结构化数据存储方式,它以实体为基本单元,通过关系将各个实体进行关联,能够很好的存储实体属性和实体关系,在各类数据存储和信息检索中有重要应用。随着人工智能项目在中文各领域的不断落地,越来越多的中文知识图谱项目被搭建,单个知识图谱的数据体量也越来越大。
随着知识图谱体量的增大,知识图谱数据质量的管理就是一个棘手的问题,其中一个重要问题是如何对知识图谱中的重复实体进行去重判断和去重融合。
传统重复实体的去重方法是无监督的实体去重算法,先利用“名称”召回知识图谱中的待去重同名实体,然后根据获取两个实体对应的属性,利用规则(比如性别是否相同、出生地是否存在层级包含关系等)、编辑距离(一种文本相近表达的方法)和向量表征(Word2Vec,ELmo等)等方法计算两个实体的相似度,然后对相似度进行加权平均或者逻辑筛选或是设定阈值,判断两个实体是否为同一实体。
然而,这种方法的主要缺陷是,由于是基于计算量化指标去判断两个实体是否相同,因此在去重之前需要针对不同类型实体配置和维护大量的规则。比如“诗词”、比如地点中的“省市县”,这些需要额外人工整理并添加规则,特殊类型实体还需要咨询领域中的专业人士获取专业意见,去重方法的非通用性无疑增大了此类方法在知识图谱中的推广和落地难度。
发明内容
基于此,有必要针对传统知识图谱中重复实体的去重方法需要针对不同类型实体配置和维护大量的规则的问题,提供一种知识图谱中重复实体的去重方法。
本申请提供一种知识图谱中重复实体的去重方法,包括:
获取训练用知识图谱;
提取所述训练用知识图谱中一个实体的实体信息;
依据所述实体的实体信息构建多个正例和/或多个反例;
返回所述提取所述训练用知识图谱中一个实体的实体信息的步骤,直至所述训练用知识图谱中预设个数的实体中每一个实体的多个正例和/或多个反例均被构建完毕;
将所有正例和反例作为训练数据输入预训练模型,对所述预训练模型进行训练,以将预训练模型调整为实体去重模型;
获取待去重知识图谱,从所述待去重知识图谱中选取多个同名称的待去重实体;
将所述多个同名称的待去重实体导入所述实体去重模型,运行所述实体去重模型对所述待去重知识图谱进行实体去重。
本申请涉及一种知识图谱中重复实体的去重方法,通过利用一个训练用知识图谱中实体的实体信息构建多个正例和/或反例作为预训练模型调整的训练数据,节省标注成本,而且将实体去重目标转化为文本二分类任务,大大降低了实体去重的难度,不用引入量化计算的指标,且正反例数量足够多的条件下,调整后的预训练模型作为实体去重模型,它的去重准确率不会降低,反而相对传统去重方法会有显著的提高。
附图说明
图1为本申请一实施例提供的知识图谱中重复实体的去重方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210022901.5/2.html,转载请声明来源钻瓜专利网。