[发明专利]知识图谱中重复实体的去重方法在审
申请号: | 202210022901.5 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114386418A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 魏旭;胡彪;刘方然;徐常亮 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 重复 实体 方法 | ||
1.一种知识图谱中重复实体的去重方法,其特征在于,所述方法包括:
获取训练用知识图谱;
提取所述训练用知识图谱中一个实体的实体信息;
依据所述实体的实体信息构建多个正例和/或多个反例;
返回所述提取所述训练用知识图谱中一个实体的实体信息的步骤,直至所述训练用知识图谱中预设个数的实体中每一个实体的多个正例和/或多个反例均被构建完毕;
将所有正例和反例作为训练数据输入预训练模型,对所述预训练模型进行训练,以将预训练模型调整为实体去重模型;
获取待去重知识图谱,从所述待去重知识图谱中选取多个同名称的待去重实体;
将所述多个同名称的待去重实体导入所述实体去重模型,运行所述实体去重模型对所述待去重知识图谱进行实体去重。
2.根据权利要求1所述的知识图谱中重复实体的去重方法,其特征在于,在所述提取所述训练用知识图谱中一个实体的实体信息之后,所述方法还包括:
将实体信息中的结构化数据转化为非结构化数据。
3.根据权利要求2所述的知识图谱中重复实体的去重方法,其特征在于,所述依据所述实体的实体信息构建多个正例和/或多个反例包括:
将所述实体的实体信息拆分为多个部分信息,每一个部分信息对应所述实体的一种属性;
选取多个不同的部分信息组成不同的正例。
4.根据权利要求2所述的知识图谱中重复实体的去重方法,其特征在于,所述依据所述实体的实体信息构建多个正例和/或多个反例包括:
将所述实体的实体信息拆分为多个部分信息,每一个部分信息对应所述实体的一种属性;
选取预设数量的部分信息,将所述预设数量的部分信息依照不同的顺序排列,以组成不同的正例。
5.根据权利要求2所述的知识图谱中重复实体的去重方法,其特征在于,所述依据所述实体的实体信息构建多个正例和/或多个反例包括:
将所述实体的实体信息拆分为多个部分信息,每一个部分信息对应所述实体的一种属性;
从服务器调取多个实体模板,将所有部分信息与不同的实体模板对齐,输出不同的正例。
6.根据权利要求2所述的知识图谱中重复实体的去重方法,其特征在于,所述依据所述实体的实体信息构建多个正例和/或多个反例包括:
将所述实体的实体信息拆分为多个部分信息,每一个部分信息对应所述实体的一种属性;
从服务器中调取所述实体的至少一个必要属性标签;
依据所述实体的所有必要属性标签从服务器中搜寻每一个必要属性标签对应的多个可替换词条;
依据所述实体的一个或多个必要属性标签,将与必要属性标签对应的部分信息替换为一个可替换词条,生成一个反例;
返回所述依据所述实体的一个或多个必要属性标签,将与必要属性标签对应的部分信息替换为可替换词条,生成一个正例的步骤,以生成多个反例,每一个反例的可替换词条不同。
7.根据权利要求2所述的知识图谱中重复实体的去重方法,其特征在于,所述依据所述实体的实体信息构建多个正例和/或多个反例包括:
将所述实体作为第一实体,将所述第一实体的实体信息拆分为多个第一部分信息,每一个第一部分信息对应所述第一实体的一种属性;
选取所述待去重知识图谱中另一个实体作为第二实体,提取所述第二实体的实体信息,将所述第二实体的实体信息拆分为多个第二部分信息,每一个第二部分信息对应所述第二实体的一种属性;
获取与名称属性对应的第一部分信息,以及获取与名称属性对应的第二部分信息,将与名称属性对应的第一部分信息和与名称属性对应的第二部分信息进行调换,生成两个反例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210022901.5/1.html,转载请声明来源钻瓜专利网。