[发明专利]一种实体链接方法及系统、设备和存储介质在审

专利信息
申请号: 202111054119.3 申请日: 2021-09-09
公开(公告)号: CN113760995A 公开(公告)日: 2021-12-07
发明(设计)人: 黄艳香 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2458
代理公司: 青岛清泰联信知识产权代理有限公司 37256 代理人: 陈宇瑄
地址: 200030 上海市徐汇区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实体 链接 方法 系统 设备 存储 介质
【说明书】:

本申请公开了一种实体链接方法,包括:属性区分度计算步骤:基于属性区分度算法,计算多个数据源实体的至少一个属性的属性区分度;链接步骤:基于所述数据源实体的属性区分度,判断所述多个数据源实体是否匹配,完成所述多数据源实体的链接。本发明方法提出了属性区分度,给属性在实体链接中的重要程度提供量化计算方式,辅助实体链接算法提高准确率及减少人工算法设计成本。

技术领域

本申请涉及数据处理领域,特别是涉及一种实体链接方法、系统、计算机设备和计算机可读存储介质。

背景技术

当前,结构化、半结构化数据广泛存在于各类企业中,但由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题。将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而实体链接是这一过程中非常重要的一环。举例来讲,数据源1有个“张三,男,30岁,明略科技”,数据源2有个“张三,男,28岁,秒针”,判断两个“张三”是否是同一人,并将所有数据源中表示同一个“张三”的实体数据链接起来,便是实体链接的任务目标。实体往往由多个属性-值对描述,如“姓名:张三;性别:男”描述名叫张三的男性实体,其中“姓名”、“性别”为属性名,具体来讲,在行列数据库中,属性可能以列名形式存储,在key-value数据库中,属性可能是key名,为方便叙述,以下我们统一以属性-值代指各类数据结构中的表示属性的数据。

现有实体链接的技术一般可以分为以下几类:

1)基于业务规则的实体链接:领域专家基于经验和对数据的观察,提出匹配策略。

2)特征向量加传统机器学习:一般通过构建各种基于相似度的特征向量,使用标注数据训练分类模型,然后基于模型对要匹配的实体对进行预测。

3)词嵌入(word embedding)方法加深度学习:一般通过词嵌入方法学习词语的特征表达,基于此优化实体对的相似度计算,使用标注数据训练深度学习分类模型,然后基于模型对要匹配的实体对进行预测。

4)基于自然语言模型的方法:将实体的各个字段和数据进行拼接,每个实体转化为句子,基于标注数据训练模型,用自然语言模型判断句子语义是否相似的方式来判断两个实体对是否匹配。

目前针对相关技术中,存在以下瓶颈,尚未提出有效解决方案:

现有方法中深度学习和基于自然语言模型的方法虽然准确度较高,但存在算法复杂度高、所需资源多、运算时间长等问题。因此,基于规则的实体链接和传统的机器学习方法仍广泛应用,其主要问题为准确度不够高、通用性不强,所需人工成本较高。

因此,基于上述现有技术中存在的问题,本发明方法主要解决现有基于规则或机器学习的实体链接方法准确度不够高、所需人工成本较高的问题。通过提出一种对属性区分度进行量化计算的算法,为实体链接算法设计提供更多数据洞察信息,辅助提高实体链接准确度,减少人工分析设计成本。

发明内容

本申请实施例提供了一种用户隐私数据的随机分组存储,推荐服务器端的不依赖用户信息存储的推荐实现方式,可以保证用户的隐私数据得到保护,在客户端不会有完整存储,在服务器端不会有留存。

第一方面,本申请实施例提供了一种实体链接方法,包括:

属性区分度计算步骤:基于属性区分度算法,计算多个数据源实体的至少一个属性的属性区分度;

链接步骤:基于所述数据源实体的属性区分度,判断所述多个数据源实体是否匹配,完成所述多数据源实体的链接。

在一些实施例中,上述属性区分度算法为:

属性区分度v:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111054119.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top