[发明专利]记录链接数据匹配方法及装置在审

专利信息
申请号: 202110605430.6 申请日: 2021-05-31
公开(公告)号: CN113342810A 公开(公告)日: 2021-09-03
发明(设计)人: 黄思创;鲁金彪;陆杰文;罗鹏飞 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F7/58
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 孙乳笋;刘熔
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 记录 链接 数据 匹配 方法 装置
【说明书】:

发明提供一种记录链接数据匹配方法及装置,属于信息安全技术领域。该记录链接数据匹配方法包括:根据数据范围和编码长度生成随机数据序列;根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。本发明可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。

技术领域

本发明涉及信息安全技术领域,具体地,涉及一种记录链接数据匹配方法及装置。

背景技术

在数据库管理、信息检索和机器学习等领域中,如何从不同的数据源中提取、匹配并解析出描述同一个实体的数据是一项长期以来难以解决的问题。这一问题被称为记录链接问题。准确而快速地完成记录链接的任务在商业和科学领域都有着重大的实际意义。

近年来随着物联网和云计算等技术的发展,各大互联网公司收集到的用户数据越来越多,由于不同厂商之间的商业利益等因素,这些数据通常不能够进行共享,导致了许多冗余数据的存在。在当前大数据的背景下,为了让数据更好的服务于人类,综合不同数据源的数据进行分析是一个很有意义的研究,并且综合分析出的数据更加具有代表性与说服性。而目前实现该目标所用到的一个重要技术就是记录链接,记录链接技术是利用统计学原理找出不同数据集中的相关记录是否是同一个体的技术。一个典型的应用场景就是医疗记录中的记录链接。用户看病时可能会在不同的医院进行就诊,而不同医院的就诊记录又是不相通的。对于医生来说,如果可以知道患者以往的就医记录,那么对于下一次的就医就会提供更精确的指导意见。而记录链接技术允许在不同的数据集中找到相同的实体,所以可用来完成这个任务。

记录链接的过程一般包含一下几个步骤,分别是数据预处理、索引、比较和分类。首先是数据预处理,由于现实生活中收集到的数据一般是含噪声的,不完整的或者是不连续的,因此需要通过数据清洗的方式对数据进行预处理。其次是数据索引,相似的数据通过索引被分成一组,在匹配的过程中可以大大减少匹配的数量,加快匹配的过程。经过索引后将可能的记录再进行匹配,这一过程叫做比较过程。经过比较过程之后,记录之间被分为相似记录、不相似记录和可能相似记录。通常对于相似记录,在匹配算法足够有效和阈值设置足够合理的前提下倾向于这些来自于不同数据集的记录描述的是同一个实体。对于可能相似的记录,还需要根据人为经验进行进一步的评估。

当前,记录链接技术的一大挑战就是如何在记录匹配的过程中保护用户的隐私。通常来说,用来匹配的字段都是区分性很强的属性,如姓名和年龄等,直接用明文的方式匹配虽然可以达到很高的精确度,但是在不加任何隐私保护措施的情况下侵犯了用户的隐私。基于这个出发点,保护隐私的记录链接技术也被提了出来,用来在保护用户隐私的同时完成记录链接的任务。一类可以实现保持隐私的记录链接的方法是匿名化方法。匿名化的方法在一定程度上解决了保护隐私的需求,但是由于匿名化方法的使用,如何在匿名空间中进行数据匹配便成了一大挑战。

发明内容

本发明实施例的主要目的在于提供一种记录链接数据匹配方法及装置,以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。

为了实现上述目的,本发明实施例提供一种记录链接数据匹配方法,包括:

根据数据范围和编码长度生成随机数据序列;

根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;

根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;

根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。

本发明实施例还提供一种记录链接数据匹配装置,包括:

随机数据序列模块,用于根据数据范围和编码长度生成随机数据序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110605430.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top