[发明专利]实体匹配方法和装置有效

专利信息
申请号: 201410072492.5 申请日: 2014-02-28
公开(公告)号: CN104881413B 公开(公告)日: 2018-01-09
发明(设计)人: 兰亮;袁明轩;曾嘉 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司11205 代理人: 刘芳
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 匹配 方法 装置
【说明书】:

技术领域

发明实施例涉及通信技术领域,尤其涉及一种实体匹配方法和装置。

背景技术

在大数据的背景下,我们可以通过各种服务收集到用户在不同数据源上的行为数据,例如通过运行商的移动宽带数据源可以得到用户在真实世界里的行为轨迹数据,通过智汇云数据源可以得到用户下载和安装APP应用的信息,还有通过各种公用的应用程序接口(API)也可以很容易得到用户其它各种不同类型的数据(例如微博数据,人人网数据等等)。当前情况下,这些数据源都是相互独立的,不同的数据源分别描述了用户在不同的维度的行为信息,如果能够将这些数据源统一关联起来,就能够更清晰和更准确的了解用户,数据的作用和价值才会最大限度地发挥出来。

目前,将不同数据源统一关联起来的实现方法是对不同数据源之间进行实体匹配,现有的一种核排序(Kernelized Sorting(N.Quadrianto et al.,2010))的方法能够在无法直接计算不同数据源上数据记录之间相似性的情况下进行实体匹配,该方法首先在不同数据源上计算各自的核矩阵,不同数据源的实体(用户)数量一致,然后通过将不同数据源上的核矩阵之间的相关性最大化来进行实体匹配。另一种凸化核排序(Convex Kernelized Sorting(N.Djuric et al.,2012))方法是对核排序方法的一个扩展,凸化核排序能够保证找到一个全局的最优解,而且求解的过程可以使用一些常用的凸优化问题的软件包来实现,在效果上比核排序更加稳定和准确。

但是,上述两种方法都要求不同数据源的实体数量必须一致,在实际问题中,当两个数据源的实体数量不一致时,上述方法无法处理数据源之间的实体匹配。

发明内容

本发明实施例提供一种实体匹配方法和装置,能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率。

第一方面,本发明实施例提供一种实体匹配方法,包括:

读入第一数据源和第二数据源后,在所述第一数据源上计算出m1×m1的核矩阵K,在所述第二数据源上计算出m2×m2的核矩阵L,所述第一数据源和第二数据源的实体数量分别为m1和m2

求解第一优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第一优化目标函数如下所示:

其中,矩阵M为m2×m1的矩阵,Mij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配,Mij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配;

输出解得的矩阵M。

在第一方面的第一种可能的实施方式中,所述第一优化目标函数为:

所述求解第一优化目标函数,包括:

使用凸优化软件包求解所述第一优化目标函数。

结合第一方面或第一方面的第一种可能的实施方式中,在第一方面的第二种可能的实施方式中,所述求解第一优化目标函数之前,还包括:

根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配,不存在匹配的实体时,求解所述第一优化目标函数;

存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时,Aij=1,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第二优化目标函数如下所示:

其中,H为m1×m1的矩阵,所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。

结合第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,所述第二优化目标函数为:

所述求解第二优化目标函数,包括:

使用凸优化软件包求解所述第二优化目标函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410072492.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top