[发明专利]一种基于分布式架构的实体匹配方法有效
申请号: | 201410025006.4 | 申请日: | 2014-01-20 |
公开(公告)号: | CN103761298B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 陈杰;金澈清;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙)31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式架构的实体匹配方法,依次包括如下步骤块生成步骤,对于每个数据元组生成若干个关键词,合并具有相同关键词的数据元组得到若干个块;接口实现步骤,将包含过多数据元组的块分割成多个子块,对于每个块或者子块生成至少一个数字签名sig并计算数字签名sig的Tightness Index值;实体匹配步骤,将包含过多数据元组的块分割成多个子块,选取块或者子块具有Tightness Index值最小的sig作为其Key值,随后构建两两待比较记录对进行实体匹配并采用集合记录已匹配的记录对。本发明适用于分布式文件系统,可均衡多个节点的负载,并可避免重复比较记录对,提高分布式文件系统整体的运行性能。 | ||
搜索关键词: | 一种 基于 分布式 架构 实体 匹配 方法 | ||
【主权项】:
一种基于分布式架构的实体匹配方法,该方法是对分布式文件系统中相似数据元组进行匹配的方法,其特征在于,依次包括如下步骤:块生成步骤,采用多个块生成函数对于每个数据元组生成至少一个关键词,将具有相同关键词的数据元组合并为一个块;接口实现步骤,包括下述子步骤:a.设定块中包含最大数据元组数的阈值,当块所含数据元组数大于阈值时对其进行均匀分割,得到多个所含数据元组数量不超过阈值的自交子块,将所述自交子块交叉合并,生成所含数据元组数量不超过阈值的两倍的交叉子块,直至分割所有块为止;b.对于每个块或者子块生成至少一个数字签名sig,计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值;实体匹配步骤,其包括下述子步骤:a.根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块、自交子块或者交叉子块的Key值;b.对具有相同Key值的所述块、自交子块或者交叉子块中的数据元组进行两两匹配,输出匹配结果,并采用集合保存已匹配的数据元组以避免相同记录对重复比较。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410025006.4/,转载请声明来源钻瓜专利网。