[发明专利]一种基于分块的Web记录链接的系统及方法有效
申请号: | 201611140879.5 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106777070B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 姜芳艽 | 申请(专利权)人: | 江苏师范大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/245 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 221116 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分块的Web记录链接的系统,包括Web爬取器、Sample数据库、Web记录数据库、分块属性分析模块、分块模块、块平衡模块、成对匹配模块、匹配确定模块和记录链接结果集,一种基于分块的Web记录链接方法,采用Mapreduce模型快速将来自各个数据源的数据分块,在块内比较记录将在很大程度上提高记录匹配的效率,在此基础上,平衡块的大小,进一步提高的了记录匹配的效率。采用多分块函数对数据集从多个角度分块的方法,也同时提高了记录链接的召回率。 | ||
搜索关键词: | 一种 基于 分块 web 记录 链接 系统 方法 | ||
【主权项】:
一种基于分块的Web记录链接的系统,其特征在于,包括Web爬取器、Sample数据库、Web记录数据库、分块属性分析模块、分块模块、块平衡模块、成对匹配模块、匹配确定模块和记录链接结果集;所述Web爬取器,一方面负责爬取某一领域的部分Web数据,建立该领域Web记录的Sample数据库;另一方面爬取这一领域Web数据库的数据获取尽可能多的记录,建立待匹配的Web记录数据库;所述Sample数据库,负责存放该领域Web记录的随机样本;所述Web记录数据库,负责存放该领域的Web数据库可爬取到的所有记录;所述分块属性分析模块,负责确定最优的分块属性;所述分块模块,负责采用分块函数,并应用MapReduce编程模型,将Web记录数据库的记录分到若干个块中;所述块平衡模块,负责将较大的块分成更小的子块;所述成对匹配模块,负责对块内记录进行成对匹配,在同属于一个块的子块间进行交叉成对匹配;所述匹配确定模块,负责考察由于采用不同的分块函数产生的有冲突的匹配对,确定正确的匹配结果;所述记录链接结果集,负责存放最后正确的匹配结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611140879.5/,转载请声明来源钻瓜专利网。