[发明专利]一种基于分块的Web记录链接的系统及方法有效
申请号: | 201611140879.5 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106777070B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 姜芳艽 | 申请(专利权)人: | 江苏师范大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/245 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 221116 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分块 web 记录 链接 系统 方法 | ||
本发明公开了一种基于分块的Web记录链接的系统,包括Web爬取器、Sample数据库、Web记录数据库、分块属性分析模块、分块模块、块平衡模块、成对匹配模块、匹配确定模块和记录链接结果集,一种基于分块的Web记录链接方法,采用Mapreduce模型快速将来自各个数据源的数据分块,在块内比较记录将在很大程度上提高记录匹配的效率,在此基础上,平衡块的大小,进一步提高的了记录匹配的效率。采用多分块函数对数据集从多个角度分块的方法,也同时提高了记录链接的召回率。
技术领域
本发明涉及Web记录链接技术领域,尤其涉及一种基于分块的Web记录链接的系统及方法。
背景技术
大数据时代已经到来,而且数据规模之大,更新速度之快,遍布领域之广,是前所未有的。如何组织和分析这些数据,是发挥数据价值的一个极其富有挑战性的研究工作。但是由于这些数据来自Web中不同的数据源,表示同一实体的同一属性的值往往因为书写错误、多种命名方式等原因存在差异。记录链接的目的就是区分哪些记录表示的是同一实体。
传统的记录链接方法,主要针对来自几十个或上百个数据源的几百万个记录,而在大数据环境中,可获得的数据源可能涉及上百万个,其中相当数量的数据源是非结构化数据源,而且数据不断变化,加之随着数据源的增加,在数据表示上也更加千差万别,因此需要新的记录链接技术来应对大数据环境的挑战。
传统的记录链接方法主要是成对匹配和聚类相结合的方法。
成对匹配法是比较每一对记录,判断它们是否描述的是同一实体。具体可以采用基于规则的成对记录匹配、基于分类的成对记录匹配和基于距离的成对记录匹配。这三种方法分别具有以下不足:制定规则需要领域知识;训练分类器需要大量样本数据;各属性的权重参数需要仔细调整。
成对匹配的工作完成后,为了区分出表示同一实体的全部记录,再采用聚类法,构造成对匹配图,当且仅当两个记录之间相匹配时,有一条无向边。通过一次扫描图中的所有边,高效地将所有描述同一实体的记录聚在一类,将描述不同实体的记录聚在不同的类中。
这种成对匹配法和聚类法可以很好地确定记录链接的语义,但是当待匹配的记录超过百万量级之后,比较的次数将过于庞大,尤其对于大数据环境中的超大规模的数据集,这样的方法效率非常低,甚至是不可行的。
如何在超大的异构的数据集上高效地进行记录链接是我们要研究的问题。分块策略是扩展记录链接到超大数据集的有效方法。基本方法是在一个或者多个属性上将数据集分成较小的子块,成对匹配在块内进行,不同块之间的记录将不再进行成对匹配。这样记录链接的效率将大幅度提升。在此方法中,将解决如下系列问题:如何选择在哪个或者哪些属性上对数据集进行块的划分。确定分块属性后,分块的结果可能存在块的大小不均衡的情况,如何保证将数据集无偏地分成大小均衡的块。数据集超大,分块也是耗时的过程,如何并行实现。如何避免可能因块的划分而漏掉的那些记录链接,提高记录链接的召回率。如果记录链接结果存在冲突的情况,如何确定正确的记录链接。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611140879.5/2.html,转载请声明来源钻瓜专利网。