[发明专利]重复数据处理方法、装置及系统有效
申请号: | 201110164850.1 | 申请日: | 2011-06-17 |
公开(公告)号: | CN102831127A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 何一昕;叶瑞海;吴协尧;张文波 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;韩建伟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 数据处理 方法 装置 系统 | ||
技术领域
本申请涉及网络技术领域,具体而言,涉及一种重复数据处理方法、装置及系统。
背景技术
对于网站而言,数据重复是不可避免的,例如,在电子商务网站中会出现重复的商品信息。在现有技术中通常通过三个步骤来对重复数据进行清理(为了描述方便,以下将需要判定是否重复的信息称为A,将需要从存储系统获取的和A进行比较的信息称为B):
步骤S10,系统取数逻辑。
该步骤用于从数据存储系统中取出需要比较重复的信息数据集。对于海量数据来说,数据集的大小直接决定整个系统的运行效率。在该步骤中,通常采用线性排队的方式,即,等待上一条信息处理完毕后再继续下一条信息的处理。对于B的筛选通常通过以下的方式来实现:
方式一,通过数据库或者其他数据源查询的方式,逐个取信息B和A进行比较,该方式没有对B进行筛选;
方式二,通过预定条件只筛选出部分和A有明显共性的信息B进行比较(例如,同一个发布者发布的信息,或者和A属于同一个行业的信息B)来缩小查询条件。
以下以清理重复商品信息(其他重复数据也可以采用相同的处理方式)为例对方式二进行说明。图1是根据现有技术的清理重复商品信息的系统取数据的流程图,如图1所示,该流程包括如下步骤:步骤S102,读取会员分布信息;步骤S104,逐个行业读取信息;步骤S106,按序取一条信息;步骤S108,执行下述步骤S20判断是否为重复数据,在不是重复数据的情况下,返回步骤S106,在是重复数据的情况执行步骤S110;步骤S110,进行步骤S30的去重处理。
步骤S20,判定A是否为重复信息。
在该步骤中涉及到判断信息是否相似的算法,而不同的算法也会直接影响到系统处理方案的准确度和有效性。在现有技术中通常会采用以下方式:
方式一,对A和B所涉及到所有数据进行完全比对;
方式二,有选择性的只选取A和B的关键数据进行完全比对;
方式三,进行相似度比较,根据A和B中的数据的相似程度来判断A和B是否相同,例如,对某些说明部分文字进行相识度比较。
步骤S30,清理重复信息。
现有技术中的上述处理方法对于数据量较少的情况比较适用,但是对于海量数据而言,上述方法处理效率就会变低,例如,现有技术的清理重复信息的方法的算法效率是O(n),其中,n代表数据量,O(n)代表算法执行的时间,O(n)的值与n值是成线性关系甚至成指数关系的,无论成什么的函数关系,有一点是可以确定的,即O(n)的值是随着n值的增大而增加的。因此,当n值相当大的前提下,必然导致用于执行O(n)的服务器负荷过大,无法及时对重复数据进行处理,导致信息审核速度根本跟不上新信息发布的速度。
现有技术中,解决上述问题的方式是可以通过缩小数据集(即n值)的方式来降低服务器的负荷的,例如,按信息发布者所在行业,然后按每个行业逐个取数据的方式来实现。但是,虽然在一定程度上缩小了整个数据集(即,n值),但算法的效率可以认为是O(n(n-1)/2),当信息发布者有很多信息(例如,海量数据)的时候,该方法的效率依然太低。从而,为了解决该问题,只能通过增大硬件投入的方式(有些情况仅仅依靠加大硬件投入也无法取得理想的效果)满足去除重复数据要求,这种处理方式也存在问题:其一,无法满足今后扩展的需求;其二,浪费了服务器资源,整体效能太低。
发明内容
本申请的主要目的在于提供一种重复数据处理方法、装置及系统,以至少解决上述问题之一。
根据本申请的一个方面,提供了一种重复数据处理方法,包括以下步骤:将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同,其中,所述重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的;将处理之后的所述待比较数据与所述重复数据库中的数据进行比较,确定所述待比较数据是否是重复数据;在所述待比较数据不是重复数据的情况下,将所述待比较数据写入所述数据库。
在处理之后的所述待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下,确定所述待比较数据是否为重复数据包括:在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致,并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下,确定所述待比较数据为重复数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110164850.1/2.html,转载请声明来源钻瓜专利网。