[发明专利]大规模数据信息排重处理系统无效
| 申请号: | 200810203439.9 | 申请日: | 2008-11-27 |
| 公开(公告)号: | CN101414309A | 公开(公告)日: | 2009-04-22 |
| 发明(设计)人: | 韩定一;周云庆;袁若石;薛贵荣;俞勇 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海交达专利事务所 | 代理人: | 王锡麟;王桂忠 |
| 地址: | 200240*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 数据 信息 处理 系统 | ||
技术领域
本发明涉及的是一种信息处理技术领域的系统,具体地说,涉及的是一种大规模数据信息排重处理系统。
背景技术
随着信息处理技术的不断发展,出现一些应用场景需要对大量数据进行排查重复出现的工作。例如:在搜索引擎系统中需要判断哪些网页已经收录在系统中。由于互联网络上的网页数量众多,须要有专门的系统对新发现的网址进行判断,看看其是否已经被爬取和索引过,如果已经存在,也许需要后续进行更新索引的工作;而如果尚未存在,那么就可能要进行新建索引的后续工作。又如:在一些生物科学研究领域,需要对大量的基因信息进行分析比较。也需要判断基因信息是否已经做过相应的处理,并进行不同的后续工作。而在电信业务方面,也需要对大约几十亿条各种电信业务的记录数据进行判断重复记录的工作,以免出现多收费的情况。
在这些应用中的数据有如下三点共同特性。
首先,数据空间非常大。以网址这类数据为例,一般而言,其由数字、字母(大小写相关)、“-”和“.”组成,一般不超过100个字符(实际上扩展的网址可以由几乎所有的ASCII字符组成,并可以长达2000个字符)。这样的数据可能总共有64100(大约10180)个。一般系统无法处理如此庞大的数据空间。
其次,实际数据所占的空间未必充满整个数据空间,或者在一个任务中可能出现的实际数据量并不是充满整个数据空间的。依然以网址作为例子,根据中国互联网信息中心统计,我国的网站数量在百万这个数量级上。而商业搜索引擎的索引页面数量大约在百亿这个数量级上。相对于10180个可能的网址而言,百亿实际上是一个非常小的数字。在数量级上差10170。可以说数据非常稀疏。
最后,实际数据所占的空间相对于目前的计算机系统而言,又是一个很难完成的任务。以一百亿个网址来计算,假设平均每个网址长度为30个字符(每个字符4个字节),存储这些网址总共需要约1.2PB空间,是目前主流硬盘空间容量(500GB-1TB)的大约一千倍。而一百亿条记录对于单机数据库系统来说要能迅速(毫秒级别)响应一个查询来判断一条网址是否已经存在也是几乎不可能的。因此目前已有的解决方案大都采用分布式构架,将存储、索引和计算负载分布到成百上千台机器上。通过并行处理若干被切分的小规模问题来共同完成一项任务。由于牵涉大量机器的网络通讯和工作同步问题,系统的稳定性和可靠性都不十分理想。
经对现有技术的文献检索发现,中国专利申请《基于内存的海量话单快速交叉排重方法》(公开号CN1897629)提出一种采用基于内存的多级存储机制、基于二叉平衡树和键树的索引技术、基于BCD码和RLC算法的压缩技术和基于时间片的交叉排重方法相结合的过程。在IBM P650(16个1.5GHz CPU,32GB RAM)上处理45240988条记录费时4467秒。相对于传统的基于数据库的交叉排重测试所用的时间86669秒,提高速度约20倍。尽管如此,它依然采用了基于硬盘的第三级存储机制,这种机制仍然会对系统速度的进一步提升带来影响。
发明内容
本发明的目的在于针对现有技术的不足,提供一种大规模数据信息排重处理系统,它可以高效处理大规模可能重复数据的信息,其输出没有重复数据,以克服传统系统的通用性设计带来的效率降低问题。
本发明是通过以下技术方案实现的,本发明包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块。其中:
所述的输入模块接收需要进行排重的原始数据,即数据实例;
所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间;
所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重功能;
所述的输出模块将经过排重的数据返回给用户。
所述的输入模块,负责接收用户的数据实例,可以是文件输入,网络流输入等等,例如:接收从网页中发现的各种网址。这些数据实例没有特定的顺序要求,一个数据实例可能在接收时多次出现,中间夹杂其他数据实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810203439.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





