[发明专利]大规模数据信息排重处理系统无效
| 申请号: | 200810203439.9 | 申请日: | 2008-11-27 |
| 公开(公告)号: | CN101414309A | 公开(公告)日: | 2009-04-22 |
| 发明(设计)人: | 韩定一;周云庆;袁若石;薛贵荣;俞勇 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海交达专利事务所 | 代理人: | 王锡麟;王桂忠 |
| 地址: | 200240*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 数据 信息 处理 系统 | ||
1、一种大规模数据信息排重处理系统,其特征在于包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块,其中:
所述的输入模块接收需要进行排重的原始数据,即数据实例;
所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间;
所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重;
所述的输出模块将经过排重的数据返回给用户。
2、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的输入模块负责接收用户的数据实例,数据实例是文件输入或者网络流输入,这些数据实例没有特定的顺序要求,一个数据实例可能在接收时多次出现,中间夹杂其他数据实例。
3、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的数字编码模块采用哈希函数来实现数据实例的快速编码转换,并将原始空间内的数据压缩到由k位01序列的数值,数字编码模块的编码位数需大于最终输出的数值数量,以保证数字编码有足够的区分度。
4、根据权利要求3所述的大规模数据信息排重处理系统,其特征是,所述k的取值是16或32的整数倍。
5、根据权利要求4所述的大规模数据信息排重处理系统,其特征是,所述k的取值是128或160。
6、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的多点检验模块,将由数字编码模块生成的数值和高速存储的地址建立多点对应关系,并通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例的模块,它能迅速查询高速存储装置中特定地址位是否均为标记过来对数据进行判断是否已经出现过。
7、根据权利要求1或6所述的大规模数据信息排重处理系统,其特征是,所述的多点检验模块,在处理问题规模相对小的问题时,可简化为单点检验。
8、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的输出模块,将多点检验模块判重以后没有重复出现过的数据实例最终返回给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810203439.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





