[发明专利]一种可实现快速寻找并支持分布存储的大数据处理方法有效
申请号: | 201611142025.0 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106599178B | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 郑锐韬;李勇波;张恒;孙傲冰;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/182 |
代理公司: | 广东莞信律师事务所 44332 | 代理人: | 余伦 |
地址: | 523808 广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 快速 寻找 支持 分布 存储 数据处理 方法 | ||
1.一种可实现快速寻找并支持分布存储的大数据处理方法,其特征在于:所述的方法包括以下几个步骤:
步骤1:对进行储存的逐个数据按一定的算法进行特征的提取,获得可以确定特定数据的唯一特征用于后续的数据值的计算,并形成可快速进行数据特征提取的方法,用于数据存储及读取时使用;
步骤2:从逐个数据提取出来的特征,进行MD5值的计算,得出MD5值,再通过哈希算法,算出从1至N的哈希值,N的大小按具体的数据量大小及划分的分布式存储进行取值;
步骤3:设计数据的存储结构,除了有存储数据的空间,还有MD5值的空间及哈希值的空间,哈希值用于直接命中有相同哈希值的数据,MD5值用于在相同的哈希值中确定准确的数据;
步骤4:读取数据时,提取数据的特征,并计算出MD5值及哈希值,通过哈希值过滤掉大部分的数据,并从小范围的数据值中通过MD5确定准确的数据值。
2.根据权利要求1所述的方法,其特征在于:
对提取出来的特征值,进行MD5的计算,通过对特征值的MD5计算后,对MD5哈希计算,得出哈希值,从而使大量的数据按计算出的哈希值进行分布式的存储;
在存储与读取时,按照统一的方法计算MD5值及哈希值。
3.根据权利要求1所述的方法,其特征在于:
选择可技术进行分区或分布式架构的中间件作为存储空间;在建立存储空间时,按哈希值建立起分区文件或分布式的服务器架构,从而保证大数据存储及读取过程的分开读取、均衡负载;
数据在存储到设计的存储空间上时,把数据、MD5值、哈希值一起进行保存,存储空间按设计的存储逻辑把数据存储到特定的存储文件或存储服务器。
4.根据权利要求2所述的方法,其特征在于:
选择可技术进行分区或分布式架构的中间件作为存储空间;在建立存储空间时,按哈希值建立起分区文件或分布式的服务器架构,从而保证大数据存储及读取过程的分开读取、均衡负载;
数据在存储到设计的存储空间上时,把数据、MD5值、哈希值一起进行保存,存储空间按设计的存储逻辑把数据存储到特定的存储文件或存储服务器。
5.根据权利要求3或4所述的方法,其特征在于:所述的按哈希值建立分区文件或分布式服务器架构,建立的过程采用一致性的哈希算法。
6.根据权利要求1至4任一项所述的方法,其特征在于:
在数据读取时,通过计算出来的哈希值,在已经进行分区或分布式服务器存储的空间上,在确定的文件或服务器上把相同的哈希值读取出来;
读取出来相同哈希值的数据,再按MD5值进行对比,获取出相同的MD5值,从而快速寻找到需要的数据。
7.根据权利要求5所述的方法,其特征在于:
在数据读取时,通过计算出来的哈希值,在已经进行分区或分布式服务器存储的空间上,在确定的文件或服务器上把相同的哈希值读取出来;
读取出来相同哈希值的数据,再按MD5值进行对比,获取出相同的MD5值,从而快速寻找到需要的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611142025.0/1.html,转载请声明来源钻瓜专利网。