[发明专利]一种可实现快速寻找并支持分布存储的大数据处理方法有效

专利信息
申请号: 201611142025.0 申请日: 2016-12-12
公开(公告)号: CN106599178B 公开(公告)日: 2019-08-30
发明(设计)人: 郑锐韬;李勇波;张恒;孙傲冰;季统凯 申请(专利权)人: 国云科技股份有限公司
主分类号: G06F16/13 分类号: G06F16/13;G06F16/182
代理公司: 广东莞信律师事务所 44332 代理人: 余伦
地址: 523808 广东省东莞市松山湖高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实现 快速 寻找 支持 分布 存储 数据处理 方法
【说明书】:

技术领域

发明涉及大数据存储技术领域,尤其是一种可实现快速寻找并支持分布存储的大数据处理方法。

背景技术

随着计算机电子商务的发展,应用程序产生的数据越来越多,而且应用的数据量、并发量也越来越大,例如进行准确的商品寻找、手机位置定位、网络连接的检查等情况,在单位时间内需在大量的数据中快速地获取指定的数据的信息。对于一般大数据存储方法,在大量的数据中进行快速的寻找并定位到具体的数据上,需对大数据进行遍历,就是有相关的索引进行指引,但维护大索引在数据增加、修改、删除时也是一项繁重的工作,会很大影响数据的存储与读取的效率,无法很好地满足大数据量、高并发的请求,造成应用程序在运行上的瓶颈。

发明内容

本发明解决的技术问题在于提供一种可实现快速寻找并支持分布存储的大数据处理方法;用于在大数据量的存储空间上进行快速准确的数据寻找并且支持进行分布存储。

本发明解决上述技术问题的技术方案是:

所述的方法包括以下几个步骤:

步骤1:对进行储存的逐个数据按一定的算法进行特征的提取,获得可以确定特定数据的唯一特征用于后续的数据值的计算,并形成可快速进行数据特征提取的方法,用于数据存储及读取时使用;

步骤2:从逐个数据提取出来的特征,进行MD5值的计算,得出MD5值,再通过哈希算法,算出从1至N的哈希值,N的大小按具体的数据量大小及划分的分布式存储进行取值;

步骤3:设计数据的存储结构,除了有存储数据的空间,还有MD5值的空间及哈希值的空间,哈希值用于直接命中有相同哈希值的数据,MD5值用于在相同的哈希值中确定准确的数据;

步骤4:读取数据时,提取数据的特征,并计算出MD5值及哈希值,通过哈希值过滤掉大部分的数据,并从小范围的数据值中通过MD5确定准确的数据值。

对提取出来的特征值,进行MD5的计算,通过对特征值的MD5计算后,对MD5哈希计算,得出哈希值,从而使大量的数据按计算出的哈希值进行分布式的存储;

在存储与读取时,按照统一的方法计算MD5值及哈希值。

选择可技术进行分区或分布式架构的中间件作为存储空间;在建立存储空间时,按哈希值建立起分区文件或分布式的服务器架构,从而保证大数据存储及读取过程的分开读取、均衡负载;

数据在存储到设计的存储空间上时,把数据、MD5值、哈希值一起进行保存,存储空间按设计的存储逻辑把数据存储到特定的存储文件或存储服务器。

所述的按哈希值建立分区文件或分布式服务器架构,建立的过程采用一致性的哈希算法。

在数据读取时,通过计算出来的哈希值,在已经进行分区或分布式服务器存储的空间上,在确定的文件或服务器上把相同的哈希值读取出来;

读取出来相同哈希值的数据,再按MD5值进行对比,获取出相同的MD5值,从而快速寻找到需要的数据。

本发明的有益效果是:

方法通过分析大数据量进行准确寻找过程中的特点,通过对准确的数据进行MD5及一致性的哈希计算,并通过增加MD5字段与哈希字段来支持大数据准确寻找时的准确定位,从而过滤掉相关性小的数据,在相对小的空间内查找数据,从而提高大数据量准确查找的效率;同时通过对哈希字段的存储定义,可按不同的哈希值进行多文件或多服务器的分布式存储,从而提高大数据量的存储空间利用,做到数据存储均衡负载,减少存储服务器的压力。

附图说明

下面结合附图对本发明进一步说明:

附图1是本发明计算机软件系统功能组件化的流程图。

具体实施方式

如图1所示,本发明的方法实施步骤如下:

步骤1:在数据的存储中间件上,设定数据的存储空间、MD5存储空间、哈希值存储空间,并按哈希值进行存储空间的表分区或分布式服务器存储设计,通过一致性哈希的方法进行存储设计;

步骤2:定义特定的数据特征提取方法,把要增加的数据逐个按方法进行特征的提取;

步骤3:从逐个数据提取出来的特征,进行MD5值的计算,得出MD5值,再通过哈希算法,算出从1至N的哈希值;

步骤4:把数据、MD5值、哈希值保存到存储空间上,存储中间件自动按设计的范围按哈希值进行数据的分文件或分服务器进行保存;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611142025.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top