[发明专利]实现大数据快速存储的方法、装置以及存储系统在审

专利信息
申请号: 201710730064.0 申请日: 2017-08-23
公开(公告)号: CN107480283A 公开(公告)日: 2017-12-15
发明(设计)人: 宋雨伦 申请(专利权)人: 九次方大数据信息集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京驰纳智财知识产权代理事务所(普通合伙)11367 代理人: 蒋路帆,汤才祥
地址: 100083 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实现 数据 快速 存储 方法 装置 以及 存储系统
【说明书】:

技术领域

发明涉及大数据存储技术领域,具体而言,涉及实现大数据快速存储的方法、装置以及存储系统。

背景技术

近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,百度目前的总数据量已超过1000PB,每天需要处理的网页数据达到10PB~100PB,淘宝累计的交易数据量高达100PB,Twitter每天发布超过2亿条消息,新浪微博每天发帖量达到8000万条,中国移动一个省的电话通联记录数据每月可达0.5PB~1PB,一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120TB。据世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB(1ZB=1000EB=1000000PB),10年将增长44倍,年均增长40%。早几年人们把大规模数据称为“海量数据”,但实际上,大数据(Big Data)这个概念早在2008年就已被提出。2008年,在Google成立10周年之际,着名的《自然》杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“Big Data”的概念。随着大数据概念的普及,人们常常会问,多大的数据才叫大数据。其实,关于大数据,难以有一个非常定量的定义。维基百科给出了一个定性的描述:大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。进一步,当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

公开(公告)号CN105608155A“海量数据分布式存储系统”,涉及一种海量数据分布式存储系统,包括大数据存储模块和小数据存储模块,只是为云计算系统提供运行的基础,不能够进行海量数据的快速接收,防止数据丢失,提高数据入库效率。

因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求,面对越来越庞大的数据量,如何做到数据的快速接收成为亟待解决的技术问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。提出了一种实现大数据快速存储的方法、装置以及存储系统,能够进行海量数据的快速接收,防止数据丢失,提高数据入库效率。

本发明的第一方面提出了一种实现大数据快速存储的方法,包括:通过一个统一的数据入库接口接收多种数据类型的待入库数据;将接收到的待入库数据暂存至消息队列;通过轮询服务对消息队列内的暂存数据进行出列操作,将待入库数据存储到数据库内。

优选的是,通过一个统一的数据入库接口接收多种数据类型的待入库数据的步骤,具体包括:通过统一的Json格式传递待入库数据,传递的类型参数值与待入库数据的数据类型相对应,以便后续操作根据类型参数值对待入库数据进行区分。

在上述任一方案中优选的是,将接收到的待入库数据暂存至消息队列的步骤,具体包括:根据优先级属性将需要优先处理的数据放到单独的队列内,对于同一优先级的数据放入同一消息队列内;其中,消息队列为多级队列,暂存数据的过程中不做数据类型的区分。

在上述任一方案中优选的是,通过轮询服务对消息队列内的暂存数据进行出列操作,将待入库数据存储到数据库内的步骤,具体包括:轮询服务根据消息队列的多级队列区分为不同的轮询服务,不同优先级的队列由不同的轮询服务进行处理,在保证高优先级的数据能够优先被处理的情况下不影响正常消息队列的出列工作;轮询服务根据待入库数据的数据类型将待入库数据存储到相应的数据库或数据表内;将入库数据梳理成结构化的数据。

在上述任一方案中优选的是,待入库数据被存储在关系型数据库、非关系型数据库、内存数据库中,数据之间会保持数据的更新和同步,保证数据的一致性。

在上述任一方案中优选的是,还包括:根据已入库数据创建副本数据,已入库数据用于进行数据的存取,副本数据用于进行数据的后续查询和服务,已入库数据和副本数据保持数据的一致性。

在上述任一方案中优选的是,还包括:对已入库数据做数据关联关系处理、数据索引的建立,以支持产品的需求,满足数据服务的要求。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于九次方大数据信息集团有限公司,未经九次方大数据信息集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710730064.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top