[发明专利]一种面向流式数据的在线处理方法及系统有效

专利信息
申请号: 201210510056.2 申请日: 2012-12-03
公开(公告)号: CN103853766B 公开(公告)日: 2017-04-05
发明(设计)人: 张瑾;程学旗;林祥辉;黄康平 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司11006 代理人: 祁建国,梁挥
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 数据 在线 处理 方法 系统
【说明书】:

技术领域

发明涉及大规模数据处理,尤其是涉及到一种面向流式数据的在线处理方法及系统。

背景技术

随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播。在2011年,分析调研机构IDC发布了《从混沌中提取价值》。这一报告显示,全球信息总量每过两年,就会增长一倍。2011年,全球被创建和被复制的数据总量为1.8ZB。举例来说,1.8ZB相当于全球每个人每天都去做2.15亿次高分辨率的核磁共振检查所产生的数据总量。

大规模数据分析处理系统的任务就是对海量数据进行处理,从大量数据中分析挖掘出有价值的知识。通常的数据处理系统需要收集来自各个数据源的数据进行存储,然后在从数据存储设备中读取数据,进行分析和处理。一种传统数据分析处理系统的架构是设立中心数据库来实现数据的存储和读取。首先由采集程序从互联网上针对新闻、论坛、博客、微博、社交网络、搜索引擎等不同分类的数据进行采集并且写入到中心数据库中;然后,各种分析程序从数据库中读取数据,进行后续的数据分析和处理。中心数据库同时承担了数据的写入和读取任务。

以数据库为存储中心的系统架构已经得到广泛的认同和应用。但是在海量数据环境下,随着数据来源种类的增加、来源数据量的增长和应用分析程序数目的增加,中心数据库架构的问题日益突显。中心数据库架构的缺点主要体现在了三个方面:第一实时响应性能下降;第二多次数据库交互;第三数据处理延时。

随着数据来源的增加、数据量的增大和应用程序数目的增加,传统的基于中心数据库的架构的数据处理分析系统的缺点日益凸显。所以,亟须提出一种新的数据处理架构来使得以上问题得到有效的缓解。

通常情况下,对于这个问题的解决思路可以归纳为以下四种:

消息中间件方法。消息中间件是一种由消息传送机制或消息队列模式组成的中间件技术。消息可以通过消息中间件被发送到各个应用程序,通过使用消息中间件可以缓解数据的读写压力,同时可以在消息中间件中控制应用程序对于消息的访问。消息中间件在许多行业应用中发挥了重要作用。在企业级应用的需求中消息传递需要保证可靠性和安全性,但是,过于关注可靠性和安全性增加了数据处理的时间和数据传输的延时,不适合大规模数据处理的吞吐量的要求。

分布式消息队列方法。越来越多的公司和研究机构尝试使用基于分布式的面向消息的系统来缓解中心数据库架构所带来的问题,这些分布式的消息队列大多数都以开源项目的形式发布。分布式的消息处理系统能够高效处理海量数据环境下的消息服务。但是这种分布式的消息处理系统存在着两个问题,一是这些系统都是基于主键查询的方式来进行数据的读写,无法按照某一个关键字段的查询,无法完全取代关系型数据库的查询功能;二是分布式的消息处理系统为了保证高吞吐量,无法很好得保证数据的完整性和安全性。

缓存方法。在计算机体系结构中对于内存的读写速度是磁盘读写速度的10倍以上,所以为了避免频繁的数据库读写,便有人采用了缓存的思想,在数据库之外开辟一块内存作为数据缓冲区,以此来减轻数据库负载,提高数据访问速度。这种基于内存的缓存仍然存在两个问题,一是无法优化数据写入数据库时效率;二是基于键值(Key-Value)组织的数据,无法针对某一个特定的字段进行区间查询操作。

内存数据库方法。在Web应用中,例如用户访问,用户点击,这些数据都是呈流式到达,所以研究针对流式数据的在线数据的处理方法成为了学术界和工业界都十分关注的问题。另外一个在线数据处理的研究分支是内存数据库的研究与开发。内存数据库,顾名思义就是将数据放在内存中操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。同时,内存数据库抛弃了磁盘数据管理的传统方式,基于全部数据都在内存中重新设计了体系结构,并且在数据缓存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统数据库的数据处理速度要快很多,一般都在10倍以上。内存数据库的最大特点是其“主拷贝”或“工作版本”常驻内存,即活动事务只与实时内存数据库的内存拷贝打交道。Redis最大的缺点在于没有很好得解决数据服务可靠性的问题,所有的数据都存放在用户申请的内存空间内,一旦进程重启,或者异常退出,就会造成数据丢失。但是其无法满足按照数据的不同字段进行查询的需求。

综上所述,现有技术中缓解数据访问压力的能力,受各种不同因素限制,无法满足实际需求。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210510056.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top