[发明专利]支持实时流计算面向大数据数据库控制系统、计算机程序有效
【说明书】:
本发明属于计算机软件技术领域,公开了一种支持实时流计算面向大数据数据库控制系统、计算机程序,数据接口模块,读取接收的数据,并将数据发给数据预处理模块;数据预处理模块,读取数据接口模块传来的数据,并对数据进行预处理,再将预处理后的数据发给实时流计算模块;实时流计算模块,读取数据预处理模块传来的数据,对数据进行实时流计算,将得到的结果数据传给数据处理模块;数据处理模块,读取实时流计算模块传来的数据,对数据做最后的处理,再将处理后的数据存到Hbase数据库中。弥补Hbase在实时处理上的不足,也避免用户需要单独利用storm框架编写程序去达到数据处理的需求的难题。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种支持实时流计算面向大数据数据库控制系统、计算机程序。
背景技术
目前,业内常用的现有技术是这样的:随着技术的发展,计算机技术全面融入生活,世界上无时无刻都在产生大量的数据。其中,有很大一部分数据都是半结构化和非结构化,并且它们的价值会随着时间的推移而减少,如何使这海量的半结构化和非结构化的数据的价值得以最大的体现,是当今一大问题。对于海量节点构成的分布式系统,由于自然或是人为因素,节点故障事件是难以避免的。在分布式系统进行流计算时,往往会因为以下原因:1.服务器端收到请求慢或者压根没收到请求;2.服务器端响应慢;3.服务器端网络忙或服务器本身压力大,导致响应写不出去;4.服务器端序列化失败或调用端反序列化失败;5.客户端网络忙或客户端本身压力大,导致来不及读响应包,出现处理超时问题。超时问题的处理是当今分布式系统的一大困境。 Hadoop框架带来了批量数据处理,但是网络中大规模的数据的实时处理仍然是一个挑战。尽管现在已经有了一些实时流计算的框架,但是对这框架的应用需要较高的专业基础,不利于用户的使用。Hbase 全称为Hadoop Database,是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样有利于读写大数据内容。HBase是Google Bigtable的开源实现,与GoogleBigtable利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统。Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据。Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。Redis(Remote DictionaryServer)是一种 Nosql技术,它是一个开源的高级k-v存储和数据结构存储系统。redis 在整个运行过程中,数据统统都是存储在内存中的,因此,性能是相当高的,读写能力强。hadoop框架能够存储网络产生的大规模的数据,但它对数据处理的实时性很差。无法应对这些数据的有效价值会随着时间的流逝而逐渐消失这一特性。而现在的实时流计算框架也不易使用。hadoop的自带的MapReduce数据处理是批处理,是针对于大批量的数据计算而设计的,所以实时性差。而现在的实时流计算框架对用户的专业能力要求比较高,不易于用户的使用。能够存储网络上产生的大规模数据,并及时对这些数据进行处理,避免数据价值的流失。
综上所述,现有技术存在的问题是:
(1)分布式系统存在服务器端收到请求慢或者压根没收到请求。
(2)服务器端响应慢;服务器端网络忙或服务器本身压力大,导致响应写不出去。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810431484.3/2.html,转载请声明来源钻瓜专利网。