[发明专利]数据统计方法、装置、设备及计算机可读存储介质在审
申请号: | 201710467826.2 | 申请日: | 2017-06-19 |
公开(公告)号: | CN109145027A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 范晓亮;余俊 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/248 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据统计 预处理 原始数据流 统计 计算机可读存储介质 统计条件 类信息 元数据 预设 数据统计装置 配置文件 统计结果 调用 解析 开发 维护 | ||
本发明公开了一种数据统计方法,该方法包括:获取待统计的原始数据流;根据所述原始数据流调用并解析预设的数据统计配置文件,得到预设类型的待生成统计报表的预处理类信息和统计条件信息;根据所述预处理类信息对所述原始数据流进行预处理,得到对应的统计元数据;根据所述统计条件信息对所述统计元数据进行统计,根据统计结果生成对应的统计报表。本发明还公开了一种数据统计装置、设备和一种计算机可读存储介质。本发明能够提高基于Spark平台进行数据统计的代码灵活性,降低代码的开发维护成本。
技术领域
本发明涉及大数据处理技术领域,尤其涉及数据统计方法、装置、设备及计算机可读存储介质。
背景技术
Spark是一种专为大规模数据处理而设计的通用计算引擎,近年来,随着大数据平台Spark系统的出现和逐步发展成熟,如何在Spark平台上实现各种机器学习和数据挖掘并行化算法设计成为了目前国内外关注的重点。
目前,在基于Spark平台进行数据分析的时候,每新增一类业务统计,开发人员需要重新开发统计代码,需要耗费较多的时间成本和人力成本,而且,业务及其统计规则的变更会引起代码的频繁修改,导致较高的出错几率和测试成本,随着时间的变迁和业务的频繁变化,代码也会越来越臃肿,导致代码难于维护,因而,现有的基于Spark平台进行数据统计的代码灵活性还有待提高。
发明内容
本发明的主要目的在于提出一种数据统计方法、装置及计算机可读存储介质,旨在提高基于Spark平台进行数据统计的代码灵活性,降低代码的开发维护成本。
为实现上述目的,本发明提供一种数据统计方法,所述数据统计方法包括如下步骤:
获取待统计的原始数据流;
根据所述原始数据流调用并解析预设的数据统计配置文件,得到预设类型的待生成统计报表的预处理类信息和统计条件信息;
根据所述预处理类信息对所述原始数据流进行预处理,得到对应的统计元数据;
根据所述统计条件信息对所述统计元数据进行统计,根据统计结果生成对应的统计报表。
优选地,所述获取待统计的原始数据流的步骤之前,还包括:
设置待生成统计报表的类型,并为每种类型的待生成统计报表设置对应的预处理类信息和统计条件信息;
将设置结果保存至数据统计配置文件中。
优选地,所述获取待统计的原始数据流的步骤包括:
向预设的业务消息系统发送消息数据请求;
接收所述业务消息系统基于所述消息数据请求返回的消息数据流,将所述消息数据流作为待统计的原始数据流。
优选地,所述根据所述预处理类信息对所述原始数据流进行预处理,得到对应的统计元数据的步骤包括:
根据所述预处理类信息中的分隔符将所述原始数据流分割为若干个预处理类;
按照预设的格式转换规则对每个预处理类下的原始数据流进行格式转换,得到对应的统计元数据。
优选地,所述根据所述统计条件信息对所述统计元数据进行统计,根据统计结果生成对应的统计报表的步骤包括:
根据所述统计条件信息中的逻辑运算表达式对所述统计元数据进行逻辑运算;
根据所述逻辑运算结果生成对应的统计报表。
优选地,所述根据所述逻辑运算结果生成对应的统计报表的步骤之后,还包括:
将生成的所述统计报表存储至Spark平台的数据库中。
优选地,所述数据统计方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710467826.2/2.html,转载请声明来源钻瓜专利网。