[发明专利]数据统计方法、装置、设备及计算机可读存储介质在审

申请号：	201710467826.2	申请日：	2017-06-19
公开（公告）号：	CN109145027A	公开（公告）日：	2019-01-04
发明（设计）人：	范晓亮;余俊	申请（专利权）人：	中兴通讯股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/248
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518057 广东省深圳市南山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据统计预处理原始数据流统计计算机可读存储介质统计条件类信息元数据预设数据统计装置配置文件统计结果调用解析开发维护
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据统计方法，该方法包括：获取待统计的原始数据流；根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。本发明还公开了一种数据统计装置、设备和一种计算机可读存储介质。本发明能够提高基于Spark平台进行数据统计的代码灵活性，降低代码的开发维护成本。

技术领域

本发明涉及大数据处理技术领域，尤其涉及数据统计方法、装置、设备及计算机可读存储介质。

背景技术

Spark是一种专为大规模数据处理而设计的通用计算引擎，近年来，随着大数据平台Spark系统的出现和逐步发展成熟，如何在Spark平台上实现各种机器学习和数据挖掘并行化算法设计成为了目前国内外关注的重点。

目前，在基于Spark平台进行数据分析的时候，每新增一类业务统计，开发人员需要重新开发统计代码，需要耗费较多的时间成本和人力成本，而且，业务及其统计规则的变更会引起代码的频繁修改，导致较高的出错几率和测试成本，随着时间的变迁和业务的频繁变化，代码也会越来越臃肿，导致代码难于维护，因而，现有的基于Spark平台进行数据统计的代码灵活性还有待提高。

发明内容

本发明的主要目的在于提出一种数据统计方法、装置及计算机可读存储介质，旨在提高基于Spark平台进行数据统计的代码灵活性，降低代码的开发维护成本。

为实现上述目的，本发明提供一种数据统计方法，所述数据统计方法包括如下步骤：

获取待统计的原始数据流；

根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

优选地，所述获取待统计的原始数据流的步骤之前，还包括：

设置待生成统计报表的类型，并为每种类型的待生成统计报表设置对应的预处理类信息和统计条件信息；

将设置结果保存至数据统计配置文件中。

优选地，所述获取待统计的原始数据流的步骤包括：

向预设的业务消息系统发送消息数据请求；