[发明专利]一种基于Spark计算指标月度环比的方法和装置在审
申请号: | 202111584328.9 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114240219A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 谢冬;王建健;栾军;王巍;陈勇;郝全东 | 申请(专利权)人: | 爱信诺征信有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06F16/25 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100097 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 计算 指标 月度 方法 装置 | ||
本申请实施例提供了一种基于Spark计算指标月度环比的方法和装置,该方法根据企业标识和月份对原始数据去重,得到所述企业标识下非缺失月份的指标数据集;根据所述企业标识和非缺失月份,识别出对应所述企业标识的起止月份;根据所述起止月份,生成所有月份;根据生成的所有月份,结合所述企业标识下非缺失月份的指标数据集,构建出企业标识为key,月份和指标为value的所有月份的指标数据集;根据构建出的指标数据集,计算出企业标识对应的指标月度环比。本申请实施例补充了起止月份中的缺失月份,并将缺失月份的指标设置为0,避免了在计算月度环比时复杂的判断逻辑的同时,也避免了月份缺失导致的计算异常。
技术领域
本申请实施例涉及大数据处理技术领域,尤其涉及一种基于Spark计算指标月度环比的方法和装置。
背景技术
企业经营中经常需要计算环比的指标,用以表明报告期水平与前一水平的发展速度,以确定逐期的发展速度。
当涉及的数据量比较大时,需要迭代多次运算才能得出环比数据,不仅非常耗费计算资源,还容易造成内存溢出导致计算失败。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种基于Spark计算指标月度环比的方法和装置,该方法和装置在月度指标数据存在断档的情况下,补充了起止月份中缺失月份的数据,避免了因月份指标数据缺失导致计算异常的同时,通过运用Spark框架直接在内存中计算,规避了I/O瓶颈,提高了计算运行效率。
第一方面,本申请实施例提供了一种基于Spark计算指标月度环比的方法,包括:
根据企业标识和月份对原始数据去重,得到所述企业标识下非缺失月份的指标数据集;
根据所述企业标识和非缺失月份,识别出对应所述企业标识的起止月份;
根据所述起止月份,生成所有月份;
根据生成的所有月份,结合所述企业标识下非缺失月份的指标数据集,构建出企业标识为key,月份和指标为value的所有月份的指标数据集;
根据构建出的指标数据集,计算所述企业标识对应的指标月度环比。
可选地,所述根据生成的所有月份,结合所述企业标识下非缺失月份的指标数据集,构建出企业标识为key,月份和指标为value的所有月份的指标数据集包括:
根据生成的所有月份,将所述所有月份中每一个月份和所述企业标识,0构成元组存入要返回的月度环比集合中,以构建包含所述起止月份的所有月份指标为0的数据集;
根据构建的包含所述起止月份的所有月份指标为0的数据集,结合所述企业标识下非缺失月份的指标数据集,得到企业标识为key,月份和指标为value的所有月份的指标数据集。
可选地,所述根据构建出的数据集,计算所述企业标识对应的指标月度环比包括:
将所述企业标识下所有月份和指标放入一个集合;
将所述集合根据日期排序;
根据排序后的集合,计算所述企业标识对应的指标月度环比。
可选地,在计算所述企业标识对应的指标月度环比之前,将环比变量设置为无穷大。
可选地,所述计算所述企业标识对应的指标月度环比包括:
在运算环比变量时,判断分母是否为0;
如果分母为0,则不作环比运算,如果分母不为0,则作环比运算,并将运算结果赋值给环比变量后,与所述企业标识和对应的月份组合起来写入数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱信诺征信有限公司,未经爱信诺征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111584328.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小型机械设备起吊装置
- 下一篇:一种智能混凝土受力分析系统
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理