[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 202210532579.0 | 申请日: | 2022-05-10 |
公开(公告)号: | CN114817288A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 卢显锋 | 申请(专利权)人: | 中国平安财产保险股份有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/25;G06F16/27 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 龚慧惠 |
地址: | 518033 广东省深圳市福田区益田路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据处理技术领域,提供一种数据处理方法、装置、电子设备及存储介质,基于业务系统的多批历史业务数据训练得到的双层集群性能模型的预测精度更高,接着使用遗传算法对双层集群性能模型进行迭代寻优得到目标集群配置参数,从而根据目标集群配置参数生成配置文件并配置于分布式集群中,利用固定的集群资源使得应用性能达到最优,提高了数据的处理效率,接收到业务数据的处理指令时,根据处理指令识别业务数据的处理类型,根据处理类型对业务数据进行处理并将处理后的业务数据更新至分布式集群中,实现了大批量数据更新变成了小批量变化,从而减小了数据库的性能消耗,节约了数据库成本。
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
传统的数据处理方式分为两大类,一类是针对事物处理流程简单的,采用实时数据处理方式,一类是针对事物处理流程复杂的,则采用在固定时间点进行批数据处理方式。
发明人在实现本发明的过程中发现,上述两种数据处理方式,均对数据库的性能消耗太大,导致数据库的成本太高;且当数据量较大时,会由于提交时间过长,导致数据信息短时间内无法进行访问,从而降低了数据处理的时效性。
发明内容
鉴于以上内容,有必要提出一种数据处理方法、装置、电子设备及存储介质,能够对分布式集群的批数据处理方式进行优化,提高了数据的处理效率,降低了数据库的性能消耗,节约了数据库的成本。
本发明的第一方面提供一种数据处理方法,所述方法包括:
基于业务系统的多批历史业务数据训练得到双层集群性能模型;
使用遗传算法对所述双层集群性能模型进行迭代寻优得到目标集群配置参数;
根据所述目标集群配置参数生成配置文件,并将所述配置文件配置于分布式集群中;
响应于对所述业务系统的业务数据的处理指令,根据所述处理指令识别所述业务数据的处理类型;
通过所述分布式集群根据所述处理类型对所述业务数据进行处理,并将处理后的业务数据更新至所述分布式集群的预设数据库中。
在一个可选的实施方式中,所述基于业务系统的多批历史业务数据训练得到双层集群性能模型包括:
计算每批所述历史业务数据的数据大小;
获取所述分布式集群处理每批所述历史业务数据时的配置参数、应用类型及整体处理时间;
按照预设的分组策略对所述分布式集群处理每批所述历史业务数据的处理阶段进行分组,并计算每组的阶段处理时间;
将每批所述历史业务数据的数据大小及对应的所述配置参数、所述应用类型和每组的阶段处理时间作为模型的输入数据,将所述整体处理时间作为模型的训练目标;
根据所述模型的输入数据及所述模型的训练目标,基于梯度提升决策树算法进行训练,得到所述双层集群性能模型。
在一个可选的实施方式中,在所述使用遗传算法对所述双层集群性能模型进行迭代寻优得到目标集群配置参数之前,所述方法还包括:
判断所述应用类型的数量是否大于预设数量阈值;
当所述应用类型的数量大于或者等于所述预设数量阈值时,使用第一种群生成模型根据所述应用类型生成初始种群;
当所述应用类型的数量小于所述预设数量阈值时,使用第二种群生成模型根据所述应用类型生成所述初始种群;
在所述初始种群的基础上使用遗传算法对所述双层集群性能模型进行迭代寻优得到目标集群配置参数。
在一个可选的实施方式中,所述使用第一种群生成模型根据所述应用类型生成初始种群包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安财产保险股份有限公司,未经中国平安财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210532579.0/2.html,转载请声明来源钻瓜专利网。