[发明专利]一种业务处理方法及系统有效
申请号: | 201810983481.0 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109324898B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 董涛;卜云涛 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06K9/62;G06Q10/06 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 业务 处理 方法 系统 | ||
本发明公开了一种业务处理方法及系统,通过对待处理业务进行分类,从而确定出所述待处理业务对应的一类或者多类产品版本;然后预估所述待处理业务的各产品版本的数据量,由于各产品版本的数据量就是后续Reduce归约任务处理的数据量,故而可基于所述待处理业务的各产品版本的数据量,申请对应数量的Reduce归约任务,能够避免申请过多或者过少的Reduce归约任务导致的资源分配不均的问题,达到合理的分配Reduce归约任务处理待处理业务的目的,最后基于所述对应数量的Reduce归约任务,对所述待处理业务进行分布式处理。
技术领域
本申请涉及分布式技术领域,尤其涉及一种业务处理方法及系统。
背景技术
在分布式系统基础架构中,核心设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce(映射归约)为海量的数据提供了计算。
而分布式系统基础架构虽然有着海量的计算资源,但大量map(映射)阶段的任务最终会汇集到少量reduce(归约)计算阶段。
如果映射计算的任务和归约计算阶段的任务量不匹配,则会造成资源的浪费。例如reduce任务太少,而map阶段的任务太多,那么往reduce阶段运算时间就会很长,甚至会因为资源占用太大导致内存使用不当,最终导致任务运算失败。而如果reduce任务太多,就会导致资源浪费。
故而,如何合理的分配MapReduce的资源,是目前亟需解决的问题。
发明内容
本发明提供了一种业务处理方法及系统,以解决或者部分解决MapReduce阶段资源分配的技术问题。
为解决上述技术问题,本发明提供了一种业务处理方法,所述方法包括:
对待处理业务进行分类,确定出所述待处理业务对应的一类或者多类产品版本;
预估所述待处理业务的各产品版本的数据量;
基于所述待处理业务的各产品版本的数据量,申请对应数量的Reduce归约任务;
基于所述对应数量的Reduce归约任务,对所述待处理业务进行分布式处理。
优选的,分类参数包含:日志类别,日志业务ID,产品版本;
所述对待处理业务进行分类,从而确定出所述待处理业务对应的一类或者多类产品版本,具体包括:
对所述待处理业务按照日志类别进行分类,获得各日志类别中的第一分类结果;
对各日志类别中的第一分类结果按照日志业务ID进行分类,获得各日志业务ID中的第二分类结果;
对各日志业务ID中的第二分类结果按照产品版本进行分类,以确定出所述待处理业务对应的一类或者多类产品版本。
优选的,所述基于所述待处理业务的各产品版本的数据量,申请对应数量的Reduce归约任务,具体包括:
所述基于所述待处理业务的各产品版本的数据量,确定出所述Reduce归约任务的待申请数量;
基于所述Reduce归约任务的待申请数量,申请对应数量的Reduce归约任务。
优选的,所述基于所述待处理业务的各产品版本的数据量,确定出所述Reduce归约任务的待申请数量,具体包括:
判断所述待处理业务的各产品版本的数据量是否大于预设数据量阈值;
若是,则对大于所述预设数据量阈值的第一产品版本分配对应的Reduce归约任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810983481.0/2.html,转载请声明来源钻瓜专利网。