[发明专利]任务迁移方法、装置、电子设备及存储介质在审
申请号: | 202010147172.7 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111506399A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 郝海蛟;吕旭光;赵建新;刘林宏;李豪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F8/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 迁移 方法 装置 电子设备 存储 介质 | ||
本申请公开了任务迁移方法、装置、电子设备及存储介质,涉及数据处理领域,其中的方法可包括:获取用户提交的任务;若所述任务为Hadoop任务,且确定需要进行任务转换,则将所述任务中的Hadoop参数转换为Spark可识别的参数;将转换结果注入预定工具包,提交到Spark集群。应用本申请所述方案,可减少用户的工作量,并提升处理效率等。
技术领域
本申请涉及计算机应用技术,特别涉及数据处理领域的任务迁移方法、装置、电子设备及存储介质。
背景技术
Spark模型的算力和性能均优于Hadoop模型。Hadoop是一个分布式系统,充分利用集群的威力进行高速运算和存储,Spark是一个快速的、用于海量数据处理的通用引擎。
传统方式中,很多离线任务均使用Hadoop模型编写并运行,考虑到Spark模型的优势,希望能够实现Hadoop任务的迁移,即将Hadoop任务转换为Spark任务。
目前的处理方式中,通常需要业务研发人员手动地进行任务的转换,但这种方式需要耗费业务研发人员很大的工作量,而且效率低下。
发明内容
有鉴于此,本申请提供了任务迁移方法、装置、电子设备及存储介质。
一种任务迁移方法,包括:
获取用户提交的任务;
若所述任务为Hadoop任务,且确定需要进行任务转换,则将所述任务中的Hadoop参数转换为Spark可识别的参数;
将转换结果注入预定工具包,提交到Spark集群。
根据本申请一优选实施例,所述确定需要进行任务转换包括:
通过请求服务端获取所述用户预先所作的配置;
根据所述配置确定出是否需要进行任务转换。
根据本申请一优选实施例,该方法进一步包括:
若所述任务为指示从Hadoop任务向Spark任务转换的Hadoop2Spark任务,则将所述任务中的Hadoop参数转换为Spark可识别的参数;
将转换结果注入预定工具包,提交到所述Spark集群。
根据本申请一优选实施例,该方法进一步包括:
若所述任务为Hadoop任务,且确定不需要进行任务转换,则将所述任务提交到Hadoop集群;
若所述任务为Spark任务,则将所述任务提交到所述Spark集群。
根据本申请一优选实施例,所述将转换结果注入预定工具包,提交到Spark集群包括:
将转换结果注入预定工具包,提交Spark任务到Spark集群;
其中,所述Spark任务经过预定处理后,实现与Hadoop逻辑等价的映射map和化简reduce处理。
一种任务迁移装置,包括:任务获取单元以及任务处理单元;
所述任务获取单元,用于获取用户提交的任务;
所述任务处理单元,用于当所述任务为Hadoop任务,且确定需要进行任务转换时,将所述任务中的Hadoop参数转换为Spark可识别的参数,并将转换结果注入预定工具包,提交到Spark集群。
根据本申请一优选实施例,所述任务处理单元通过请求服务端获取所述用户预先所作的配置,根据所述配置确定出是否需要进行任务转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147172.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可伸缩调节的窗帘导轨及绕绳方法
- 下一篇:基于体验质量的切换管理