[发明专利]一种数据清洗任务处理方法及装置在审
申请号: | 202110736384.3 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113360270A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 林鹏程;韩钰 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F16/215 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 清洗 任务 处理 方法 装置 | ||
1.一种数据清洗任务处理方法,其特征在于,所述方法包括:
步骤102:基于预估模型,获取待执行的数据清洗任务的预估任务时长;其中,所述预估模型包括将与若干历史数据清洗任务执行相关的关键属性作为输入,并将若干历史数据清洗任务的实际任务时长作为输出,训练得到的机器学习模型;所述数据清洗任务包括针对从大数据平台获取到的待清洗数据进行数据清洗的任务;
步骤104:响应于所述数据清洗任务被执行,确定所述数据清洗任务的当前运行时长是否超过所述数据清洗任务的预估任务时长;
步骤106:如果所述数据清洗任务的当前运行时长未超过所述数据清洗任务的预估任务时长,则继续执行所述步骤104,直至所述数据清洗任务执行完毕。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述数据清洗任务的当前运行时长已超过所述数据清洗任务的预估任务时长,则确定所述数据清洗任务运行异常。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对若干历史数据清洗任务的预估任务时长和实际任务时长进行数据拟合,得到预估任务时长和实际任务时长之间的修正函数;
所述基于预估模型,获取待执行的数据清洗任务的预估任务时长,包括:
基于所述预估模型,获取待执行的数据清洗任务的初步预估任务时长;
基于所述修正函数,对所述初步预估任务时长进行修正,并将修正后的初步预估运行时长确定为所述数据清洗任务的预估任务时长。
4.根据权利要求3所述的方法,其特征在于,所述基于所述预估模型,获取待执行的数据清洗任务的初步预估任务时长,包括:
将与待执行的数据清洗任务执行相关的关键属性输入所述预估模型,得到所述预估模型输出的所述数据清洗任务的初步预估任务时长;其中,与数据清洗任务执行相关的关键属性,包括为数据清洗任务分配的计算资源对应的资源信息。
5.根据权利要求4所述的方法,其特征在于,所述为数据清洗任务分配的计算资源对应的资源信息,包括以下示出的一个或者多个的组合:
为数据清洗任务分配的内存资源的大小;
为数据清洗任务分配的CPU处理资源的大小;
数据清洗任务对应的运行环境的磁盘类型。
6.根据权利要求4所述的方法,其特征在于,所述与数据清洗任务执行相关的关键属性,还包括以下示出的一个或者多个的组合:
与数据清洗任务对应的数据清洗规则的规则类型;
与待清洗数据对应的数值类型;
待清洗数据的数据量的大小。
7.根据权利要求1所述的方法,其特征在于,响应于所述数据清洗任务被执行,确定所述数据清洗任务的当前运行时长是否超过所述数据清洗任务的预估任务时长之前,还包括:
预测所述数据清洗任务的最佳执行时刻;
基于预测出的最佳执行时刻,控制所述数据清洗任务的执行。
8.根据权利要求7所述的方法,其特征在于,所述预测所述数据清洗任务的最佳执行时刻,包括:
基于所述预估模型,获取计算引擎上待执行的其他数据清洗任务的预估任务时长,并且针对所述计算引擎上待执行的每个数据清洗任务,基于初始执行时刻和预估任务时长,计算出对应的结束时刻;
确定所述数据清洗任务的初始执行时刻至所述数据清洗任务的结束时刻之间,是否存在其他数据清洗任务的结束时刻;
如果有,则将所述其他数据清洗任务的结束时刻作为所述数据清洗任务的新的执行时刻,基于所述其他数据清洗任务执行完毕后的计算资源,重新获取所述数据清洗任务的预估任务时长,并基于所述数据清洗任务的新的执行时刻以及重新获取的所述数据清洗任务的预估任务时长,计算出所述数据清洗任务的新的结束时刻;
如果所述数据清洗任务的新的结束时刻早于所述数据清洗任务的结束时刻,则将所述数据清洗任务的新的执行时刻确定为所述数据清洗任务的最佳执行时刻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110736384.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文处理方法、装置、存储介质和电子设备
- 下一篇:管体分段连接装置及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置