[发明专利]一种数据清洗任务处理方法及装置在审
申请号: | 202110736384.3 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113360270A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 林鹏程;韩钰 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F16/215 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 清洗 任务 处理 方法 装置 | ||
本申请提供一种数据清洗任务处理方法、装置、电子设备及机器可读存储介质,所述方法包括:步骤102:基于预估模型,获取待执行的数据清洗任务的预估任务时长;其中,所述预估模型包括将与若干历史数据清洗任务执行相关的关键属性作为输入,并将若干历史数据清洗任务的实际任务时长作为输出,训练得到的机器学习模型;所述数据清洗任务包括针对从大数据平台获取到的待清洗数据进行数据清洗的任务;步骤104:响应于所述数据清洗任务被执行,确定所述数据清洗任务的当前运行时长是否超过所述数据清洗任务的预估任务时长;步骤106:如果否,则继续执行步骤104,直至所述数据清洗任务执行完毕。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据清洗任务处理方法、装置、电子设备及机器可读存储介质。
背景技术
数据清洗,是对待清洗数据进行重新审查和校验的过程,其目的在于删除待清洗数据中的重复信息、纠正待清洗数据中存在的错误、以及提供数据一致性。
在实际应用中,进行数据清洗时,可以先通过数据清洗平台创建针对待清洗数据的数据清洗任务,为该数据清洗任务配置对应的计算资源,如:数据清洗任务的运行环境配置、可用计算资源大小等,还可以配置与该数据清洗任务对应的一个或多个数据清洗规则;进一步地,响应于已创建的数据清洗任务被执行,与该数据清洗任务执行相关的计算引擎可以针对待清洗数据进行数据清洗。
发明内容
本申请提供一种数据清洗任务处理方法,所述方法包括:
步骤102:基于预估模型,获取待执行的数据清洗任务的预估任务时长;其中,所述预估模型包括将与若干历史数据清洗任务执行相关的关键属性作为输入,并将若干历史数据清洗任务的实际任务时长作为输出,训练得到的机器学习模型;所述数据清洗任务包括针对从大数据平台获取到的待清洗数据进行数据清洗的任务;
步骤104:响应于所述数据清洗任务被执行,确定所述数据清洗任务的当前运行时长是否超过所述数据清洗任务的预估任务时长;
步骤106:如果所述数据清洗任务的当前运行时长未超过所述数据清洗任务的预估任务时长,则继续执行所述步骤104,直至所述数据清洗任务执行完毕。
可选的,所述方法还包括:
如果所述数据清洗任务的当前运行时长已超过所述数据清洗任务的预估任务时长,则确定所述数据清洗任务运行异常。
可选的,所述方法还包括:
针对若干历史数据清洗任务的预估任务时长和实际任务时长进行数据拟合,得到预估任务时长和实际任务时长之间的修正函数;
所述基于预估模型,获取待执行的数据清洗任务的预估任务时长,包括:
基于所述预估模型,获取待执行的数据清洗任务的初步预估任务时长;
基于所述修正函数,对所述初步预估任务时长进行修正,并将修正后的初步预估运行时长确定为所述数据清洗任务的预估任务时长。
可选的,所述基于所述预估模型,获取待执行的数据清洗任务的初步预估任务时长,包括:
将与待执行的数据清洗任务执行相关的关键属性输入所述预估模型,得到所述预估模型输出的所述数据清洗任务的初步预估任务时长;其中,与数据清洗任务执行相关的关键属性,包括为数据清洗任务分配的计算资源对应的资源信息。
可选的,所述为数据清洗任务分配的计算资源对应的资源信息,包括以下示出的一个或者多个的组合:
为数据清洗任务分配的内存资源的大小;
为数据清洗任务分配的CPU处理资源的大小;
数据清洗任务对应的运行环境的磁盘类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110736384.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文处理方法、装置、存储介质和电子设备
- 下一篇:管体分段连接装置及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置