[发明专利]数据清洗方法、模型训练方法、装置、存储介质及设备在审

专利信息
申请号: 201910282171.0 申请日: 2019-04-09
公开(公告)号: CN111797078A 公开(公告)日: 2020-10-20
发明(设计)人: 陈仲铭;何明 申请(专利权)人: OPPO广东移动通信有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06N20/00
代理公司: 深圳翼盛智成知识产权事务所(普通合伙) 44300 代理人: 黄威
地址: 523860 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 清洗 方法 模型 训练 装置 存储 介质 设备
【说明书】:

本申请实施例公开了一种数据清洗方法、模型训练方法、装置、存储介质及设备,其中,可以首先获取需要进行数据清洗的待清洗数据,以及获取待清洗数据的清洗需求,然后根据获取到的待清洗数据、清洗需求以及预先训练的清洗规则分类模型,确定出用于对待清洗数据进行数据清洗的目标清洗规则,最后根据确定出的目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足清洗需求。由此,只要预先训练得到清洗规则分类模型,后续即可利用该清洗规则分类模型实现对数据的自动清洗,而无需过多的人工参与,不仅降低了数据清洗的人力成本,更提高了数据清洗的效率。

技术领域

本申请涉及数据处理技术领域,具体涉及一种数据清洗方法、模型训练方法、装置、存储介质及设备。

背景技术

目前,如何对海量的数据进行处理已经成为电子设备不得不面对的考验,而对数据进行处理的首要工作就是数据清洗,通俗的说,即识别并滤除“脏数据”、保留“干净数据”。然而,相关技术中在进行数据清洗时,往往依赖于人工的领域知识、经验等,导致了大量的人力资源消耗,使得数据清洗的人力成本较高。

发明内容

本申请实施例提供了一种数据清洗方法、模型训练方法、装置、存储介质及设备,能够降低数据清洗的人力成本。

第一方面,本申请实施例提供了一种数据清洗方法,应用于电子设备,该数据清洗方法包括:

获取需要进行数据清洗的待清洗数据;

获取所述待清洗数据的清洗需求;

根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;

根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;

其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。

第二方面,本申请实施例提供了一种模型训练方法,应用于电子设备,该模型训练方法包括:

获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;

获取各所述清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;

获取各所述待清洗样本数据及其对应的清洗效果的联合特征,以及获取各所述清洗规则的清洗规则特征;

将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。

第三方面,本申请实施例提供了一种数据清洗装置,应用于电子设备,该数据清洗装置包括:

数据获取模块,用于获取需要进行数据清洗的待清洗数据;

需求获取模块,用于获取所述待清洗数据的清洗需求;

规则确定模块,用于根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;

数据清洗模块,用于根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;

其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。

第四方面,本申请实施例提供了一种模型训练装置,应用于电子设备,该模型训练装置包括:

第一获取模块,用于获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910282171.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top