[发明专利]一种提升样本数据集数据质量的方法及系统在审
申请号: | 202110854516.2 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113535703A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 陈瑞;冷迪;黄建华 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N20/00 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 孙威 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 样本 数据 集数 质量 方法 系统 | ||
1.一种提升样本数据集数据质量的方法,其特征在于,包括以下步骤:
步骤S1,获取样本数据并根据预设的筛选条件进行筛选,获得高质量样本数据;根据预设的样本类型筛选条件对所述高质量样本数据进行判断,保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据;
步骤S2,根据保留的高质量样本数据对基础模型进行训练,获得参考模型;
步骤S3,判断所述参考模型的性能是否满足预设的阈值,当所述参考模型的性能满足预设的阀值时,通过高质量样本数据对所述参考模型进行训练,获得标准模型;
步骤S4,获取最新的样本数据,通过所述标准模型对所述最新的样本数据进行预测,获得标准预测结果;通过所述参考模型对所述最新的样本数据进行预测,获得参考预测结果;并将所述标准预测结果与所述参考预测结果进行比较,根据比较结果确定是否保留标准模型;
步骤S5,当保留标准模型时,判定所述最新的样本数据为高质量样本数据。
2.如权利要求1所述的方法,其特征在于,所述步骤S1包括:
通过预设的筛选条件对获取的样本数据逐一进行判断,当样本数据满足预设的筛选条件时,将该样本数据保留并标记为高质量样本数据;当样本数据不满足预设的筛选条件时,将该样本数据删除。
3.如权利要求2所述的方法,其特征在于,所述步骤S1还包括:
识别所述高质量样本数据的类别,并将高质量样本数据的类别与预设的样本类型阈值比较;
当高质量样本数据的类别与预设的样本类型阈值相同时,将该样本数据保留;
当高质量样本数据的类别与预设的样本类型阈值不相同时,将该样本数据删除。
4.如权利要求3所述的方法,其特征在于,所述步骤S3包括:
识别所述参考模型包含的业务指标数量,并将参考模型包含的业务指标数量与预设的阈值比较;
当参考模型包含的业务指标数量大于等于预设的阈值时,判定参考模型的性能满足预设的阀值;
当参考模型包含的业务指标数量小于预设的阈值时,判定参考模型的性能不满足预设的阀值。
5.如权利要求4所述的方法,其特征在于,所述步骤S3还包括:
获取高质量样本数据的历史标注数据,并识别历史标注数据的特征;
将属于同一特征的历史标注数据根据预设的训练规则进行训练,获得标注参考模型;
获取高质量样本数据的未标注数据,通过标注参考模型识别所述未标注数据的特征并与历史标注数据的特征比较,按相同或相似的历史标注数据的特征对所述未标注数据进行标记,标记上与所述历史标注数据相同的软标签;
根据预设的训练规则对所述软标签进行训练,获得标准模型。
6.如权利要求5所述的方法,其特征在于,所述步骤S4包括:
当所述标准预测结果与所述参考预测结果一致时,判定保留该标准模型;
当所述标准预测结果与所述参考预测结果不一致时,判定不保留该标准模型。
7.一种提升样本数据集数据质量的系统,用以实现如权利要求1-6任一项所述的方法,其特征在于,包括:
样本挑选模块,用以获取样本数据并根据预设的筛选条件进行筛选,获得高质量样本数据;根据预设的样本类型筛选条件对所述高质量样本数据进行判断,保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据;
参考模型模块,用以根据保留的高质量样本数据对基础模型进行训练,获得参考模型;
标准模型模块,用以判断所述参考模型的性能是否满足预设的阈值,当所述参考模型的性能满足预设的阀值时,通过高质量样本数据对所述参考模型进行训练,获得标准模型;
校验模块,用以获取最新的样本数据,通过所述标准模型对所述最新的样本数据进行预测,获得标准预测结果;通过所述参考模型对所述最新的样本数据进行预测,获得参考预测结果;并将所述标准预测结果与所述参考预测结果进行比较,根据比较结果确定是否保留标准模型,当保留标准模型时,判定所述最新的样本数据为高质量样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110854516.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置