[发明专利]一种提升样本数据集数据质量的方法及系统在审
申请号: | 202110854516.2 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113535703A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 陈瑞;冷迪;黄建华 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N20/00 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 孙威 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 样本 数据 集数 质量 方法 系统 | ||
本发明提供一种提升样本数据集数据质量的方法及系统,包括,步骤S1,获取样本数据并进行筛选,获得高质量样本数据;对所述高质量样本数据进行判断,判断是否保留高质量样本数据;步骤S2,对保留的高质量样本数据进行训练,获得参考模型;步骤S3,判断所述参考模型的性能是否满足预设的阈值,当满足预设的阀值时获得标准模型;步骤S4,通过所述标准模型对所述最新的样本数据进行预测,获得标准预测结果;通过所述参考模型对所述最新的样本数据进行预测,获得参考预测结果;并进行比较确定是否保留标准模型;步骤S5,保留标准模型时,判定最新的样本数据为高质量。本发明省去人工筛选的时间,确定数据是高质量数据的准确率,提升模型的效果。
技术领域
本发明涉及计算机技术领域,特别是涉及一种提升样本数据集数据质量的方法及系统。
背景技术
随着企业数字化和智能化程度越来越高,不仅在发展规模上较之前有了明显的提升,当前信息通信系统建设力度也在不断加大,在发展的同时也引发了一系列的困扰,通信系统的不断升级与完善无疑增加了运维的难度与复杂性。构建合理、科学的管理操作平台是电力企业亟待解决的问题。通过一体化运维体系的构建,可以在其技术框架基础之上,结合当前电力信息系统IT基础架构的实际情况,对其运维模式以及运行状态进行合理化评估。评估结果能够有效为电力信息系统正常运行提供相应的技术支撑,提高企业信息系统运维高效性。
为了能够更好完成建模工作,需要进行深度学习,而若想学习模型准确就需要持续训练,在训练过程中,训练集需要采集标记数据,而高质量的数据集获取本身需要投入大量的成本(资金,时间等),目前市面上获取高质量的数据是人工操作的,即依靠人工获取数据,并依靠人工对所获取的数据进行质量判断,然而,依靠人工来处理数据集的话,对于数据增强需要几十几百倍的数据,普通标注数据有一点难度,再者,人工识别完全是凭借判断者的知识累积,数据的判断大部分是依靠判断者的人为意识,所判断的数据存在误差,人工所识别的数据并不全部都是属于高质量数据,数据不理想,数据存在很大问题,加上能够识别高质量数据的人的门槛高,从而导致识别高质量数据的人更是稀缺。
发明内容
本发明的目的在于,提出一种提升样本数据集数据质量的方法及系统,解决现有深度学习过程中,训练集的高质量数据获取的成本高且效率低的技术问题。
一方面,提供一种提升样本数据集数据质量的方法,包括以下步骤:
步骤S1,获取样本数据并根据预设的筛选条件进行筛选,获得高质量样本数据;根据预设的样本类型筛选条件对所述高质量样本数据进行判断,保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据;
步骤S2,根据保留的高质量样本数据对基础模型进行训练,获得参考模型;
步骤S3,判断所述参考模型的性能是否满足预设的阈值,当所述参考模型的性能满足预设的阀值时,通过高质量样本数据对所述参考模型进行训练,获得标准模型;
步骤S4,获取最新的样本数据,通过所述标准模型对所述最新的样本数据进行预测,获得标准预测结果;通过所述参考模型对所述最新的样本数据进行预测,获得参考预测结果;并将所述标准预测结果与所述参考预测结果进行比较,根据比较结果确定是否保留标准模型;
步骤S5,当保留标准模型时,判定所述最新的样本数据为高质量样本数据。
优选地,所述步骤S1包括:
通过预设的筛选条件对获取的样本数据逐一进行判断,当样本数据满足预设的筛选条件时,将该样本数据保留并标记为高质量样本数据;当样本数据不满足预设的筛选条件时,将该样本数据删除或忽略。
优选地,所述步骤S1还包括:
识别所述高质量样本数据的类别,并将高质量样本数据的类别与预设的样本类型阈值比较;
当高质量样本数据的类别与预设的样本类型阈值相同时,将该样本数据保留;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110854516.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置