[发明专利]一种样本筛选方法、系统、电子设备及存储介质在审
| 申请号: | 202011502684.7 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112527996A | 公开(公告)日: | 2021-03-19 |
| 发明(设计)人: | 范慧婷 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06K9/62;G06N20/00 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
| 地址: | 100192 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 筛选 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种样本筛选方法、系统、电子设备及存储介质。样本筛选方法包括:输入步骤:输入一个训练样本集;评估步骤:通过偏差性评估策略及准确率评估策略对所述训练样本集进行评估筛选;输出步骤:输出筛选后的训练样本集。本发明提出的一种样本筛选方法、系统、电子设备及存储介质,对不同规模的数据都适用,数据的标签可以不是完全正确的,通过交替优化样本挑选策略和样本准确率评估策略,来不断地学习不同的样本特征,以此不断地提高样本标签的准确率,避免学习到错误样本的特征,同时消除得到的高准确率标签样本的偏差性,使得最终的用于模型训练的所有样本服从无偏分布。
技术领域
本申请涉及人样本筛选领域,尤其涉及一种样本筛选方法、系统、电子设备及存储介质。
背景技术
在实际的应用机器学习的生产场景中,一种重要的学习任务是有监督学习,有监督学习中要求数据是带有一个或者多个标签的,数据和标签构成了一个学习样本,比如有这样一个样本:特征数据为:喜欢喝奶茶,买了护肤SPA套餐,观看了《新生日记》5期,点击了护舒宝的广告3次等;标签:“女性”但是样本的标签并不容易获取,可能会需要大量人力进行标记或者需要大量且丰富的数据进行判断(规则或者机器学习方法),并且即使通过各种方法得到标签数据,标签的准确率可能不高,比如给定性别标签时认为安装了小红书APP为女性,观看的剧目全是体育频道的为男性会导致整体的标签准确率并不高。同时还会存在另外一个问题,因为这样的标签对应的样本并不是随机选取得到的,会和真实的男女分布存在偏差。如何通过现有数据定义标签视业务和数据而定,但是如何提高标签的准确率和在有偏差的情况下进行学习是一个很大的技术和研究主题。
因此,针对以上现状,本发明提出一种样本筛选方法、系统、电子设备及存储介质,本发明的基于动态背包的样本筛选方法同时兼顾了样本的准确率和偏差性,实现了动态背包问题与样本筛选问题的对应和转换,能够大大提高最终模型训练的性能,并且方案中的两个策略都是一个机器学习问题,有强大的理论基础。在实际应用场景中,经常通过一定业务规则得到样本的标签,这样的标签往往不准确,这样会导致最后模型训练的效果也不能保证。通过本发明筛选得到的样本标签更贴近真实标签,因此可以不需要真实的标签,同时本发明能适应于大规模数据的标签筛选,降低了人工的强标签规则的设定要求,降低了样本偏差性能够大大提高模型的泛化能力。
发明内容
本申请实施例提供了人脸关键点数目转换方法、系统、电子设备及存储介质,以至少解决相关技术中主观因素影响的问题。
本发明提供了样本筛选方法,包括:
输入步骤:输入训练样本集;
评估步骤:通过偏差性评估策略及准确率评估策略对所述训练样本集进行评估筛选;
输出步骤:输出筛选后的训练样本集。
上述的样本筛选方法,所述输入步骤包括,输入带有标签的所述训练样本集。
上述的样本筛选方法,所述评估步骤包括:
偏差性评估步骤:计算所述训练样本集的多个样本被保留概率以及加权经验误差后,得到所述训练样本集的最优评估函数,通过所述最优评估函数以及f(t)函数,得到所述训练样本集中样本标签的偏差性、需删除样本以及偏差性阈值,小于所述偏差性阈值的所述训练样本集为准确率评估样本集,并计算所述准确率评估以及偏差性评估样本集的总偏差性;
准确率评估步骤:通过训练所述准确率评估样本集,获取所述准确率评估样本集的所述准确率,根据所述准确率选择下一轮偏差性评估样本集。
上述的样本筛选方法,所述输出步骤包括,直到所述偏差性评估以及准确率评估样本集中所述样本标签的偏差性、准确率的方差不再变小后,输出最终模型训练样本集。
本发明提供一种样本筛选系统,其特征在于,适用于上述所述的样本筛选方法,包括:
输入单元:输入训练样本集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502684.7/2.html,转载请声明来源钻瓜专利网。





