[发明专利]一种样本筛选方法、系统、电子设备及存储介质在审
| 申请号: | 202011502684.7 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112527996A | 公开(公告)日: | 2021-03-19 |
| 发明(设计)人: | 范慧婷 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06K9/62;G06N20/00 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
| 地址: | 100192 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 筛选 方法 系统 电子设备 存储 介质 | ||
1.一种样本筛选方法,其特征在于,基于动态背包,所述样本筛选方法包括:
输入步骤:输入训练样本集;
评估步骤:通过偏差性评估策略及准确率评估策略对所述训练样本集进行评估筛选;
输出步骤:输出筛选后的训练样本集。
2.根据权利要求1所述的样本筛选方法,其特征在于,所述输入步骤包括,输入带有标签的所述训练样本集。
3.根据权利要求1所述的样本筛选方法,其特征在于,所述评估步骤包括:
偏差性评估步骤:计算所述训练样本集中的多个样本被保留概率以及加权经验误差后,得到所述训练样本集的最优评估函数,通过所述最优评估函数以及f(t)函数,得到所述训练样本集中样本标签的偏差性、需删除样本以及偏差性阈值,小于所述偏差性阈值的所述训练样本集为准确率评估样本集,并计算所述准确率评估以及偏差性评估样本集的总偏差性;
准确率评估步骤:通过训练所述准确率评估样本集,获取所述准确率评估样本集的所述准确率,根据所述准确率选择下一轮偏差性评估样本集。
4.根据权利要求3所述的样本筛选方法,其特征在于,所述输出步骤包括,直到所述偏差性评估以及准确率评估样本集中所述样本标签的偏差性、准确率的方差不再变小后,输出最终模型训练样本集。
5.一种样本筛选系统,其特征在于,基于动态背包,适用于上述权利要求1-4所述的一种样本筛选方法,包括:
输入单元:输入训练样本集;
评估单元:通过偏差性评估策略及准确率评估策略对所述训练样本集的多个样本进行评估筛选;
输出单元:输出筛选后的训练样本集。
6.根据权利要求5所述的样本筛选系统,其特征在于,所述输入单元包括,输入带有标签的所述训练样本集。
7.根据权利要求6所述的样本筛选系统,其特征在于,所述评估单元包括:
偏差性评估模块:计算所述训练样本集中的样本的被保留概率以及加权经验误差后,得到所述训练样本集的最优评估函数,通过所述最优评估函数以及f(t)函数,得到所述训练样本集中样本标签的偏差性、需删除样本以及偏差性阈值,小于所述偏差性阈值的所述训练样本集为准确率评估样本集,并计算所述准确率评估以及偏差性评估样本集的总偏差性;
准确率评估模块:通过训练所述准确率评估样本集,获取所述准确率评估样本集的所述准确率,根据所述准确率选择下一轮偏差性评估样本集。
8.根据权利要求7所述的样本筛选系统,其特征在于,所述输出单元包括,直到所述偏差性评估以及准确率评估样本集中所述样本标签的偏差性、准确率的方差不再变小后,输出最终模型训练样本集。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的样本筛选方法。
10.一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现如权利要求1至4中任一项所述的样本筛选方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502684.7/1.html,转载请声明来源钻瓜专利网。





