[发明专利]除噪方法、装置、计算机设备、存储介质及模型训练方法在审
申请号: | 201911249594.9 | 申请日: | 2019-12-09 |
公开(公告)号: | CN110929733A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 周康明;杭金婷 | 申请(专利权)人: | 上海眼控科技股份有限公司 |
主分类号: | G06K9/40 | 分类号: | G06K9/40;G06K9/62;G06N3/04 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法 装置 计算机 设备 存储 介质 模型 训练 | ||
本申请涉及一种噪声样本的除噪方法、装置、计算机设备、存储介质及模型训练方法,首先,获取噪声样本序列及所述噪声样本序列所对应的第一标签数据;接着,通过转移矩阵对所述第一标签数据进行修正,得到修正后的第二标签数据,提升标签数据的准确率;从而根据所述噪声样本序列、所述第一标签数据以及所述第二标签数据,通过条件变分自编码器模型生成标签正确的样本序列,进一步提升准确标签样本在噪声样本序列中的比例,从而提升模型的准确性。
技术领域
本申请涉及机器学习领域,特别是涉及一种噪声样本的除噪方法、装置、计算机设备、存储介质及模型训练方法。
背景技术
在机器学习领域中,常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。在监督学习中,为了得到良好的学习效果,除了对带标签的训练数据的数量有较高要求之外,训练数据所对应的标签质量对于学习效果也是至关重要。如果学习时使用的标签数据是错误的,那么不可能训练出有效的预测模型。
通常情况下,可以通过噪声样本除噪方法降低噪声样本的含量。而噪声样本除噪方法是指在真实的有一些标签标错的数据集上,学习出一个深度神经网络,学习到一个正确标签的分布,最终输入一批具有正确标签的图片。
但是,在传统技术中,对错误标签进行纠正时依旧存在准确率不高的技术问题。
发明内容
基于此,有必要针对传统技术中对错误标签进行纠正时依旧存在准确率不高的技术问题,提供一种噪声样本的除噪方法、装置、计算机设备、存储介质及模型训练方法。
一种噪声样本的除噪方法,所述方法包括:
获取噪声样本序列及所述噪声样本序列所对应的第一标签数据;
通过转移矩阵对所述第一标签数据进行修正,得到修正后的第二标签数据;
根据所述噪声样本序列、所述第一标签数据以及所述第二标签数据,通过条件变分自编码器模型生成标签正确的样本序列。
在其中一个实施例中,所述条件变分自编码器模型包括第一神经网络和与所述第一神经网络连接的第二神经网络;所述根据所述噪声样本序列、所述第一标签数据以及所述第二标签数据,通过条件变分自编码器模型生成标签正确的样本序列,包括:
将所述噪声样本序列及所述第一标签数据输入至所述第一神经网络;
通过所述第一神经网络对所述噪声样本序列及所述标签数据进行编码,得到第一隐变量;
将所述第一隐变量以及所述第二标签数据输入至所述第二神经网络,通过所述第二神经网络生成所述标签正确的样本序列。
在其中一个实施例中,在所述将所述第一隐变量以及所述第二标签数据输入至第二神经网络之前,所述方法还包括:
对所述第一隐变量进行上采样处理,得到第二隐变量;
所述将所述第一隐变量以及所述第二标签数据输入至第二神经网络,包括:
将所述第二隐变量以及所述第二标签数据输入至第二神经网络。
在其中一个实施例中,所述对所述第一隐变量进行上采样处理,得到第二隐变量,包括:
从噪声分布中进行随机取样,通过随机选取的数值对所述第一隐变量进行上采样处理,得到所述第二隐变量。
在其中一个实施例中,所述第一隐变量服从高斯分布;所述通过随机选取的数值对所述第一隐变量进行上采样处理,得到所述第二隐变量,包括:
计算所述随机选取的数值与所述第一隐变量的方差之间的乘积;
根据所述乘积与所述第一隐变量的均值确定所述第二隐变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海眼控科技股份有限公司,未经上海眼控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911249594.9/2.html,转载请声明来源钻瓜专利网。