[发明专利]一种训练集的构建方法、装置、设备和存储介质有效
申请号: | 202010096392.1 | 申请日: | 2020-02-17 |
公开(公告)号: | CN113269215B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 梁隆恺 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/241 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 构建 方法 装置 设备 存储 介质 | ||
本申请公开了一种训练集的构建方法、装置、设备和存储介质,涉及机器学习技术领域。具体实现方案为:获取训练集,训练集包括多张已标注的第一图像;采用训练集训练分类模型,并采用训练后的分类模型对未标注的第二图像进行分类,得到所述第二图像的类别;根据所述第二图像的类别和图像特征,对所述第二图像进行标注;将已标注的第二图像添加到所述训练集中。本实施例能够高效构建高精度的训练集,无需人工参与,节省人力成本。
技术领域
本申请涉及计算机技术,尤其涉及机器学习技术领域。
背景技术
在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分:训练集(train set),验证集(validation set)和测试集(test set)。其中训练集用来训练模型。
在采用训练集训练图像分类模型的应用场景中,图像的数量和标注的准确性影响着分类模型的训练精度。现有技术中,一般采用人工标注每个图像所属的类别,导致人力成本高,耗时长,且人工标注的准确率难以保证。
发明内容
本申请实施例提供了一种训练集的构建方法、装置、设备和存储介质,以高效构建高精度的训练集,节省人力成本。
第一方面,本申请实施例提供了一种训练集的构建方法,包括:
获取训练集,训练集包括多张已标注的第一图像;
采用训练集训练分类模型,并采用训练后的分类模型对未标注的第二图像进行分类,得到所述第二图像的类别;
根据所述第二图像的类别和图像特征,对所述第二图像进行标注;
将所述已标注的第二图像添加到所述训练集中。
本申请实施例适用于已标注的第一图像的数量比较少的情况,通过多张已标注的第一图像训练精度有限的分类模型;通过精度有限的分类模型分类未标注的第二图像,并采用图像特征加以辅助,得到较为准确的标注;进而将准确标注的第二图像添加到训练集中,高效构建高精度的训练集,无需人工参与,节省人力成本。
可选的,根据所述第二图像的类别和图像特征,对所述第二图像进行标注,包括:
提取所述第二图像的图像特征;
判断所述第二图像的图像特征是否满足所述类别对应的图像特征条件;
如果所述第二图像的图像特征不满足所述类别对应的图像特征条件,对所述第二图像的类别进行修正,并采用修正后的类别对所述第二图像进行标注。
上述申请中的一种可选实施方式,根据分类模型得到的类别与图像特征条件具有对应关系,即某个类别的图像应具有该类别对应的图像特征。鉴于分类模型的精度有限,会存在分类错误的图像,则如果第二图像的图像特征不满足所述类别对应的图像特征条件,对第二图像的类别进行修正,得到准确标注的第二图像。
可选的,图像特征包括:图像边缘能量、图像高频能量、图像梯度能量和图像熵中的至少一种。
上述申请中的一种可选实施方式,图像边缘能量、图像高频能量、图像梯度能量和图像熵能够反映图像的细节丰富程度,对于不同类别的图像具有不同丰富程度的细节的情况,可采用图像边缘能量、图像高频能量、图像梯度能量和图像熵中的至少一种,判断分类模型的分类类别是否准确,有利于准确修正分类类别。
可选的,所述判断所述第二图像的图像特征是否满足所述类别对应的图像特征条件,包括:
根据同一类别的多张第二图像的图像特征值,对所述多张第二图像进行排序;
判断各所述第二图像的排序位置是否位于所述同一类别对应的排序位置范围内;
所述如果所述第二图像的图像特征不满足所述类别对应的图像特征条件,对所述第二图像的类别进行修正,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010096392.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:距离检测方法及装置、电子设备
- 下一篇:图形光栅化方法、装置及存储介质