[发明专利]图片样本筛选方法、装置、电子设备及介质在审
申请号: | 202310106934.2 | 申请日: | 2023-02-09 |
公开(公告)号: | CN116416488A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 聂鼎铭 | 申请(专利权)人: | 珠海傲视创新科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/771;G06V10/74 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 尹长斌 |
地址: | 519000 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 样本 筛选 方法 装置 电子设备 介质 | ||
本发明提供一种图片样本筛选方法、装置、电子设备及介质,该图片样本筛选方法包括根据图片样本筛选请求,获取图片样本集,对第一图片样本执行预训练,得到图片特征,图片样本集包括第一图片样本;根据图片特征的相似度生成相似度矩阵;通过相似度矩阵删除图片样本集中多样性贡献度不满足第一预设值的第一图片样本;重复多样性贡献度的筛选,直至图片样本集中的第一图片样本的数量至第二预设值。本发明的技术方案通过每次剔除多样性贡献最小的样本进行迭代消除,始终保持筛选过后的样本集的多样性最大化。
技术领域
本发明涉及计算机图像处理技术领域,尤其涉及一种图片样本筛选方法、装置、电子设备及介质。
背景技术
在图像检索任务中,需要构建检索数据集,每一个类别收集若干张图片,然后采集尽可能多的类别用于模型训练,其中少部分图片是通过手动拍照采集的,大部分图片是在用户使用过程中点选分类反馈回来的。在手动拍照采集的时候,会动态调整样本的姿态和背景,从而保证采集样本的多样性,用户侧机器返回的图片是没有经过人为调整的,可能会存在较多的重复样本,因为用户在使用的时候可能摆放的姿势都比较标准,背景都比较清晰,所以样本重复的可能性比较大。
对于其中一类图片(如青苹果),有2W张采集图片,如果不做筛选,直接用于模型训练,可能99%的图片都是相同的姿态和背景,那么最终训练的模型可能泛化性就会存在缺陷(模型会倾向于拟合占比最多的样本),同时如果每一类都维护这么多图片,那么最后整个数据集的体积也会非常大,不利于后续对数据集进行维护存储。基于上述原因,需要对样本数据进行采样去重,最理想的结果就是去除重复样本或者相似样本,尽可能保持样本的多样性。
目前已有的技术普遍是通过哈希去重,首先要得到对应的图片的哈希值,实际使用的时候方法有很多,如取md5值,通过像素值分段或分区域哈希,使用预训练模型提取特征然后分段量化哈希。这种方法虽然能较为有效的去除重复样本,但是最后得到的样本集同样是筛选比较粗糙的,无法保证样本集的多样性。
发明内容
本发明实施例的主要目的在于提出一种图片样本筛选方法、装置、电子设备及介质,提高了图片筛选的多样性。
本发明的一方面提供了一种图片样本筛选方法,包括:
根据图片样本筛选请求,获取图片样本集,对所述第一图片样本执行预训练,得到图片特征,所述图片样本集包括所述第一图片样本;
根据所述图片特征的相似度生成相似度矩阵;
通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本;
重复多样性贡献度的筛选,直至图片样本集中的所述第一图片样本的数量至第二预设值。
根据所述的图片样本筛选方法,其中对所述第一图片样本执行预训练,得到图片特征,包括:
对第一图片样本进行采集;
对所述第一图片样本采用迭代方式进行采样训练,得到预训练模型,通过所述预训练模型对所述第一图片样本执行预训练处理。
根据所述的图片样本筛选方法,其中根据所述图片特征的相似度生成相似度矩阵,包括:
通过计算所述第一图片样本的所述图片特征,计算所述图片特征的两两之间的余弦相似度,得到所述相似度矩阵,所述相似度矩阵的位置坐标用于表征相连的所述第一图像样本的相似度。
根据所述的图片样本筛选方法,其中通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本,包括:
查找所述相似度矩阵中所述相似度最大的所述位置坐标;
对所述位置坐标的两个所述第一图片样本的所述相似度对于所述图片样本集的多样性贡献度进行计算,删除相似度较大的所述第一图片样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海傲视创新科技有限公司,未经珠海傲视创新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310106934.2/2.html,转载请声明来源钻瓜专利网。