[发明专利]图片去重方法和装置,存储介质及电子装置在审
申请号: | 201910703442.5 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110442738A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 景逸飞;唐大闰 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/53;G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标图片 去重 原始图片 图片 方法和装置 存储介质 电子装置 对象图片 集合 海量图像数据 关键图片 获取目标 聚类处理 距离目标 重复 存储 | ||
本发明公开了一种图片去重方法和装置,存储介质及电子装置。其中,该方法包括:获取待去重的目标图片;从原始图片簇中确定出距离目标图片最近的至少一个目标图片簇,其中,原始图片簇为对包含目标图片的原始图片集合进行聚类处理所得到的图片簇;获取目标图片簇中每个对象图片与目标图片之间的第一距离;将第一距离小于第一阈值的对象图片标记为重复图片;从与目标图片对应的重复图片中选择一张关键图片存储到目标图片集合中。本发明解决了无法对海量图像数据高效的去重的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种图片去重方法和装置,存储介质及电子装置。
背景技术
图片去重是图像数据清洗中一个重要的环节,通过使用图片去重技术去除图片数据集中重复的图片,从而不用把计算时间花费在重复的图片上,为后续任务节省时间。因此,能够实现对海量数据的快速、高效的去重是一件很有意义的事情,但同时也是一项很具有挑战的任务。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片去重方法和装置,存储介质及电子装置,以至少解决无法对海量图像数据高效的去重的技术问题。
根据本发明实施例的一个方面,提供了一种图片去重方法,其特征在于,包括:获取待去重的目标图片;从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇;获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离;将所述第一距离小于第一阈值的所述对象图片标记为重复图片;从与所述目标图片对应的所述重复图片中选择一张关键图片存储到目标图片集合中。
作为一种可选的实施方式,在上述获取待去重的目标图片之前,还包括:通过多进程并行加载上述原始图片集合;对上述原始图片集合进行预处理,得到处理后的上述原始图片集合,其中,上述预处理包括缩放处理和归一化处理;对处理后的上述原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数;获取处理后的上述原始图片集合中每张图片与上述k个聚类中心之间的第二距离;根据上述第二距离对处理后的上述原始图片集合进行划分,得到上述原始图片簇。
作为一种可选的实施方式,上述对处理后的上述原始图片集合进行聚类处理,得到k个聚类中心包括:使用自编码器对处理后的上述原始图片集合中每张图片进行特征提取,得到图片特征;根据上述图片特征对处理后的上述原始图片集合进行聚类处理,得到上述k个聚类中心。
作为一种可选的实施方式,上述获取处理后的上述原始图片集合中每张图片与上述k个聚类中心之间的第二距离包括:依次获取上述原始图片集合中的每张图片作为当前图片;获取上述当前图片与上述k个聚类中心中每个聚类中心之间的上述第二距离;获取上述当前图片之后的下一张图片作为上述当前图片;上述根据上述第二距离对处理后的上述原始图片集合进行划分,得到上述原始图片簇包括:根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,,将上述当前图片划分至与上述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
作为一种可选的实施方式,上述将所述第一距离小于第一阈值的所述对象图片标记为重复图片包括:获取上述重复图片的数量;在上述重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值;将与上述目标图片对应的上述重复图片均标记为第一索引值,其中,不同的上述目标图片对应的重复图片将被标记为不同的索引值。
作为一种可选的实施方式,在上述将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,还包括:将上述索引变量从上述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片;在所述下一张图片未被标记为任意一张已比对的目标图片的重复图片的情况下,将所述下一张图片标记为下一张待去重的目标图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910703442.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于图数据库的数字孪生方法及系统
- 下一篇:一种基于图片识别的搜索技术