[发明专利]一种基于分层聚类的均衡图像聚类方法在审
| 申请号: | 201711140092.3 | 申请日: | 2017-11-16 |
| 公开(公告)号: | CN108171252A | 公开(公告)日: | 2018-06-15 |
| 发明(设计)人: | 李炜 | 申请(专利权)人: | 柳州健鱼科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京中恒高博知识产权代理有限公司 11249 | 代理人: | 宋敏 |
| 地址: | 545000 广西壮族自治区柳州市柳*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 均衡图像 分层 特征数据 提取图像 聚类簇 图像 | ||
本发明公开了一种基于分层聚类的均衡图像聚类方法,主要包括:步骤1:提取图像的特征数据;步骤2:对图像的特征数据进行聚类;步骤3:对步骤2得到的每个聚类簇进行切分。本发明的一种基于分层聚类的均衡图像聚类方法,可以实现效率高、节省成本以及实用性强的优点。
技术领域
本发明涉及图像处理技术领域,具体地,涉及一种基于分层聚类的均衡图像聚类方法。
背景技术
在基于内容的图像搜索技术(Content-Based Image Retrieval,CBIR)中,当用户上传一幅商品图像并期望搜寻与该图相同或相近的商品时,搜索引擎对用户上传的商品图像进行特征提取,并从索引图像特征矢量数据库中选取与其在高维空间中距离最近的多个图像作为结果返回。
但是,当图像特征维度以及库内图像数量较大时,该方法的查询耗时较大,无法满足工程需要。聚类的方法被引入CBIR中。采用聚类的方法,将数据按照其在高维空间的分布,聚集成为聚类簇;检索时,首先计算被检索图像与所有簇的中心的距离,确定被检索图像所属的聚类簇,然后对簇内的数据进行遍历,获得最近的k个图像。由于需要遍历的数据量的减少,该方法相对于正向遍历的方式检索效率有所提高,但是存在以下问题:
查询时间效率依赖于被查询图像所属的簇的大小,如果聚类产生的簇的大小不均衡,会导致查询时间产生不均衡性。当被查询图像属于包含图像个数较大的簇时,需要遍历的图像量及查询耗时增大。由于包含数据量大的簇代表更“常见”的图像特征,被查询图像落在其中的概率大于包含数据量少的聚类簇。因此,如果某个聚类簇包含的数据量远高于平均值,将会严重影响商品图像搜索引擎的平均响应时间;数据遍历被限定在簇内,如果有k-近邻数据处于其他簇中,则在检索结果中被丢失,导致查询效果降低。
发明内容
本发明的目的在于,针对上述问题,提出一种基于分层聚类的均衡图像聚类方法,以实现效率高、节省成本以及实用性强的优点。
为实现上述目的,本发明采用的技术方案是:一种基于分层聚类的均衡图像聚类方法,主要包括:
步骤1:提取图像的特征数据;
步骤2:对图像的特征数据进行聚类;
步骤3:对步骤2得到的每个聚类簇进行切分。
进一步地,所述步骤1还包括将特征数据转换成特征矢量数据。
进一步地,所述特征矢量的每一维数值都用来表征图像的特征,包括形状、颜色、纹理和结构。
进一步地,所述步骤2中所述聚类采用K-Means算法。
进一步地,所述K-Means算法将输入的特征数据划分为多个聚类,且同一聚类中的对象相似度较高,不同聚类中的聚类相似度较低。
进一步地,所述步骤3具体包括:
步骤3.1:检查聚类所包含的图像个数;
步骤3.2:在聚类簇进行二次中心聚类;
步骤3.3:将该聚类簇的中心坐标写入聚类文件中。
进一步地,所述步骤3还包括:
如果步骤3.1中聚类中心包含的图像个数小于设置的阈值则跳转到步骤3.3,否则跳转到步骤3.2。
进一步地,所述步骤3.1具体包括:
阈值的设定取决于服务器的计算及接口性能,由于高维空间距离计算的复杂性,我们在计算的时候忽略距离排序及归并的计算量,而着眼于使单次查询距离计算次数最小,设单次查询遍历的聚类簇个数为n。
进一步地,所述步骤3.2具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柳州健鱼科技有限公司,未经柳州健鱼科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711140092.3/2.html,转载请声明来源钻瓜专利网。





