[发明专利]哈希模型训练方法、相似对象检索方法及装置在审
| 申请号: | 201910892285.7 | 申请日: | 2019-09-20 |
| 公开(公告)号: | CN110659375A | 公开(公告)日: | 2020-01-07 |
| 发明(设计)人: | 周文罡;王敏;李厚强;田奇 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06K9/62 |
| 代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 王娇娇 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 邻域 哈希 测度 金字塔 邻居 优化目标 原始空间 准确率 相似性检索 对象检索 距离保持 距离分布 模型训练 模型映射 平均距离 特征向量 逐渐增大 参考点 数据点 最近邻 多层 构建 近似 排序 检索 | ||
本发明提供了哈希模型训练方法、相似对象检索方法及装置,通过逐渐增大邻居点的数量构建多层邻域金字塔。在邻域金字塔的每一层邻域中,将该层中的邻居点到参考点的平均距离作为该层邻域的欧式邻域测度。将原始空间中的数据点利用哈希模型映射到汉明空间,并计算金字塔每层的汉明邻域测度。哈希模型的优化目标是在汉明空间中保持原始空间中的邻域测度,该优化目标不仅能够保持真实邻居点的距离分布,同时能够保持邻居的排序,最终获得更好的距离保持,进而提高近似最近邻检索的准确率。利用该哈希模型得到对象的汉明空间的特征向量能够更好地保持该对象在欧式空间中的特征,因此,利用该方法能够提高相似性检索的准确率。
技术领域
本发明属于计算机视觉技术领域,尤其涉及哈希模型训练方法、图像检索方法及装置。
背景技术
随着多媒体数据规模的飞速增长,近似最近邻搜索技术在计算机视觉和图像处理中广泛应用。给定一个查询样本,近似最近邻搜索技术可以以很高的概率从一个大规模数据集中查找到查询样本的真实最近邻,并且检索时间复杂度为线性甚至是常数时间复杂度。
近似最近邻查找技术中的二值哈希方法,通过距离保持约束或语义相似性约束将原始空间中的高维数据点映射到汉明空间中的低维二值码。二值码可以极大地降低存储开销,并且二值码之间的汉明距离能够被现代CPU架构高效地计算,因此二值哈希具有存储空间消耗低和距离计算速度快的优势。因此,二值哈希方法得到广泛研究和适用。
无监督哈希方法使用不含任何标签信息的训练数据进行哈希函数学习。尽管现有的无监督哈希方法在公开数据集上展示了有潜力的检索性能,在大规模数据集上如何获得更高的近似最近邻检索准确度仍然是待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种哈希模型训练方法、对象检索方法及装置,以提高哈希方法的近似最近邻检索精确度,具体的技术方案如下:
第一方面,本发明还提供了一种哈希模型训练方法,包括:
对于训练数据集中的每一个数据点,构建邻域金字塔,所述邻域金字塔中每一层都是该数据点的邻居点,且邻居点的数量从上至下逐层增加;
计算所述邻域金字塔中每一层的邻居点与该数据点之间的距离,得到该层邻域的欧式邻域测度;
利用当前哈希模型将所述待训练数据集中的数据点映射至汉明空间,得到该数据点对应的汉明空间向量;
利用该数据点对应的汉明空间向量,计算所述邻域金字塔中每一层邻域对应的汉明邻域测度;
依据同一个数据点对应的欧式邻域测度和汉明邻域测度,优化所述当前模型中的模型参数,直到达到预设收敛条件,得到目标哈希模型。
在一种可能的实现方式中,对于训练数据集中的每一个数据点,构建邻域金字塔,包括:
对于每一个数据点,计算该数据点与所述训练数据集中所有其它数据点之间的距离;
依据所述距离由小到大的顺序,对所述训练数据集中的所有数据点进行排序;
对于排序后的数据点依次划分为N个数据点组,每个数据点组包括预设数量个数据点;
按照数据点组的排列索引由小到大的顺序,依次确定邻域金字塔每一层包含的数据点组,其中,每一层邻域包括从第一组开始的前预设数量个数据点组,且该预设数量等于该层邻域在邻域金字塔中的层数。
在一种可能的实现方式中,计算所述邻域金字塔中每一层的邻居点与该数据点之间的距离,得到该层邻域的欧式邻域测度,包括:
计算邻域金字塔中每一层包含的邻居点与该数据点之间的平均欧式距离,作为该层邻域的欧式邻域测度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910892285.7/2.html,转载请声明来源钻瓜专利网。





