[发明专利]哈希模型训练方法、相似对象检索方法及装置在审
| 申请号: | 201910892285.7 | 申请日: | 2019-09-20 |
| 公开(公告)号: | CN110659375A | 公开(公告)日: | 2020-01-07 |
| 发明(设计)人: | 周文罡;王敏;李厚强;田奇 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06K9/62 |
| 代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 王娇娇 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 邻域 哈希 测度 金字塔 邻居 优化目标 原始空间 准确率 相似性检索 对象检索 距离保持 距离分布 模型训练 模型映射 平均距离 特征向量 逐渐增大 参考点 数据点 最近邻 多层 构建 近似 排序 检索 | ||
1.一种哈希模型训练方法,其特征在于,包括:
对于训练数据集中的每一个数据点,构建邻域金字塔,所述邻域金字塔中每一层都是该数据点的邻居点,且邻居点的数量从上至下逐层增加;
计算所述邻域金字塔中每一层的邻居点与该数据点之间的距离,得到该层邻域的欧式邻域测度;
利用当前哈希模型将所述待训练数据集中的数据点映射至汉明空间,得到该数据点对应的汉明空间向量;
利用该数据点对应的汉明空间向量,计算所述邻域金字塔中每一层邻域对应的汉明邻域测度;
依据同一个数据点对应的欧式邻域测度和汉明邻域测度,优化所述当前模型中的模型参数,直到达到预设收敛条件,得到目标哈希模型。
2.根据权利要求1所述的方法,其特征在于,对于训练数据集中的每一个数据点,构建邻域金字塔,包括:
对于每一个数据点,计算该数据点与所述训练数据集中所有其它数据点之间的距离;
依据所述距离由小到大的顺序,对所述训练数据集中的所有数据点进行排序;
对于排序后的数据点依次划分为N个数据点组,每个数据点组包括预设数量个数据点;
按照数据点组的排列索引由小到大的顺序,依次确定邻域金字塔每一层包含的数据点组,其中,每一层邻域包括从第一组开始的前预设数量个数据点组,且该预设数量等于该层邻域在邻域金字塔中的层数。
3.根据权利要求1所述的方法,其特征在于,计算所述邻域金字塔中每一层的邻居点与该数据点之间的距离,得到该层邻域的欧式邻域测度,包括:
计算邻域金字塔中每一层包含的邻居点与该数据点之间的平均欧式距离,作为该层邻域的欧式邻域测度。
4.根据权利要求1所述的方法,其特征在于,利用该数据点对应的汉明空间向量,计算所述邻域金字塔中每一层对应的汉明邻域测度,包括:
计算该数据点对应的汉明空间向量与每一层邻域所包含的邻居点对应的汉明空间向量之间的平均汉明距离,得到该数据点的该层邻域对应的汉明邻域测度。
5.根据权利要求1所述的方法,其特征在于,依据同一个数据点对应的欧式邻域测度和汉明邻域测度,优化所述当前哈希模型中的模型参数,直到达到预设收敛条件,得到目标哈希模型,包括:
将所述训练数据集中同一数据点对应的欧式邻域测度及汉明邻域测度进行线性拟合,得到线性变换参数;
交替地更新所述当前哈希模型的模型参数及所述线性变换参数,以使拟合误差达到最小,得到目标哈希模型。
6.一种相似对象检索方法,其特征在于,包括:
获取目标对象在欧式空间的欧式特征向量;
依据预先训练得到的哈希模型,将所述目标对象的欧式特征向量转换得到汉明空间的汉明特征向量;
基于所述目标对象的汉明特征向量,以及,待检索对象集中各个对象的汉明特征向量,获得所述目标对象与所述待检索对象集中各个对象之间的汉明距离,其中,所述待检索对象集中各个对象的汉明特征向量由所述各个对象的欧式特征向量依据所述哈希模型转换得到;
基于所述目标对象与所述待检索对象集中各个对象之间的汉明距离,从所述待检索对象集中确定与所述目标对象相似的对象。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标对象与所述待检索对象集中各个对象之间的汉明距离,从所述待检索对象集中确定与所述目标对象相似的对象,包括:
按照所述目标对象与所述待检索对象集合中各个对象之间的汉明距离由小到大的顺序,确定前指定数量个对象为与所述目标对象相似的对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910892285.7/1.html,转载请声明来源钻瓜专利网。





