[发明专利]用于快速相似性搜索的多尺度量化在审
申请号: | 201880054859.7 | 申请日: | 2018-05-14 |
公开(公告)号: | CN111033495A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 吴翔;D.西姆查;D.霍特曼-赖斯;S.库玛;A.T.苏雷什;郭锐淇;于信男 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 快速 相似性 搜索 尺度 量化 | ||
本公开提供了包括或以其他方式利用被配置为提供量化数据集的多尺度量化模型的使用的系统和方法。具体地,多尺度量化模型可以接收第一数据集并执行对第一数据集的矢量量化。多尺度量化模型可以至少部分地基于矢量量化的结果来生成残差数据集。多尺度量化模型可以将旋转矩阵应用于残差数据集以生成包括多个旋转的残差的旋转的残差数据集。多尺度量化模型可以执行将旋转的残差数据集中的每个旋转的残差重新参数化为方向分量和尺度分量。多尺度量化模型可以执行对多个旋转的残差的方向分量的乘积量化,并且可以对执行多个旋转的残差的尺度分量的标量量化。
相关申请的交叉引用
本申请要求2017年8月23日提交的标题为“Multiscale Quantization for FastSimilarity Search(用于快速相似性搜索的多尺度量化)”的美国临时专利申请第62/549,094号的优先权的权益。以上引用的专利申请通过引用并入本文。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及使用多尺度量化模型对数据集执行多尺度量化,以及利用机器学习训练多尺度量化模型。
背景技术
大尺度相似性搜索对于图像、音频、视频和文本信息的信息检索和推荐系统至关重要。对于高维数据,已经提出了若干基于哈希的方法,包括随机和基于学习的技术。另一组基于量化的技术由于其在现实世界数据上的强大性能,最近变得很流行。具体地,乘积量化(product quantization,PQ)及其变体通常在诸如GIST-1M、SIFT-1B和Deep-10M的公共基准上屡次占先。
在乘积量化中,将原始矢量空间分解为低维子空间的笛卡尔积,并且在每个子空间中独立地执行矢量量化。矢量量化(Vector quantization,VQ)通过在码本C中找到最接近的量化器来近似矢量
其中是具有m个码的矢量量化码本,第j列Cj表示第j个量化器。类似地,具有K个子空间的乘积量化(PQ)可以定义为:
其中x(k)表示第k个子空间中x的子矢量,是K个乘积量化码本的集合,每个乘积量化码本都有l个子量化器。
乘积量化在很大程度上很好地起作用,这是因为它允许进行不对称距离计算,其中仅数据集矢量被量化而查询保持未被量化。这比基于汉明距离(其通常需要对查询进行哈希处理)的技术更为精确,同时仍然使用查找表操作高效地进行计算。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中学习,或者可以通过对实施例的实践来学习。
本公开的一个示例方面针对一种用于执行多尺度量化的计算机实现的方法。多尺度量化可以是第一数据集的量化,并且可以用于生成第一数据集的编码。该方法包括执行第一数据集的矢量量化。该方法包括至少部分地基于矢量量化的结果来生成残差数据集。该方法包括将旋转矩阵应用于残差数据集以生成包括多个旋转的残差的旋转的残差数据集。该方法包括执行将旋转的残差数据集中的每个旋转的残差重新参数化为方向分量和尺度分量。该方法包括执行对多个旋转的残差的方向分量的乘积量化,以及执行对多个旋转的残差的尺度分量的标量量化。第一数据集的编码可以包括表示第一数据集的可搜索数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880054859.7/2.html,转载请声明来源钻瓜专利网。