[发明专利]用于快速相似性搜索的多尺度量化在审
申请号: | 201880054859.7 | 申请日: | 2018-05-14 |
公开(公告)号: | CN111033495A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 吴翔;D.西姆查;D.霍特曼-赖斯;S.库玛;A.T.苏雷什;郭锐淇;于信男 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 快速 相似性 搜索 尺度 量化 | ||
1.一种计算机实现的方法,用于对第一数据集执行多尺度量化以生成第一数据集的编码,该方法包括:
由计算系统执行对第一数据集的矢量量化;
由计算系统至少部分地基于矢量量化的结果生成残差数据集;
由计算系统将旋转矩阵应用于残差数据集,以生成包括多个旋转的残差的旋转的残差数据集;
由计算系统执行将旋转的残差数据集中的每个旋转的残差重新参数化为方向分量和尺度分量;
由计算系统执行对所述多个旋转的残差的方向分量的乘积量化;以及
由计算系统执行对所述多个旋转的残差的尺度分量的标量量化。
2.根据权利要求1所述的计算机实现的方法,还包括:由所述计算系统执行对于查询的相对于经量化的旋转的残差中的至少一些的近似最近邻搜索。
3.根据权利要求2所述的计算机实现的方法,还包括:接收表示所述查询的数据。
4.根据权利要求2或3所述的计算机实现的方法,其中,由所述计算系统执行所述近似最近邻搜索包括由所述计算系统执行不对称搜索,以及其中,由所述计算系统执行不对称搜索包括由所述计算系统对每个标量量化器执行一次乘积量化器码本的标量乘法。
5.根据任一前述权利要求所述的计算机实现的方法,其中,所述第一数据集包括多个第一数据项。
6.根据权利要求5所述的计算机实现的方法,其中,每个第一数据项与从组中选择的数据相关联,所述组由图像、文本部分、web文档、音频和视频组成。
7.根据任一前述权利要求所述的计算机实现的方法,其中,由所述计算系统执行每个旋转的残差的重新参数化包括:由所述计算系统对每个旋转的残差进行单位归一化以形成针对这个旋转的残差的方向分量。
8.根据权利要求7所述的计算机实现的方法,其中,由所述计算系统对每个旋转的残差进行单位归一化以形成针对这个旋转的残差的方向分量包括:由所述计算系统将每个旋转的残差除以其范数,并且其中,每个旋转的残差的尺度分量都包含其范数。
9.根据任一前述权利要求所述的计算机实现的方法,其中,所述乘积量化是通过将归一化的残差划分为一个或多个子矢量而获得的码字的级联来给出的,所述一个或多个子矢量由多个矢量量化器独立地量化。
10.根据权利要求9所述的计算机实现的方法,其中,经量化的旋转的残差被组织成块,使得在块内,所有旋转的残差具有相同的量化范数。
11.根据任一前述权利要求所述的计算机实现的方法,其中,所述残差数据集的直径小于所述第一数据集的直径。
12.根据任一前述权利要求所述的计算机实现的方法,其中,所述第一数据集的矢量量化至少部分地基于矢量量化码本。
13.根据任一前述权利要求所述的计算机实现的方法,其中,所述方向分量的乘积量化至少部分地基于乘积量化码本。
14.根据任一前述权利要求所述的计算机实现的方法,其中,所述标量量化至少部分地基于标量量化码本。
15.一种用于执行机器学习的计算机实现的方法,所述方法包括:
由计算系统获得量化模型,所述量化模型包括矢量量化器、旋转矩阵、采用一个或多个乘积量化码本的乘积量化器以及采用标量量化器码本的标量量化器;
由计算系统确定用于一个或多个示例的目标函数的梯度;以及
由计算系统至少部分地基于目标函数的梯度联合地训练矢量量化器、旋转矩阵、乘积量化器和标量量化器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880054859.7/1.html,转载请声明来源钻瓜专利网。