[发明专利]向量检索方法、装置、设备及可读存储介质在审
申请号: | 202211548682.0 | 申请日: | 2022-12-05 |
公开(公告)号: | CN115757896A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 郭德文;刘权;王士进 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/907;G06F16/9035;G06F16/9038;G06F18/22 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李婉 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 检索 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种向量检索方法、装置、设备及可读存储介质,预先构建被检索向量的索引信息,该索引信息包括被检索向量的均值向量、基底向量、被检索向量去除均值向量后在每个基底向量上的投影值,以及各个投影值对应的索引标识,在获取待检索向量之后,针对每个基底向量,基于待检索向量、预设检索阈值以及被检索向量的索引信息,确定基底向量对应的检索结果,最后基于各基底向量对应的检索结果,确定与待检索的向量对应的最终检索结果。由于预设检索阈值可以限定检索结果与待检索向量之间的相似程度,基于预设检索阈值得到的检索结果不是特定的TopK,因此,在要求高相似度而不限定数量的场景,基于预设检索阈值得到的检索结果具有更好的召回效果。
技术领域
本申请涉及信息检索技术领域,更具体的说,是涉及一种向量检索方法、装置、设备及可读存储介质。
背景技术
当前社会处于数据时代,信息检索已经成为日常工作和生活的重要部分,广泛应用于搜索引擎、广告推荐、智能问答等众多领域。信息检索当前有多种方式,向量检索就是其中一种。向量检索是指在一个给定的向量数据库中,按照某种度量方式(如欧式距离、余弦、内积、海明距离等),检索出与待检索向量相似的向量。
目前常用的向量检索方式,按照检索算法实现方式,大概可以分为基于近邻图的向量检索方式、基于聚类的方式和基于空间划分的方式,这些向量检索方式均是采用TopK的检索方式,即检索出K个和待检索向量最相似的向量进行召回。但是,对于一些要求高相似度而不限定数量的场景(如,相似文本推荐场景),这种TopK的检索方式会导致召回效果下降。
因此,如何提供一种适用于要求高相似度而不限定数量的场景的向量检索方式,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种向量检索方法、装置、设备及可读存储介质。具体方案如下:
一种向量检索方法,所述方法包括:
获取待检索向量,预设检索阈值以及预先构建的被检索向量的索引信息,所述索引信息包括被检索向量的均值向量、基底向量、被检索向量去除所述均值向量后在每个所述基底向量上的投影值,以及各个投影值对应的索引标识;
针对每个基底向量,基于所述待检索向量、所述预设检索阈值以及所述被检索向量的索引信息,确定所述基底向量对应的检索结果;
基于各基底向量对应的检索结果,确定与所述待检索的向量对应的最终检索结果。
可选地,所述被检索向量的均值向量的确定方式为:
获取被检索向量;
基于所述被检索向量,确定所述被检索向量对应的特征矩阵,所述特征矩阵的行数为被检索向量的数量,列数为每个被检索向量的维度;
计算所述特征矩阵中每一列的均值,得到所述被检索向量的均值向量。
可选地,所述基底向量的确定方式为:
从所述被检索向量中随机抽取第一预设数量个被检索向量;
对所述第一预设数量个被检索向量进行施密特正交化处理,得到第一预设数量个初始基底向量;
对每个所述初始基底向量进行归一化处理,得到所述基底向量。
可选地,所述基底向量的确定方式为:
基于所述被检索向量的均值向量对所述被检索向量进行去均值处理,得到去均值处理后的被检索向量;
确定去均值处理后的被检索向量对应的特征矩阵;
基于所述去均值处理后的被检索向量对应的特征矩阵,确定协方差矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211548682.0/2.html,转载请声明来源钻瓜专利网。