[发明专利]基于Laplacian算子和LSH技术的检索方法及其系统有效
| 申请号: | 202110719254.9 | 申请日: | 2021-06-28 |
| 公开(公告)号: | CN113535717B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 张仕;赖会霞 | 申请(专利权)人: | 福建师范大学 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/248 |
| 代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
| 地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 laplacian 算子 lsh 技术 检索 方法 及其 系统 | ||
本发明公开基于Laplacian算子和LSH技术的检索方法及其系统,利用Laplacian算子对函数剧烈变化特别敏感的特性,首先把数据投影到随机生成的法向量上,利用高斯核密度函数把投影转换为数据的概率密度分布,并把高斯核Laplacian算子应用于投影数据求密度分布的二阶导数,从而找到数据投影分布的剧烈变化位置作为超平面的偏移量。本发明能同时兼顾效率、精度和召回率,具有很好的适应性,进一步拓展了局部敏感哈希方法针对大规模高维数据检索的多种分布适应性能力,能够满足各种分布特性数据的应用需求。
技术领域
本发明涉及机器学习和大规模高维数据检索应用领域,尤其涉及基于Laplacian算子和LSH技术的检索方法及其系统。
背景技术
随着数据采集及网络技术的发展,各行各业每时每刻都产生着海量数据,这些数据的来源、意义各不相同,具有高维、多样性特征。例如,环境监测无线传感器网络(Environment Wireless Sensor Networks:EWSN)在环境监测中被广泛应用,其同时采集的数据种类多样,各种数据的值域范围、变化规律各不相同,从而形成具有不同分布特性的高维海量数据环境。要充分利用这些数据,并为决策提供支持,也就对高维、海量数据的快速、准确检索提出了更高的要求。因此,构建一个性能良好的大规模高维数据索引结构将对具有高维、不同分布特性、海量数据应用有非常重要的意义。在高维海量数据集上的最近邻查找(Nearest Neighbor Search:NNS)是一项意义重大且具有高度挑战性的工作,它被广泛应用于机器学习和数据挖掘的相关领域,例如分类技术、推荐系统和信息检索等。
在低维空间中,最近邻查询问题已经得到了较好的解决,如K-D树、R树、SR树等方法提供了一些有效的解决方案。但是在高维海量数据空间中,最近邻查找会导致查询时间和空间消耗呈指数式增长,也就使现有一些低维度数据检索方法无法满足数据检索要求。针对高维海量数据,麻省理工的Indyk等学者开创性地提出基于局部敏感哈希(Locality-Sensitive Hashing:LSH)的近似最近邻数据检索方法。该方法利用哈希函数把高维数据转换为二进制序列,实现近似最近邻数据的快速检索。此后,许多学者进行了进一步的完善,如Charikar提出的基于随机超平面投影的LSH检索方法RHPLSH;Datar和Indyk提出的E2LSH增强了方法的可用性,并对后来的研究工作产生了巨大的影响。这些工作中最具有代表性的有:PCAH、KLSH、SBLSH、ITQ、DSH、OCH、GLDH等。随着深度学习的兴起,近年来又出现了大量结合深度学习和LSH的检索方法。但是,纵观当前基于局部敏感哈希的搜索解决方案,仍然存在如下四方面的问题制约着其进一步应用。
(1)算法参数设置困难:大多数方法需要根据具体的数据进行参数的设置,而这些参数通常都需要人工干预,例如DSH中的聚类数量、E2LSH中的w、GLDH中的σ等;
(2)难以适应数据的分布多样性:多数LSH相关算法只适用于具有特定分布特性的数据,适应性弱,从而制约了基于局部敏感哈希检索方法的应用;
(3)性能需进一步提高才可实用:基于深度学习的LSH检索算法提高了近邻数据查询精度,但是,预处理时间的消耗极大限制了其应用;传统的基于LSH的检索算法虽然在性能上占优,但其效率仍旧参差不齐,有待于进一步提高;
(4)空间划分难以全局考虑:部分算法在空间划分上的有较大的误差,例如PCAH沿着主成分方向对数据进行切分,RHPLSH对数据进行随机的切分,这两种方法造成了大的切分误差,DSH在一定程度上减少了切分误差,但其解决方案是局部的,缺少全局角度的考虑。
发明内容
本发明的目的在于提供基于Laplacian算子和LSH技术的检索方法及其系统。
本发明采用的技术方案是:
基于Laplacian算子和LSH技术的检索方法,其包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110719254.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件及其制造方法、存储器阵列
- 下一篇:一种柔性防火电缆生产工艺





