[发明专利]基于Spark的高维序列数据相似性查询方法及系统有效

申请号：	201910963344.5	申请日：	2019-10-11
公开（公告）号：	CN110795469B	公开（公告）日：	2022-02-22
发明（设计）人：	郑啸;张震;陈启航;黄俊	申请（专利权）人：	安徽工业大学;马鞍山市卫生健康信息中心
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/22;G06F16/2453
代理公司：	南京九致知识产权代理事务所(普通合伙) 32307	代理人：	黄成萍
地址：	243002 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Spark的高维序列数据相似性查询方法及系统，包括数据预处理、索引构建和查询等处理步骤。本发明使用分布式集群Spark提高计算能力；通过利用局部敏感哈希(LSH)函数来构建索引解决了高维序列数据处理困难等问题；查询过程只在部分Worker节点中进行，大大降低了数据的处理量，并且通过碰撞计数机制，有效的减少了候选集的规模，加速相似性查找的速率。本发明可以对用户任意给出的一条高维序列数据对象，快速且准确的从大规模数据集中查找出大部分相似数据对象。
搜索关键词：	基于 spark 序列数据相似性查询方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark的高维序列数据相似性查询方法，其特征在于，包括以下步骤：/n步骤(1)，将高维序列数据读入到Spark集群单元中进行数据预处理；/n步骤(2)，对预处理后的数据进行索引构建：/n步骤(2.1)，选取局部敏感哈希LSH哈希函数族，用于构建复合哈希函数g

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽工业大学;马鞍山市卫生健康信息中心，未经安徽工业大学;马鞍山市卫生健康信息中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910963344.5/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载