[发明专利]一种新的基于相似度过滤的大数据保序匹配与检索算法在审
申请号: | 201711348334.8 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108052621A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 岑锦潮 | 申请(专利权)人: | 佛山租我科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 佛山帮专知识产权代理事务所(普通合伙) 44387 | 代理人: | 颜春艳 |
地址: | 528200 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似 度过 数据 匹配 检索 算法 | ||
本发明公开了一种新的基于相似度过滤的大数据保序匹配与检索算法,包括(1)数据转换,基于变化幅度趋势的字符序列二进制转换方法,该方法通过相邻三个点之间的关系定义二进制序列,从而准确反映三点之间是凸增长或凹增长关系;(2)数据归约,为方便候选序列与模式之间的相似度计算,提出基于趋势比例的数据归约方法,将候选序列与模式均归约到区间[0,1],归约后候选序列与模式的最小值均为0,最大值均为1;(3)相似度计算与过滤。为区分不同变化幅度的凸增长或凹增长之间的震荡幅度,对归约后的序列计算相似度并进行过滤,最终按相似度大小给出与模式匹配的各子序列集合。
技术领域
本发明涉及一种新的基于相似度过滤的大数据保序匹配与检索算法。
背景技术
大数据快速匹配与检索成为众多大数据应用急需解决的关键问题!比如视频检索与分析、股票分析与预测、气候分析与预测等。尽管通过云计算、超级计算等先进基础设施和并行分布式处理手段可以有效提高大数据处理的速度。但寻求一种精确、快速的匹配与检索算法对于提高大数据应用数据匹配和检索精确度异常重要。通过抽象与归约等措施。大数据应用中的数据对象可抽象为具有若干属性的点集或序列,进而将大数据匹配与检索问题转化为点集或序列的匹配与检索。更进一步将点集抽象为一组字符或数字,问题的本质就成为字符或数字序列的保序匹配与检索,字符或数字序列的保序匹配是一类重要的模式匹配问题。
问题描述如下:假设给定长度为n的字符串T和长度为m的模式P,字符串保序匹配的任务是在T中找出所有与P变化趋势一致且长度相等的子字符串u。如图1所示,假设P=(10,22,15,30,20,18,27),T=(22,85,79,24,42,27,62,40,32,47,69,55,25),那么T中与P相一致的子字符串u=(24,42,27,62,40,32,47)。针对该问题已经有若干相关研究,Kim等人利用KMP(Knuth-Morris-Patt)算法来解决该问题,但其方法时间复杂度较高。之后Cho等人基于Boyer-Moore算法给出了该问题的亚线性解决方案。几乎同一时期,Belazzougui等人给出了另外一种优化的亚线性解决方法。到目前为止,该问题的最新研究是Chhabra等人给出的基于筛选的匹配算法,该算法根据公式(1)将原字符序列T=(t1,t2,…,ti-1,ti,ti+1,…,tn)与模式P=(p1,p2,…,pi-1,pi,pi+1,…,pn)根据前后两个字符的大小关系转化为相应的二进制序列T′=100101001100与P′=101001。
如果后一个字符比前一个字符大,即:两个字符之间是升序关系,则定义为1,否则为0。因此,匹配T中与P趋势一致的子序列问题即可转化为在T′中匹配与P′一致的子序列问题。Chhabra等人首先对P中各字符进行排序,之后按从小到大的顺序核对T中对应各字符的大小关系,任何一个数据大小顺序不一致即被排除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山租我科技有限公司,未经佛山租我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711348334.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可控温的污水处理装置
- 下一篇:一种改善蓝孔雀体质饲料的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置