[发明专利]一种新的基于相似度过滤的大数据保序匹配与检索算法在审

专利信息
申请号: 201711348334.8 申请日: 2017-12-15
公开(公告)号: CN108052621A 公开(公告)日: 2018-05-18
发明(设计)人: 岑锦潮 申请(专利权)人: 佛山租我科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 佛山帮专知识产权代理事务所(普通合伙) 44387 代理人: 颜春艳
地址: 528200 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相似 度过 数据 匹配 检索 算法
【说明书】:

发明公开了一种新的基于相似度过滤的大数据保序匹配与检索算法,包括(1)数据转换,基于变化幅度趋势的字符序列二进制转换方法,该方法通过相邻三个点之间的关系定义二进制序列,从而准确反映三点之间是凸增长或凹增长关系;(2)数据归约,为方便候选序列与模式之间的相似度计算,提出基于趋势比例的数据归约方法,将候选序列与模式均归约到区间[0,1],归约后候选序列与模式的最小值均为0,最大值均为1;(3)相似度计算与过滤。为区分不同变化幅度的凸增长或凹增长之间的震荡幅度,对归约后的序列计算相似度并进行过滤,最终按相似度大小给出与模式匹配的各子序列集合。

技术领域

本发明涉及一种新的基于相似度过滤的大数据保序匹配与检索算法。

背景技术

大数据快速匹配与检索成为众多大数据应用急需解决的关键问题!比如视频检索与分析、股票分析与预测、气候分析与预测等。尽管通过云计算、超级计算等先进基础设施和并行分布式处理手段可以有效提高大数据处理的速度。但寻求一种精确、快速的匹配与检索算法对于提高大数据应用数据匹配和检索精确度异常重要。通过抽象与归约等措施。大数据应用中的数据对象可抽象为具有若干属性的点集或序列,进而将大数据匹配与检索问题转化为点集或序列的匹配与检索。更进一步将点集抽象为一组字符或数字,问题的本质就成为字符或数字序列的保序匹配与检索,字符或数字序列的保序匹配是一类重要的模式匹配问题。

问题描述如下:假设给定长度为n的字符串T和长度为m的模式P,字符串保序匹配的任务是在T中找出所有与P变化趋势一致且长度相等的子字符串u。如图1所示,假设P=(10,22,15,30,20,18,27),T=(22,85,79,24,42,27,62,40,32,47,69,55,25),那么T中与P相一致的子字符串u=(24,42,27,62,40,32,47)。针对该问题已经有若干相关研究,Kim等人利用KMP(Knuth-Morris-Patt)算法来解决该问题,但其方法时间复杂度较高。之后Cho等人基于Boyer-Moore算法给出了该问题的亚线性解决方案。几乎同一时期,Belazzougui等人给出了另外一种优化的亚线性解决方法。到目前为止,该问题的最新研究是Chhabra等人给出的基于筛选的匹配算法,该算法根据公式(1)将原字符序列T=(t1,t2,…,ti-1,ti,ti+1,…,tn)与模式P=(p1,p2,…,pi-1,pi,pi+1,…,pn)根据前后两个字符的大小关系转化为相应的二进制序列T′=100101001100与P′=101001。

如果后一个字符比前一个字符大,即:两个字符之间是升序关系,则定义为1,否则为0。因此,匹配T中与P趋势一致的子序列问题即可转化为在T′中匹配与P′一致的子序列问题。Chhabra等人首先对P中各字符进行排序,之后按从小到大的顺序核对T中对应各字符的大小关系,任何一个数据大小顺序不一致即被排除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山租我科技有限公司,未经佛山租我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711348334.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top