[发明专利]线性时间后缀数组构造方法有效

专利信息
申请号: 201110393622.1 申请日: 2011-12-01
公开(公告)号: CN102521213A 公开(公告)日: 2012-06-27
发明(设计)人: 农革 申请(专利权)人: 农革
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 广州凯东知识产权代理有限公司 44259 代理人: 宋冬涛
地址: 510630 广东省广州市大*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 线性 时间 后缀 数组 构造 方法
【权利要求书】:

1.一种线性时间后缀数组构造方法,其特征在于,它包括:

1)标记字符串中每个字符和后缀的类型,从右向左扫描一遍字符串S,按照后缀类型的定义比较当前扫描的两个相邻的字符S[i]和S[i+1],得出每个字符S[i]和后缀suf(S,i)的类型,记录于数组t[i];

2)从左到右扫描一遍t[i],找出其中所有LMS字符出现的位置,从而获取所有LMS子串的首字母指针,用数组P1来记录每个LMS子串的指针;

3)通过LMS子串指针数组P1、数组B和SA来对S中所有的LMS子串进行排序,结果保存在SA1中;

4)根据步骤3)排序的结果重新命名字符串S中的各个LMS子串,形成字符串T1,然后对T1的字符根据其L和S类型进行重命名,形成的新字符串保存到S1;

5)判断S1的每个字符是否唯一,如果是,则直接排序S1的各后缀来计算S1的后缀数组到SA1中,否则以S1和SA1作为输入参数,返回到步骤1);

6)根据步骤5)中获得的保存于SA1中的S1的后缀数组归纳计算S的后缀数组到SA中;

7)返回。

2.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤3)中对S中所有LMS子串进行排序的步骤包括:

31)初始化SA的所有元素为-1,找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描S一次,依次把扫描到的LMS后缀填入其在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格;

32)找出S中所有后缀在SA中所属各桶的起始位置,从左向右扫描SA一次,对于扫描到的每个不为-1的元素SA[i],如果S[SA[i]-1]是L型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前起始位置,然后把该桶的起始位置向右移动一格;

33)找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA数组,对于扫描到的每个元素SA[i],如果S[SA[i]-1]是S型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格,

其中,把字符串S的所有后缀按其第一个字符在数组SA中进行排序,则所有第一个字符相同的后缀都连续排列在SA中的某一段区域,这段区域我们称之为对应这些后缀的一个桶。

3.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤4)中计算新字符串S1的步骤包括:

41)从左向右扫描SA1中已排好序的所有LMS子串,依次比较相邻的两个LMS子串的大小来找出所有的子串桶,每个子串用其所属桶在SA1中的开始位置命名,第一个桶的开始位置从0开始;

42)把S中每个LMS子串用其在步骤41)中获取的名字来代替,形成一个字符串T1,对T1的每个字符,当我们称其在SA1中所属的桶,意指该字符所对应在S中的LMS子串在SA1中的桶;

43)从右到左扫描T1一次来找出T1各个字符的类型,对每个被扫描到的字符T1[i],如果其为L型则令S1[i]=T1[i],否则将S1[i]设为T1[i]在SA1中所属桶的结束位置,扫描T1结束后,S1即为对T1中各S型字符重命名后的结果,

其中,所有相同的LMS子串在SA1中形成一个连续的区域,即在任意两个相同的LMS子串之间没有不同于这两个子串的其他子串,这个区域称之为一个子串桶。

4.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤6)中计算S的后缀数组的步骤包括:

61)初始化SA的所有元素为-1,找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA1数组,对每个扫描到的元素SA1[i],则把P1[SA1[i]]放在后缀suf(S,P1[SA1[i]])在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格;

62)找出S中所有后缀在SA中所属各桶的起始位置,从左向右扫描SA一次,对于扫描到的每个不为-1的元素SA[i],如果S[SA[i]-1]是L型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前起始位置,然后把该桶的起始位置向右移动一格;

63)找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA数组,对于扫描到的每个元素SA[i],如果S[SA[i]-1]是S型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于农革,未经农革许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110393622.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top