[发明专利]线性时间后缀数组构造方法有效
申请号: | 201110393622.1 | 申请日: | 2011-12-01 |
公开(公告)号: | CN102521213A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 农革 | 申请(专利权)人: | 农革 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 宋冬涛 |
地址: | 510630 广东省广州市大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线性 时间 后缀 数组 构造 方法 | ||
1.一种线性时间后缀数组构造方法,其特征在于,它包括:
1)标记字符串中每个字符和后缀的类型,从右向左扫描一遍字符串S,按照后缀类型的定义比较当前扫描的两个相邻的字符S[i]和S[i+1],得出每个字符S[i]和后缀suf(S,i)的类型,记录于数组t[i];
2)从左到右扫描一遍t[i],找出其中所有LMS字符出现的位置,从而获取所有LMS子串的首字母指针,用数组P1来记录每个LMS子串的指针;
3)通过LMS子串指针数组P1、数组B和SA来对S中所有的LMS子串进行排序,结果保存在SA1中;
4)根据步骤3)排序的结果重新命名字符串S中的各个LMS子串,形成字符串T1,然后对T1的字符根据其L和S类型进行重命名,形成的新字符串保存到S1;
5)判断S1的每个字符是否唯一,如果是,则直接排序S1的各后缀来计算S1的后缀数组到SA1中,否则以S1和SA1作为输入参数,返回到步骤1);
6)根据步骤5)中获得的保存于SA1中的S1的后缀数组归纳计算S的后缀数组到SA中;
7)返回。
2.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤3)中对S中所有LMS子串进行排序的步骤包括:
31)初始化SA的所有元素为-1,找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描S一次,依次把扫描到的LMS后缀填入其在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格;
32)找出S中所有后缀在SA中所属各桶的起始位置,从左向右扫描SA一次,对于扫描到的每个不为-1的元素SA[i],如果S[SA[i]-1]是L型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前起始位置,然后把该桶的起始位置向右移动一格;
33)找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA数组,对于扫描到的每个元素SA[i],如果S[SA[i]-1]是S型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格,
其中,把字符串S的所有后缀按其第一个字符在数组SA中进行排序,则所有第一个字符相同的后缀都连续排列在SA中的某一段区域,这段区域我们称之为对应这些后缀的一个桶。
3.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤4)中计算新字符串S1的步骤包括:
41)从左向右扫描SA1中已排好序的所有LMS子串,依次比较相邻的两个LMS子串的大小来找出所有的子串桶,每个子串用其所属桶在SA1中的开始位置命名,第一个桶的开始位置从0开始;
42)把S中每个LMS子串用其在步骤41)中获取的名字来代替,形成一个字符串T1,对T1的每个字符,当我们称其在SA1中所属的桶,意指该字符所对应在S中的LMS子串在SA1中的桶;
43)从右到左扫描T1一次来找出T1各个字符的类型,对每个被扫描到的字符T1[i],如果其为L型则令S1[i]=T1[i],否则将S1[i]设为T1[i]在SA1中所属桶的结束位置,扫描T1结束后,S1即为对T1中各S型字符重命名后的结果,
其中,所有相同的LMS子串在SA1中形成一个连续的区域,即在任意两个相同的LMS子串之间没有不同于这两个子串的其他子串,这个区域称之为一个子串桶。
4.根据权利要求1所述的线性时间后缀数组构造方法,其特征在于,所述步骤6)中计算S的后缀数组的步骤包括:
61)初始化SA的所有元素为-1,找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA1数组,对每个扫描到的元素SA1[i],则把P1[SA1[i]]放在后缀suf(S,P1[SA1[i]])在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格;
62)找出S中所有后缀在SA中所属各桶的起始位置,从左向右扫描SA一次,对于扫描到的每个不为-1的元素SA[i],如果S[SA[i]-1]是L型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前起始位置,然后把该桶的起始位置向右移动一格;
63)找出S中所有后缀在SA中所属各桶的结束位置,从右向左扫描SA数组,对于扫描到的每个元素SA[i],如果S[SA[i]-1]是S型,则把SA[i]-1这个数值填入suf(S,SA[i]-1)这个后缀在SA中所属桶的当前结束位置,然后把该桶的结束位置向左移动一格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于农革,未经农革许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110393622.1/1.html,转载请声明来源钻瓜专利网。