[发明专利]一种串数据词典的有序构造及检索方法有效

专利信息
申请号: 201410006131.0 申请日: 2014-01-06
公开(公告)号: CN103761270B 公开(公告)日: 2017-02-01
发明(设计)人: 马云龙;林鸿飞 申请(专利权)人: 大连理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连星海专利事务所21208 代理人: 徐雪莲
地址: 116023 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种串数据词典的有序构造及检索方法,本发明包括S1、将串数据逐一输入到一个临时迸发树中;S2、当临时迸发树中数据量达到阈值条件时,将其合并入最终迸发树中;S3、将最终迸发树转换为六元组结构有限状态转换器;S4、将六元组结构有限状态转换器编译为三数组结构形式;S5、根据应用需求,利用编译后的三数组结构有限状态转换器实现对数据词典的检索或顺序遍历。利用本发明,能够对上千万数据项进行高效的词典构造,同时满足不同环境和应用中的检索需求。
搜索关键词: 一种 数据 词典 有序 构造 检索 方法
【主权项】:
一种串数据词典的有序构造及检索方法,其特征在于,包括以下步骤:S1、将串数据逐一输入到临时迸发树中:通过数据采集系统采集到的文档集合进行处理并读取其中的串数据,根据串数据中的字节序列创建临时迸发树并将其初始化,将串数据逐一输入到初始化状态的临时迸发树中并将其更新;S2、将临时迸发树合并入最终迸发树:预先创建空的最终迸发树,当临时迸发树中的串数据量达到阈值条件时,将临时迸发树中的串数据合并入最终迸发树中;此时,若文档集合中尚有未处理的串数据,则将临时迸发树中的内容清空,将未处理的串数据按照S1步骤输入到临时迸发树中;若文档集合中的所有串数据均处理完毕,则将临时迸发树及其内部数据全部释放;S3、将最终迸发树转换为六元组结构有限状态转换器:按词典顺序遍历最终迸发树的各个节点,对于最终迸发树的每个分支所表示的词典条目首先将其分支最末端节点所存储的统计数据保存至外存并记录其外存地址,将各分支对应的字节序列作为键而将所述外存地址作为值,并以键值对的形式添加入有限状态转换器中,最后判断有限状态转换器中的键值对数据是否满足保存条件,若满足保存条件则以六元组的形式保存并继续遍历;所述六元组由字节内容、同父状态序号、子状态数量、首个子状态序号、状态输出值、是否为终止状态组成;S4、将六元组结构有限状态转换器构造成为三数组结构有限状态转换器:遍历六元组有限状态转换器中的键值对数据,将六元组有限状态转换器编译为以三数组为主配合辅助表的数据结构存储,所述三数组由基地址数组、状态输入数组和同源状态数组组成;所述辅助表为不同字节输入对应的内码表、子状态表和状态输出表,其中,内码表由对所述六元组中字节内容进行顺序编码而获得,所述子状态表由所述六元组中的首个子状态号获得,状态输出表由所述六元组中的状态输出值和是否为终止状态内容获得;S5、根据应用需求,利用编译后的三数组结构有限状态转换器对数据词典做检索或顺序遍历:在对串数据进行检索时,将查询串的字节序列依次作为输入变量,参照内码表及状态输出表中当前输入变量的内码以及当前状态序号在基地址数组中寻找后续状态,循环操作直至可判断该状态是否存在,并读取状态输出表将循环中所有状态输出值的和输出;在遍历需求应用中,利用路径状态栈,通过同源状态数组和各辅助表中数据在基地址数组中进行词典顺序寻址,并配合状态输出表,完成词典顺序遍历。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410006131.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top