[发明专利]基于携带缓存Trie树加速生物基因的检索方法在审

专利信息
申请号: 202210451340.0 申请日: 2022-04-26
公开(公告)号: CN114758727A 公开(公告)日: 2022-07-15
发明(设计)人: 徐淳;吴云志;乐毅;董梦龙;马志宇;陈佳玲 申请(专利权)人: 安徽农业大学
主分类号: G16B40/00 分类号: G16B40/00;G06F16/22;G06F16/2453;G06F16/2455;G06F16/2458
代理公司: 安徽思沃达知识产权代理有限公司 34220 代理人: 戴晓丹
地址: 230000 安徽省合肥市蜀*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 携带 缓存 trie 加速 生物 基因 检索 方法
【说明书】:

发明公开了基于携带缓存Trie树加速生物基因的检索方法,属于数据查询技术领域,该检索方法具体步骤如下:(1)构建Tire树并将数据导入Tire树中;(2)对Tire树进行性能优化;(3)对基因序列簇进行缓存优化;(4)对Tire树查询效率进行对比分析;本发明通过构建Trie树与哈希表结合的方式对各组生物基因数据进行查询,能够利用有限的内存空间加速基因索引的检索。

技术领域

本发明涉及数据查询技术领域,尤其涉及基于携带缓存Trie树加速生物基因的检索方法。

背景技术

信息检索是指用户进行信息查询和获取的主要方式。大批量的数据以数据库的形式进行管理。以关系型数据库为主,通过索引表查询数据,而数据写入磁盘中,在搭建生信数据库时,多数采用的架构方式为以Java,Python构建后端系统,数据保存在MySQL数据库。在这样的系统中,后端主要负责数据的传递,而数据的检索压力全部转交给数据库。检索的效率取决于数据库的性能,其中包括运行数据库机器的硬件性能,以及数据库产品自身的性能。随着数据量的增长,系统的性能很难提升。甚至单次检索耗时可达一分钟之久,同时后端程序在整个系统中并没有起到对数据检索有利的作用。在数据量到达十万级别的时候,MySQL会出现明显的性能问题。当一个SQL语句需要十几秒的执行时间,应当在系统中增加检索服务来缓解数据库压力。若后端程序能够提前帮助数据库过滤出所有符合条件的索引,再结合数据库精准匹配,这种方式能够极大的减缓数据库的压力;为此,我们提出基于携带缓存Trie树加速生物基因的检索方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于携带缓存Trie树加速生物基因的检索方法。

为了实现上述目的,本发明采用了如下技术方案:

基于携带缓存Trie树加速生物基因的检索方法,该检索方法具体步骤如下:

(1)构建Tire树并将数据导入Tire树中:工作人员构建Tire树,同时将生物基因数据导入Tire树中进行存储;

(2)对Tire树进行性能优化:将Tire树进行压缩处理,同时生成一组索引表以对Tire树在精准匹配时效率进行性能优化;

(3)对基因序列簇进行缓存优化:将生成的各组基因序列簇缓存至内存中,同时通过LRU算法对各组基因序列簇进行选择淘汰;

(4)对Tire树查询效率进行对比分析:收集并分析MySQL与Redis查询效率,同时检测Tire树查询效率,并将收集到的三组查询效率进行对比分析。

作为本发明的进一步方案,步骤(1)中所述Tire树构建具体步骤如下:

步骤一:对各组生物基因数据的基因序列进行分析,并提取“MSTRG”和“CSS”两组标识;

步骤二:创建Trie树根节点,同时该根节点不包含字符,依据分析结果将各组生物基因数据的字符录入除根节点以外的每个节点中,同时每个节点只包含一个字符;

步骤三:当工作人员查询某一组或多组生物基因数据时,从根节点到某一节点,路径上经过的字符连接起来,为该生物基因数据对应的字符串,且每个节点的所有子节点包含的字符都不相同。

作为本发明的进一步方案,步骤(2)中所述性能优化具体步骤如下:

第一步:遍历Trie树各连续分支,并将非根内部节点只有一个子节点进行标记,并将该节点视为冗余;

第二步:将标记的各组长度为一的连续分支节点压缩为一串字符串,并将其作为该Trie树索引的单一分支节点,同时存储空间从标准Trie树的O(n)降低到压缩后的O(k),其中,n为Trie树中总字符串长度,k为插入基因的最长长度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210451340.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top