[发明专利]一种病原微生物参考知识库的最大多样性聚类构建方法有效
申请号: | 202110331409.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112800245B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 李瑞琳;盖伟 | 申请(专利权)人: | 微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G16B30/10;G16B30/20;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王欢 |
地址: | 100176 北京市大兴区济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病原微生物 参考 知识库 最大 多样性 构建 方法 | ||
本发明涉及生物技术领域,具有涉及一种病原微生物参考知识库的最大多样性聚类构建方法。该构建采用贪心缩放算法,通过特定方法计算冗余基因组的多序列相似性,去除扩展相似度高的序列,可以保证在去除大量冗余信息的同时,最大程度保留微生物基因组的多样性。实验表明,本发明提供的病原微生物知识库的最大多样性聚类方法准确性高、检测效率高且数据冗余率低,尤其适用于大规模的病原微生物全基因组序列。
技术领域
本发明涉及生物技术领域,特别涉及一种病原微生物参考知识库的最大多样性聚类构建方法。
背景技术
高通量测序的持续发展导致可用的基因组测序数据空前增长,如此庞大的数据集给数据的存储和计算带来了巨大的挑战。为了从测序样本中精准鉴定病原微生物的种类,需要提前构建临床级病原微生物参考基因组知识库,知识库的质量直接决定了致病原检测结果的精确性,而知识库的大小决定了检测的速度。专家共识建议知识库中病原体的种类应该涵盖细菌、真菌、寄生虫、病毒、支原体或衣原体、分枝杆菌等,涵盖的种类建议超过2万种。建设时不仅需要包括染色体,还需要考虑线粒体、转录组序列及非编码序列等。因此,知识库的完整性和准确性是临床应用检测的关键。
当前病原微生物的知识库建立的方法是采用从国际公共数据库中通过获取、整合、筛选等一系列处理过程进行建立。通常知识库的建立方式有三种,分别是冗余方法、菌株代表序列法和打断重组法。第一,冗余方法是将获取的数据经过序列校正后全部纳入参考知识库,保留了物种的所有信息,可以实现所有物种的准确比对和筛查,但缺点是知识库的数据量庞大且重复序列多,极大降低了检测速度,这对实际临床应用患者往往是不可取的。第二,菌株代表序列法是从所有的序列中选取每个菌种的一条代表序列,其优点是可以实现快速检测。但是,菌株代表序列法也有明显的缺点,由于同种菌株的序列存在变异差异,舍弃大部分的基因组序列会丢失较多的病原微生物信息,造成检测的假阳性非常高。第三,打断重组法是将同一菌种的基因组进行打断后重新组装,可以尽可能保留基因组的亚种变异信息,但是由于病原微生物的种类繁多,从种的水平将基因组打断后重新组装非常困难。同时,在组装过程中打断重组法也会引入两个新的问题:一是由于受组装软件的限制,组装效率受打断后的读长(reads)长度、组装软件参数、基因组GC含量、基因组长度等多个因素影响,导致组装性能低;二是对于通过组装获取的病原微生物基因组的准确性需要进一步验证。
当前病原微生物知识库的构建方法存在的难题较多,主要原因是可用参考基因组冗余度高且数据量大,数据量甚至达到了TB级别,这极大影响了致病菌的检测速度,从而导致感染类疾病不能及时得到精准筛查。急危重症等临床级应用知识库通常需要人工筛选,耗费了巨大的人工成本。随着新的病原微生物基因组不断被发布,病原知识库需要不断地迭代更新,如果更新不及时会影响病原微生物的检测精度,导致漏检现象发生。因此,建立非冗余病原检测的知识库用于病原微生物检测参考知识库,达到非冗余基因组的准确性,提高致病微生物的检测速度和精度,节省计算和存储资源,具有重要的临床价值。
发明内容
有鉴于此,本发明提供一种病原微生物参考知识库的最大多样性聚类构建方法。该方法准确性高、检测效率高且数据冗余率低,是尤其适用于大规模的病原微生物全基因组序列。
本发明提供一种病原微生物参考知识库的最大多样性聚类构建方法,包括:
步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;
步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组Rx作为独立集分别构建参考知识库Qx;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Qx的构建方法包括:
(1)将冗余基因组Rx进行索引,然后采用多进程模式进行并行排序,获得原始冗余集Rx’;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司,未经微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110331409.1/2.html,转载请声明来源钻瓜专利网。