[发明专利]一种病原微生物参考知识库的最大多样性聚类构建方法有效

专利信息
申请号: 202110331409.1 申请日: 2021-03-29
公开(公告)号: CN112800245B 公开(公告)日: 2021-07-16
发明(设计)人: 李瑞琳;盖伟 申请(专利权)人: 微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G16B30/10;G16B30/20;G06N5/02
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王欢
地址: 100176 北京市大兴区济技术开*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 病原微生物 参考 知识库 最大 多样性 构建 方法
【权利要求书】:

1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,包括:

步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;

步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组Rx作为独立集分别构建参考知识库Qx;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Qx的构建方法包括:

(1)将冗余基因组Rx进行索引,然后采用多进程模式进行并行排序,获得原始冗余集Rx’;

(2)将原始冗余集Rx’中序列最长的确定为核心基因组序列S1,将剩余序列Sn分别与S1进行比对,获得每条Sn序列与S1相匹配的子序列集A;对子序列集A进行序列聚类,得到子序列集A的扩展最大精确匹配子序列集A';其中,n为原始冗余集Rx’的序列总数,n为≥2的整数;

(3)计算S1和Sn之间的扩展相似性Sextended;计算公式为Sextended=Length(A')/Length(S1),其中,Length(A')和Length(S1)为序列中碱基的个数;将Sextended取值范围在0~100%之间的序列标记为冗余基因组序列,否则标记为核心基因组序列,计算获得核心基因组集C1和冗余序列集R1

(4)将获得的核心基因组集C1作为参考基因组,将原始冗余集Rx’中除C1和R1外的剩余序列标记为T1,将T1中的序列逐条与C1的所有序列按照步骤(2)~(3)的方法进行比对;所述比对方法具体为:

C1中的每条序列对应步骤(2)中的S1,任意取C1中的一条序列记为S1’;T1中的每条序列对应步骤(2)中的Sn,任意取T1中的一条序列记为Sn’;那么,将Sn’与S1’按照步骤(2)进行比对,如果满足步骤(3)中的扩展相似性Sextended阈值,Sn’被标记为冗余序列;如果不满足步骤(3)中的扩展相似性Sextended阈值,则Sn’继续与C1中的其他序列进行比对,如果均不满足步骤(3)中的扩展相似性Sextended阈值,则Sn’被标记为核心基因组;当T1中的所有序列都被标记完成后,将T1中的所有核心基因组序列与C1合并得到核心基因组集C2

(5)将C2作为参考基因组,将原始冗余集Rx’中除了R2和C2之外的所有剩余序列标记为T2,将T2中的序列逐条与C2的序列进行比对,当T2中的所有序列都被标记完成后,将T2中的所有核心基因组序列与C2合并得到核心基因组集C3

依次类推,将每一轮比对结束后获得的核心基因组集Cm作为下一轮比对的参考基因组,m为≥1的整数;将原始冗余集Rx’中除了Rm和Cm之外的所有剩余序列标记为Tm,将Tm中的序列逐条与Cm的序列进行比对,当Tm中的所有序列都被标记完成后,将Tm中的所有核心基因组序列与Cm合并得到核心基因组集Cm+1;依次循环比对,直至原始冗余集Rx’的剩余序列为空,即所有的序列被标记为核心序列或冗余序列,循环结束;形成核心基因组集C和冗余集R,核心基因组集C即为参考知识库Qx

步骤3:按照步骤(1)~(5)分别构建得到每类病原微生物的参考知识库Q1~Qx,合并,获得病原微生物参考知识库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司,未经微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110331409.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top