[发明专利]一种病原微生物参考知识库的最大多样性聚类构建方法有效
申请号: | 202110331409.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112800245B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 李瑞琳;盖伟 | 申请(专利权)人: | 微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G16B30/10;G16B30/20;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王欢 |
地址: | 100176 北京市大兴区济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病原微生物 参考 知识库 最大 多样性 构建 方法 | ||
1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,包括:
步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;
步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组Rx作为独立集分别构建参考知识库Qx;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Qx的构建方法包括:
(1)将冗余基因组Rx进行索引,然后采用多进程模式进行并行排序,获得原始冗余集Rx’;
(2)将原始冗余集Rx’中序列最长的确定为核心基因组序列S1,将剩余序列Sn分别与S1进行比对,获得每条Sn序列与S1相匹配的子序列集A;对子序列集A进行序列聚类,得到子序列集A的扩展最大精确匹配子序列集A';其中,n为原始冗余集Rx’的序列总数,n为≥2的整数;
(3)计算S1和Sn之间的扩展相似性Sextended;计算公式为Sextended=Length(A')/Length(S1),其中,Length(A')和Length(S1)为序列中碱基的个数;将Sextended取值范围在0~100%之间的序列标记为冗余基因组序列,否则标记为核心基因组序列,计算获得核心基因组集C1和冗余序列集R1;
(4)将获得的核心基因组集C1作为参考基因组,将原始冗余集Rx’中除C1和R1外的剩余序列标记为T1,将T1中的序列逐条与C1的所有序列按照步骤(2)~(3)的方法进行比对;所述比对方法具体为:
C1中的每条序列对应步骤(2)中的S1,任意取C1中的一条序列记为S1’;T1中的每条序列对应步骤(2)中的Sn,任意取T1中的一条序列记为Sn’;那么,将Sn’与S1’按照步骤(2)进行比对,如果满足步骤(3)中的扩展相似性Sextended阈值,Sn’被标记为冗余序列;如果不满足步骤(3)中的扩展相似性Sextended阈值,则Sn’继续与C1中的其他序列进行比对,如果均不满足步骤(3)中的扩展相似性Sextended阈值,则Sn’被标记为核心基因组;当T1中的所有序列都被标记完成后,将T1中的所有核心基因组序列与C1合并得到核心基因组集C2;
(5)将C2作为参考基因组,将原始冗余集Rx’中除了R2和C2之外的所有剩余序列标记为T2,将T2中的序列逐条与C2的序列进行比对,当T2中的所有序列都被标记完成后,将T2中的所有核心基因组序列与C2合并得到核心基因组集C3;
依次类推,将每一轮比对结束后获得的核心基因组集Cm作为下一轮比对的参考基因组,m为≥1的整数;将原始冗余集Rx’中除了Rm和Cm之外的所有剩余序列标记为Tm,将Tm中的序列逐条与Cm的序列进行比对,当Tm中的所有序列都被标记完成后,将Tm中的所有核心基因组序列与Cm合并得到核心基因组集Cm+1;依次循环比对,直至原始冗余集Rx’的剩余序列为空,即所有的序列被标记为核心序列或冗余序列,循环结束;形成核心基因组集C和冗余集R,核心基因组集C即为参考知识库Qx;
步骤3:按照步骤(1)~(5)分别构建得到每类病原微生物的参考知识库Q1~Qx,合并,获得病原微生物参考知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司,未经微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110331409.1/1.html,转载请声明来源钻瓜专利网。