[发明专利]对核酸序列进行聚类的方法、设备及存储介质有效
申请号: | 201810011494.1 | 申请日: | 2018-01-05 |
公开(公告)号: | CN110111843B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 徐煜;朱钶锐 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种对多个核酸序列进行聚类的方法、设备以及计算机设备和计算机可读存储介质。所述方法基于所述多个核酸序列之间的距离,对所述多个核酸序列进行分类,以便获得初始簇集合,基于初始簇集合中所包含核酸序列的数目,确定优化起始簇;然后基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目,确定所述优化起始簇的归属序列数目以及归属概率,从而进一步确定错误簇,使得错误簇从所述初始簇集合中排除,以便获得经过优化的所述初始簇集合。在此基础上进一步提供了对核酸序列进行聚类的设备、计算机设备和计算机可读存储介质。采用本发明的方法和设备可以有效减少聚类分析的误差,从而应用到特定功能序列的分析中。 | ||
搜索关键词: | 核酸 序列 进行 方法 设备 存储 介质 | ||
【主权项】:
1.一种用于对多个核酸序列进行聚类的方法,其特征在于,包括以下步骤:(1)基于所述多个核酸序列之间的距离,对所述多个核酸序列进行分类,以便获得初始簇集合,所述初始簇集合由多个簇构成;(2)基于所述初始簇集合中所述簇所包含核酸序列的数目,确定优化起始簇;(3)基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目,确定所述优化起始簇的归属序列数目;(4)针对所述初始簇集合中剩余簇的至少一部分,基于所述测序质量,所述剩余簇的至少一部分的每一个所包含核酸序列的数目,以及所述剩余簇的每一个与所述优化起始簇之间的距离,确定所述剩余簇的至少一部分的每一个的归属概率;(5)基于所述归属概率以及所述剩余簇的至少一部分的每一个所包含核酸序列的数目,在所述初始簇集合中确定错误簇,并将所述错误簇从所述初始簇集合中排除,以便获得经过优化的所述初始簇集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810011494.1/,转载请声明来源钻瓜专利网。