[发明专利]一种基于参考物种标签约束的宏基因组序列深度聚类方法在审
申请号: | 202111389111.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114065866A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘富;刘威;刘云;苗岩;侯涛;宋文智;余芳宇 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 130012 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 物种 标签 约束 宏基 序列 深度 方法 | ||
本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法,设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库,构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况,并分别研究了三种情况下的样本间序列的4mer特征间的关系;建立了预训练模型的标签约束误差函数,并且使用群落已知标签的数据库进行预训练,针对不同的微生物群落构建不同预训练模型;在用户使用时,只需要针对不同的群落加载所需群落的预训练模型,重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终,所述聚类方法能够展现非常优秀的聚类性能。
技术领域
本发明涉及生物信息学分析领域,尤其涉及一种基于参考物种标签约束的宏基因组序列深度聚类方法。
背景技术
微生物是地球上种类最大、数量最多、分布最广的生物群。人们对于微生物的研究主要是建立在纯培养的基础上,然而后来发现99%以上的微生物是不可培养的。为了研究不能培养的微生物,一个全新的理念——宏基因组学应运而生。宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重叠关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重叠群(contigs)。将这些重叠群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。
然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重叠群数量往往相差很多,因此,宏基因组重叠群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。
因此,现有技术还有待改进。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种于参考物种标签约束的宏基因组序列深度聚类方法,旨在解决现有技术在进行宏基因组DNA序列聚类时,因相同属的临近物种相似度较高而导致的聚类不准确的问题。
本发明的技术方案如下:
本发明提供一种基于参考物种标签约束的宏基因组序列深度聚类方法,其中,包括步骤:
第一步,预训练步骤,包括:
1.1构建基于不同微生物群落的已知物种的预训练数据库;
1.2建立初始化模型;
1.3针对不同的微生物群落构建不同的预训练模型;
第二步,微调步骤,包括:
2.1计算待测微生物群落的数据集重叠群序列4mer频率,并归一化得到微调的输入特征频率Y;
2.2加载待测微生物群落的预训练模型以及参数;
2.3构建微调误差函数;
2.4确定聚类个数;
2.5微调模型;
2.6完成聚类,得到聚类结果,并根据聚类指标衡量聚类结果。
所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其中,所述步骤1.1具体包括步骤:
a)下载不同微生物群落的已知物种的全基因组序列预训练数据集;
b)将每个物种的全基因组序列从随机起始位置截取随机长度的序列;
c)计算步骤b)中截取的每条序列的4mer频率特征,并进行归一化,得到不同微生物群落的宏基因组预训练4mer频率归一化特征X。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111389111.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种交互书籍
- 下一篇:汽车空调控制方法、控制装置及汽车空调系统