[发明专利]一种基于参考物种标签约束的宏基因组序列深度聚类方法在审
申请号: | 202111389111.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114065866A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘富;刘威;刘云;苗岩;侯涛;宋文智;余芳宇 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 130012 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 物种 标签 约束 宏基 序列 深度 方法 | ||
1.一种基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,包括步骤:
第一步,预训练步骤,包括:
1.1构建基于不同微生物群落的已知物种的预训练数据库;
1.2建立初始化模型;
1.3针对不同的微生物群落构建不同的预训练模型;
第二步,微调步骤,包括:
2.1计算待测微生物群落的数据集重叠群序列4mer频率,并归一化得到微调的输入特征频率Y;
2.2加载待测微生物群落的预训练模型以及参数;
2.3构建微调误差函数;
2.4确定聚类个数;
2.5微调模型;
2.6完成聚类,得到聚类结果,并根据聚类指标衡量聚类结果。
2.根据权利要求1所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,所述步骤1.1具体包括步骤:
a)下载不同微生物群落的已知物种的全基因组序列预训练数据集;
b)将每个物种的全基因组序列从随机起始位置截取随机长度的序列;
c)计算步骤b)中截取的每条序列的4mer频率特征,并进行归一化,得到不同微生物群落的宏基因组预训练4mer频率归一化特征X。
3.根据权利要求1所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,所述步骤1.2具体包括步骤:
a)建立具有对称结构的自编码器;
b)选取函数作为激活函数,加入Dropout函数来调节模型参数和样本量之间的关系;
c)设置模型参数;
d)构建预训练误差函数,其计算公式为:
ERRORpre=ERES+κELCN
其中,ERES表示重构误差,ELCN表示标签约束误差,κ表示用于平衡重构误差ERES和标签约束误差ELCN的超参数。
4.根据权利要求3所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,所述重构误差ERES的计算公式为:
其中,xi表示编码网络的输入,f(xi)表示编码网络的输出,g(f(xi))表示解码网络的输出,N1表示总样本的个数;
所述标签约束误差ELCN的计算公式为:
其中,Es表示衡量相同物种间的特征向量间的欧式距离,El表示衡量相同属不相同物种间的特征向量间的距离,Ed表示衡量不同属不同物种间的特征向量间的距离,n1、n2、n3为三种误差下累加的次数且满足β、λ是标签约束相的超参数。
5.根据权利要求1所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,所述步骤1.3中,构建预训练模型具体包括步骤:
a)使用初始化后的网络模型以及参数;
b)加载测试集样本归一化特征X,并送入初始化后网络模型,计算重构误差和标签约束误差;
c)应用反向传播自适应矩估计方法,对不同变化的参数以自适应的学习率进行更新;
d)保存预训练的模型以及参数,定义为待测微生物群落的预训练模型。
6.根据权利要求1所述的基于参考物种标签约束的宏基因组序列深度聚类方法,其特征在于,所述步骤2.3具体包括步骤:
利用深度k-mean聚类的方法,将k-mean聚类的误差加入到预训练得到的待测微生物群落的预训练模型中,得到微调误差函数:
其中,ERES表示重构误差,ECLU表示聚类误差,N2表示待测微生物群落样本的个数,η表示用于平衡重构误差ERES和聚类误差ECLU的超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111389111.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种交互书籍
- 下一篇:汽车空调控制方法、控制装置及汽车空调系统