[发明专利]一种基于自编码器的基因表达谱特征学习方法有效
申请号: | 202010029068.8 | 申请日: | 2020-01-12 |
公开(公告)号: | CN111276187B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 彭绍亮;张磊;李非;毕夏安;周德山;肖港;辛彬;王子航 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00;G06N3/04 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码器 基因 表达 特征 学习方法 | ||
1.一种基于自编码器的基因表达谱特征学习方法,其特征在于,包括以下步骤:
步骤1导入LINCS数据集Level 3阶段的基因表达谱文件,按细胞系,实验类型,扰动条件等提取所需要的数据;
根据LINCS数据集附件中的基因信息和细胞系信息以及基因表达谱样本信息按照要求筛查出所需要的细胞系、实验类型和扰动条件等信息,根据每个基因表达谱样本信息的唯一性,把样本信息作为筛选的标准,最后根据样本标识符查找所需数据的样本,并且该样本的表达谱值就是所需数据;
步骤2对提取的样本数据进行处理,得到能直接用于特征学习模型的输入数据;具体包括如下步骤:
步骤2.1读取提取的基因表达谱样本数据;
步骤2.2根据样本类型人工加上标签信息,将读取的第一个类型的样本标签设为0,第二个类型的样本标签设为1,依次交替设置;
步骤3从高维稀疏的基因表达谱数据中提取出维度相对较低,且能有效区分原始数据的特征表示;具体包括如下步骤:
步骤3.1读取样本数据和样本标签数据,并划分训练集和验证集;
步骤3.2初始化Adam优化器,学习率设为0.003,损失函数选择MAE;
步骤3.3构建深度多通道自编码器模型,其中,多通道自编码器包含编码和解码两个过程,采用有向的三层神经网络结构,分别是输入层、隐藏层、输出层,其中输入层和输出层具有相同的维度,都为n维,隐藏层的维度为m维;
从输入层到隐含层为编码过程,实现对输入数据的降维,并将编码作为对数据的特征表示,将编码函数表示为f,则:hi=fi(x)=Sf(wix+p),其中h为最终的特征表示,hi为每个通道的特征表示,n为通道数,Sf为编码器激活函数,取ReLu函数,即S(x)=max(0,x),wi为输入层与隐藏层的第i个通道之间的权重矩阵,p∈Rm为偏置项;从隐含层到输入层为解码过程,对隐含层得到的编码进行解码以重构输入数据;将编码函数表示为g,则:yi=g(hi)=Sg(whi+q),其中y为最终的重构数据,yi为每个通道的重构数据,n为通道数,Sg为解码器激活函数,取Sigmod函数,即w为隐藏层与输出层之间的权重矩阵,q∈Rn为偏置项;
将多个多通道自编码器逐层叠加,得到包含多个隐藏层的深度多通道自编码器模型,并以2维特征表示:深度多通道自编码器第一层978×1,其中,978为特征维数,1为通道数,进一步以不同的随机种子初始化5次权重,分别使用Dense层输入978维特征,得到第二层128×5,即5个128×1;第二层128×5以不同的随机种子初始化4次权重,第一个权重分别使用Dense层输入5个128维特征,得到5个2维特征,然后对应位置求平均值,得到第三层的第一个2×1,依次类推得到第三层的第二、三、四个2×1,即为第三层2×4,第四层128×5,第五层978×1;
步骤3.4将训练集放入多通道自编码器进行模型训练,并根据验证集得到的损失保存最优权重,模型训练结束之后加载最优权重,即得到最优模型;
步骤3.5使用最优模型预测样本数据的特征表示;
步骤4验证模型预测的特征的好坏,以基因表达谱实验组别为分类标签,基于KNN分类方法,计算预测的准确率,准确率越高,说明在此分类任务里,多通道自编码器学习到的特征表示更好;
首先读取特征数据和样本标签数据,并划分训练集和测试集,接着实例化KNN类,将n_neighbors参数依次取1-10,然后使用训练集拟合KNN模型,最后使用训练好的KNN模型预测测试集的样本标签,其就是该预测的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010029068.8/1.html,转载请声明来源钻瓜专利网。