[发明专利]基于深度学习和进化计算的特征基因选择方法有效
申请号: | 201711336535.6 | 申请日: | 2017-12-14 |
公开(公告)号: | CN107992945B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 陈晋音;郑海斌;刘靓颖;宣琦;应时彦;李南;施朝霞 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 进化 计算 特征 基因 选择 方法 | ||
一种基于深度学习和进化计算的特征基因查找方法,包括以下步骤:1)计算差异表达水平指数,根据二八准则建立一级基因池;2)根据每个基因的表达水平,计算其映射后的密度矩阵和距离矩阵,绘制决策图,利用多重线性回归分析拟合二元平面,自动确定聚类中心;3)构建深度基因表达预测网络计算一级基因池的基因‑基因敏感性信息GGSI,4)依据GGSI值剔除冗余基因,建立二级基因池;5)基于GGSI值对布谷鸟搜索算法进行二进制编码,选出最紧凑的基因集,建立三级基因池。本发明提供一种基于分级结构建立的特征基因选择框架,能够较好的提取出关键基因,采用多重线性回归分析结合深度学习算法和优化算法选择最紧凑特征基因集的方法。
技术领域
本发明属于生物信息领域,具体涉及一种特征基因的选择方法。
背景技术
随着基因测序技术的进步,高通量测序技术提供了大量基因表达数据。基因表达谱作为疾病发生、遗传扰动和药物治疗后的细胞表达模式的捕获工具而被广泛应用。面对大量高维的基因表达数据,如何从中挖掘有用的信息成为生物信息领域的研究重点。
由于基因表达数据的高维性质,挖掘其中具有关键信息的特征基因对后续的基因数据处理和样本表现型分析具有十分重要的意义。目前,有研究人员结合二进制粒子群优化算法(BPSO)和过滤法寻找到最佳的基因子集,从而简化了基因选择的过程并获得了相对遗传算法(GA)而言具有更高的分类精度。更进一步的研究,通过结合遗传算法、粒子群优化算法和极限学习机(ELM)设计了一种新的基因选择方法。然而,这些混合方法在起到简化基因集的作用和达到处理高效性的同时,缺乏可解释性。
因此,针对基因表达间的高度非线性相关性和庞大数据量,结合深度学习算法和二进制布谷鸟搜索(BCS)算法,建立神经网络和分层模型,简化特征基因选择与样本分类过程,增强其可解释性,对生物信息领域的基因表达分析具有重大意义,能够指导后续的表现型关联性分析、癌症靶向基因标志物检测等临床应用。
发明内容
为了克服已有特征基因的选择方法的不足,本发明提供一种能够实现聚类中心自动确定、样本分类更加精确的基于深度学习和进化计算的特征基因选择方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习和进化计算的特征基因选择方法,所述方法包括以下步骤:
1)选择差异表达的基因,建立一级基因池,过程如下:
1.1)计算原始基因池中各个基因的差异表达水平指数,即IIC-FC指数:
式(1)中,c表示原始基因池中的基因个数,和分别表示基因i和基因j的表达水平均值,和分别表示基因i和基因j的表达水平标准差,函数max{·,·}和min{·,·}分别表示取最大值和最小值,ln(·)为对数函数;若IIC-FC指数越大,表明该基因包含的样本分类信息丰度越高,用于样本分类获得高精度的可能性越大;
1.2)根据二八准则,按照步骤1.1)中得到的IIC-FC值从高到低对原始基因池中的所有基因进行排序,然后从中选择前20%的基因作为一级基因池;
2)对一级基因池中的基因进行自动聚类,过程如下:
2.1)基于密度聚类算法计算一级基因池中每个基因的距离值δ和密度值ρ;定义欧拉距离作为基因i和基因j之间的相似度距离,计算公式如下:
式(2)中,Nsam表示样本个数,gE(i,k)表示基因i在样本k中的表达值;
首先计算各个基因的密度值ρ,得到密度矩阵计算公式如下:
其中
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711336535.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于手工贴膜的装置
- 下一篇:自动化硅片顶出承载机构