[发明专利]基于logistic与相关信息熵的特征基因选择方法在审
申请号: | 201510057261.1 | 申请日: | 2015-02-04 |
公开(公告)号: | CN104598774A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 徐久成;李涛;孙林;孟慧丽;马媛媛;张倩倩;徐天贺;胡玉文;李晓艳;冯森 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 无 | 代理人: | 无 |
地址: | 453004 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于logistic与相关信息熵新的特征基因选择方法,包括以下步骤:对数据集进行logistic回归,获得对分类影响较大的基因变量,利用Relief算法对基因变量赋值并排序,向初始特征基因集合添加最大特征值基因,计算相关信息熵。本发明将机器学习中的logistic回归模型引入特征基因选择方法中,获得高质量的基因表达谱;利用相关信息熵度量基因变量之间的相关性,剔除冗余基因,通过搜索特征基因空间集获取分类能力较强且基因数目较少的特征基因子集。 | ||
搜索关键词: | 基于 logistic 相关 信息 特征 基因 选择 方法 | ||
【主权项】:
一种基于logistic与相关信息熵的特征基因选择方法,其特征在于,其包括以下步骤:(1)通过logistic模型对乳腺癌数据集和胃癌数据集进行logistic逐步回归,得到特征子集ST1和ST2;(2)对特征子集ST1和ST2分别按照近似2∶1的比例分配到Strain和Stest;(3)初始化特征基因子集F和相关信息熵H;(4)利用Relief算法对特征基因赋权值,得到特征基因权值w={w1,w2,…,wn};(5)比较获得的特征基因权值与设定的阈值δ;(6)若特征基因gi的权值wi小于Relief阈值δ,将gi删除;(7)若特征基因gi的权值wi大于Relief阈值δ,将gi插入到特征集合F,转到步骤(5);(8)将F特征基因权值从大到小排序得到Fs,依次为Fs={g1,g2,…,gm};(9)再次初始化特征基因子集F;(10)将Fs权值最大的基因gi添加到特征基因子集F中,并计算其相关信息熵HR(FUgi);(11)判断加入该特征基因子集的相关信息熵是否变化;(12)如果相关信息熵减小,去掉该基因;(13)如果相关信息熵增大,将该基因加到特征基因子集F中,转到步骤(10);(14)返回特征子集F,算法结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学;,未经河南师范大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510057261.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置