[发明专利]基于改进GA-SVM的肿瘤特征基因提取方法在审

专利信息
申请号: 201711081362.8 申请日: 2017-11-07
公开(公告)号: CN108664985A 公开(公告)日: 2018-10-16
发明(设计)人: 陈伟锋;郭明;应时彦;张贵军 申请(专利权)人: 浙江工业大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/12;G06N99/00
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基因提取 肿瘤特征 分类效果 基因特征 测试集 验证集 子集 改进 肿瘤基因表达 支持向量机 输入支持 数据降维 样本分类 肿瘤表达 向量机 训练集 分类
【说明书】:

基于改进GA‑SVM的肿瘤特征基因提取方法,利用肿瘤基因表达谱数据,首先进行支持向量机进行样本分类,分为训练集、验证集以及测试集3个部分,再将测试集、验证集输入改进的GA‑SVM进行数据降维处理,得到基因特征子集;最后将所得基因特征子集输入支持向量机进行分类鉴定。结果表明本发明对肿瘤表达谱数据有较优的分类效果,并且具有很好的稳定性。本发明提出一种分类效果好、分类稳定性高的基于改进GA‑SVM的肿瘤特征基因提取方法。

技术领域

本发明涉及一种基于改进GA-SVM的肿瘤特征基因提取方法,属于机器学习技术领域。

背景技术

通过微阵列芯片实验人们可以得到基因表达谱数据,通过对这些数据的分析,人们可以挖掘出具有生物学意义的信息和知识。如何从基因表达谱数据中选取包含样本分类信息的特征基因,建立分类器,实现肿瘤的分型诊断是当前生物信息学研究的重要领域。鉴于肿瘤亚型识别与分类特征基因选取的重要性,目前已经出现了针对该问题的大量研究文献。当前,对基因表达数据进行分类分析的主要方法有人工神经网络、遗传算法、支持向量机和贝叶斯等。

近年来,GA-SVM被较多用来进行基因分类。Paylakhi等人使用Fisher准则与GA-SVM结合的算法对阿兹海默基因数据集进行了特征提取,最终获得了100%的分类正确率;Scheubert等人使用信息增益,随机森林和GA-SVM三种方法建立可以准确识别多能干细胞的分类器,结果表明GA-SVM能建立最优的分类器。但是上述文献中,都只进行了内部验证,未进行外部测试,故所得结果缺少说服性。

因此,现有的GA-SVM方法在特征基因提取方面存在着缺陷,需要改进。

发明内容

为了克服现有的GA-SVM方法在特征基因提取方面存在的不足,本发明提出一种基于改进GA-SVM的肿瘤特征基因提取算法。

本发明解决其技术问题所采用的技术方案是:

一种基于改进GA-SVM的肿瘤特征基因提取方法,包括以下步骤:

步骤S1、将基因表达谱数据集进行支持向量机SVM进行样本选择,将样本分为:训练集、验证集和测试集;

步骤S2、将上述得到的测试集、验证集输入改进的GA-SVM进行数据降维处理,得到基因特征子集;

步骤S3、将上述得到的训练集、验证集基因特征子集以及对应的测试集基因特征子集进行支持向量机SVM进行分类分析。

进一步,步骤S1中采用支持向量机SVM进行样本选择,具体过程如下:

步骤S11、随机生成一个等概率0、1编码的标准化样本选择矩阵,行向量用于选择样本,1代表选中样本,0代表未选中,列向量维数代表进行SVM训练的次数;

步骤S12、在每次训练结束后,统计每个样本成为支持向量机的次数。

进一步,步骤S2中采用改进的GA-SVM,通过K-MEANS与SVM结合得到GA的适应度函数,即根据SVM所得分类误差与K-MEANS所得基因子集的类内类间的间距的大小评价基因子集的优劣,具体改进如下:

步骤S21、计算分类误差:由于实验数据样本太少,为提高可靠性,对训练集和测试集分别估计分类错误率;在训练集上,采用交叉验证法,每次保留一个子集作为测试用,其余样本用于SVM训练,得到分类错误个数E1;接着把验证集作为测试用,训练集用于SVM训练,得到分类错误个数E2

步骤S22、计算类内、类间间距:根据K-MEANS来计算类内类间间距,计算过程如下:

步骤S221、计算聚类中心:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711081362.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top