[发明专利]一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法在审
申请号: | 202310404611.1 | 申请日: | 2023-04-17 |
公开(公告)号: | CN116417070A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 赵龙;司呈坤;刘娇 | 申请(专利权)人: | 齐鲁工业大学(山东省科学院) |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00;G06F18/2113;G06F18/243;G06F18/2411;G06N3/048;G06N3/084 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 孙倩文 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 提升 深度 特征 选择 算法 提高 胃癌 预后 预测 精度 方法 | ||
1.一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,包括以下步骤:
(1)从TCGA上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;
(2)采用一致性聚类方法结合PAC和临床相关数据决策出最佳的亚型数,用于区分不同亚型;
(3)采用改进的梯度提升深度特征选择算法进行特征选择;
(4)采用深度神经网络进行分类。
2.根据权利要求1所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(1)中,数据预处理是指移除转录组学数据集中的0方差特征,并进行差异分析,具体的:
从TCGA上下载的数据为两种形式:原始数据raw counts和标准化后的数据FPKM,采用edgeR包对原始数据做差异分析,通过取均值的方法保留raw counts矩阵中的一个基因名,方差公式为:
方差公式:
其中,S2为方差,n为样本总数,表示这组数据的平均数;
阈值选为0,选择出方差大于0的基因特征;
采用edgeR包对方差过滤后的数据集作差异分析,在输入到模型前选择出部分特征,选择出pvalue0.05和log2Foldchange1.5的数据;
其中,pvalue表示显著性差异的统计参数,Foldchange表示样本质检表达量的差异倍数。
3.根据权利要求2所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(2)中的一致性聚类方法采用k-means聚类方法,选择的max k为5,即设置一个最大值不断去迭代尝试,迭代次数为1000,在每次迭代中选择80%的样本子集,在该样本子集上运行k-means聚类方法,得到不同k值对应的累计密度函数CDF和一致性矩阵热图;
选择累计密度函数CDF下降坡度更小的曲线,以及一致性矩阵热图中分布最好的矩阵所对应的k值作为优选k值;
模糊聚类对的比例PAC是一种用于确定最佳聚类数的指标,通过对多次聚类结果的一致性评估,来确定最佳的聚类数k,具体的:通过多次从FPKM数据集中随机抽取样本和基因特征,并利用所选的k-means聚类方法对其进行聚类,得到多个聚类结果;然后,通过计算多个聚类结果之间的共识矩阵,来度量它们之间的一致性程度;最后,通过计算在一定阈值范围内的共识矩阵上的面积大小,来确定最佳的聚类数k。
4.根据权利要求3所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,临床相关数据包括胃癌患者生存曲线,生存曲线差异大,则验证了亚型数的无监督聚类是合理的。
5.根据权利要求4所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(3)中,梯度提升,也称为梯度增强,改进的梯度提升算法是基学习器的集成,基学习器之间存在先后顺序,将负梯度作为上一轮基学习器犯错的衡量指标,其中负梯度也被称为伪残差,每一轮基学习器在训练过程中更加关注上一轮学习错误的样本,在训练过后更新样本权重,在此基础上再训练下一个基学习器,最后将所有的基学习器加权组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学(山东省科学院),未经齐鲁工业大学(山东省科学院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310404611.1/1.html,转载请声明来源钻瓜专利网。