[发明专利]一种基于神经网络的健康风险预测方法在审
申请号: | 202310334736.1 | 申请日: | 2023-03-31 |
公开(公告)号: | CN116130105A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 许鑫;白晨浩;陈亚;蔡平强;吴天星;钱琪杰 | 申请(专利权)人: | 江苏亚寰软件股份有限公司 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/20;G06F18/214;G06F18/23213;G06N3/0464 |
代理公司: | 南京锐恒专利代理事务所(普通合伙) 32506 | 代理人: | 陈思 |
地址: | 210009 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 健康 风险 预测 方法 | ||
1.一种基于神经网络的健康风险预测方法,其特征在于,所述方法包括如下步骤:
步骤1:获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据,一共M种;
步骤2:将收集到的数据进行预处理,进行无量纲化以及异常值处理,生成合理的数据;
步骤3:将预处理后的数据集进行分层随机抽样,分为训练集以及测试集,比例为8:2;
步骤4:利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类,再用COX风险回归模型对聚类结果进行回归验证,初步得到对食管鳞癌影响较大的N种指标(NM);
步骤5:利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度,剔除相关性低的临床表型指标,最终得到与食管鳞癌患者生存风险相关度更高的临床表型指标;
步骤6:使用卷积神经网络构建食管鳞癌患者生存风险预测模型,设置卷积神经网络结构参数,将步骤5中得到的相关性高的临床表型指标作为卷积神经网络的输入,食管鳞癌患者风险等级作为卷积神经网络的输出。
2.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤1中的多维度数据包括患者的年龄、身高、体重以及临床指标信息分别为白细胞计数、淋巴细胞计数、单核细胞、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原;
所述生存期信息是指生存时间,生存期的范围为[0.26月,137.00月];
所述生存状态是指截止到患者健在或者患者死亡。
3.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤2中的数据预处理包括无量纲化以及异常值处理,为了提高模型的精度,需要把不同尺度的数据通过某种方法转换到同一尺度,这就是无量纲化,包括:
步骤2-1:数据归一化也就是无量纲化的一种,其将数据减去数据最小值后,再除以极差(最大值-最小值),将数据都转换到[0,1]范围内,方便进行计算,数据归一化的公式如下:
其中x1是归一化后的结果,min是每个特征列中的最小值,max是每个特征列中的最大值;
步骤2-2:异常值处理:异常值是指不符合常理的数据,即年龄为1000,血小板计数为0,现实数据集中,由于粗心、疏忽、操作失误等原因,经常会产生异常值,识别和处理异常值非常重要,可以通过画箱线图的方式找到异常值,箱线图由上限、上四分位数、中位数、下四分位数、下限组成,其中上四分位数是将数据排序后第1/4个数,中位数是数据排序后最中间的数,下四分位数是数据排序后第3/4个数,上限为上四分位数+1.5倍四分位距,下限为下四分位数-1.5倍四分位距,其中四分位距等于上四分位数-下四分位数,超过上限或者低于下限的数值则为异常值。
4.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤3中划分数据集采用分层随机抽样将数据集分为训练集以及测试集,其比例为8:2,训练集用于食管鳞癌患者生存风险预测模型的训练,测试集用于评估食管鳞癌患者生存风险预测模型的优劣,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏亚寰软件股份有限公司,未经江苏亚寰软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310334736.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:胶带头保持机构
- 下一篇:一种高大模板脚手架顶部支撑用的顶托装置