[发明专利]一种基于随机森林算法的肿瘤数据统计方法在审
申请号: | 202010332980.0 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111524606A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 赵杰;翟运开;马倩倩;叶明;陈昊天;何贤英;崔芳芳;李明原 | 申请(专利权)人: | 郑州大学第一附属医院 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 姜晓钰 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 算法 肿瘤 数据 统计 方法 | ||
本发明公开了一种基于随机森林算法的肿瘤数据统计方法,属于大数据领域,包括建立中央服务器和多个数据采集服务器,对数据进行预处理,根据随机森林算法在训练集上训练得到医疗数据拟合度模型,对医疗数据拟合度模型进行多指标评价,解决了有效的对肿瘤数据进行准确统计的问题,本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G‑mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能,提高了模型的准确度等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
技术领域
本发明属于大数据技术领域,涉及一种基于随机森林算法的肿瘤数据统计方法。
背景技术
肿瘤是发病率和死亡率增长最快,对人类生命健康威胁最大的恶性肿瘤之一。关于肿瘤的预测成为医疗界关注的热点。传统疾病预测耗时耗力,根据医生经验及外界环境的影响,数据统计正确率不高。
机器学习方法凭借其能对数据进行自动学习,从复杂数据中提取信息做出决策的强大能力,在生物医疗等领域得到了越来越多的关注,为这些领域中如何有效决策提供了一个新的方向。互联网医疗是时代发展的必然趋势,随着机器学习的发展,越来越多的研究学者使用机器学习方法建立模型,对已有的数据进行分析研究。基于各种机器学习算法建立的疾病数据统计模型越来越多,但是肿瘤数据复杂多样,基于传统单分类算法建立的模型不能保证做出有效的分类统计。
发明内容
本发明的目的是提供一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于随机森林算法的肿瘤数据统计方法,包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各个科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(mM0),其中m=log2(M0)+1或通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学第一附属医院,未经郑州大学第一附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010332980.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纤维加热系统
- 下一篇:群组分享式摄影方法、拍摄设备、电子设备、存储介质