[发明专利]基于bagging算法的乳腺癌预测系统有效
申请号: | 202110203468.0 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112927795B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 余之刚;何勇;刘丽媛;考春雨;王斐;杨芙;范叶叶 | 申请(专利权)人: | 山东大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70 |
代理公司: | 济南联合竟成知识产权代理事务所(普通合伙) 37371 | 代理人: | 田相迪 |
地址: | 250000 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bagging 算法 乳腺癌 预测 系统 | ||
1.基于bagging算法的乳腺癌预测系统,其特征在于,包括处理单元,处理单元执行以下步骤:
S1、病例-对照数据收集
基于乳腺癌防治相关知识设计调查问卷,问卷包含被认为对乳腺癌有影响的特征变量,通过该问卷收集来自中国三省一市122058名25-70岁女性的真实数据,记录病例-对照数据备份;
S2、数据处理
对问卷收集来的数据进行数据清洗,删除重复信息以及缺失值或异常值过多的无效样本和特征变量,选取合适的统一指标填充其余缺失值,处理后的全部特征变量作为模型的输入变量;
S3、简单预测模型构建
将步骤S2、数据处理中得到的样本数据集划分为样本训练集和样本验证集;对于样本训练集,通过bootstrap法采样获得T个采样集,分别建立惩罚逻辑回归乳腺癌预测模型,并分别对样本验证集进行预测;
S4、模型融合
在步骤S3、简单预测模型构建中,使用简单平均法,对T个惩罚逻辑回归乳腺癌预测模型得到的回归结果进行算术平均作为最终模型输出的乳腺癌预测概率,训练出最终预测模型;
S5、筛选重要特征变量
根据步骤S3、简单预测模型构建中的T个惩罚逻辑回归乳腺癌预测模型得到的每个特征变量的回归系数,使用合适的方式给予每个特征变量一个得分,根据得分,筛选出对乳腺癌预测影响最大的几个特征变量,来构成特征子集,作为模型的又一输入变量,重复步骤S3、S4,得到预测效果好且计算复杂度低的简化模型;
S6、融合模型与其他经典模型预测性能分析与对比
由步骤S2、数据处理中得到的样本训练集训练其他经典预测模型:Gail’s逻辑回归模型、BCRAM,将步骤S4、模型融合中的预测结果与其他两种经典预测模型预测结果进行汇总,对AUC值进行比较,验证融合模型的预测表现是否优于其他模型;
所述步骤S4中,将得到的T个惩罚逻辑回归乳腺癌预测模型进行融合,将模型数据参数进行调优,再得到最终预测效果最好的模型;
所述步骤S5中,依据T个惩罚逻辑回归乳腺癌预测模型得到的每个特征变量的回归系数,得出每个特征变量作为筛选后变量的次数作为得分;并依据迭代次数和特征数目参数给定适当阈值,得分高于阈值的特征作为重要特征变量;
所述步骤S6中,将T个惩罚逻辑回归乳腺癌预测模型融合的模型和其他经典模型的预测结果进行汇总,比较AUC值,验证融合模型是否优于其他经典模型;
所述步骤S1中在问卷调查过程中,将被调查人员的包含到不同的年龄阶段,且被调查人员不单单为女性,也可为男性。
2.根据权利要求1所述的基于bagging算法的乳腺癌预测系统,其特征在于,所述步骤S2中将处理后的全部特征变量作为模型输入变量前,将处理后的数据进行重新备份,备份后直接收录在山东大学第二医院乳腺癌外科专病数据库内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110203468.0/1.html,转载请声明来源钻瓜专利网。