[发明专利]一种基于集成学习的晚期胃癌生存预测方法在审
| 申请号: | 202111450093.4 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN114220539A | 公开(公告)日: | 2022-03-22 |
| 发明(设计)人: | 徐子皓;姚美村;彭昶;江琤;桑淑仪 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G16H50/30 | 分类号: | G16H50/30;G06N20/20 |
| 代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 集成 学习 晚期 胃癌 生存 预测 方法 | ||
本发明公开了一种基于集成学习的晚期胃癌生存预测方法,该方法包括:获取病例数据并进行数据筛选,得到数据集;构建预测模型并基于数据集对预测模型进行训练,得到训练完备的预测模型;基于混淆矩阵和工作曲线评价训练完备的预测模型。本发明针对晚期胃癌生存样本不平衡的特点,采用集成学习技术建立的临床预后模型,能够解决过拟合问题。本发明作为一种基于集成学习的晚期胃癌生存预测方法,可广泛应用于医疗数据处理领域。
技术领域
本发明涉及医疗数据处理领域,尤其涉及一种基于集成学习的晚期胃癌生存预测方法。
背景技术
胃癌是严重危害人类健康的恶性肿瘤之一,其发病率和病死率均位居全球前列。经研究证明,幽门螺旋杆菌(Helicobactor pylori,Hp)感染可导致慢性胃炎、消化性溃疡以及癌前病变的发生,并且Hp已经成为胃癌高危人群的独立影响因素,也是胃癌预后的显著影响因素。此外,经过大量的临床研究得出,根除Hp可显著降低胃部炎症甚至胃癌的发生率。目前,我国高于50%的居民为Hp感染阳性,但同时又缺乏对胃癌的早期筛查和治疗,造成超过半数的胃癌患者就诊时已到晚期。因此,Hp的检查和根除治疗对胃癌的预防有着极大的潜在积极作用。生存预测模型是临床决策支持系统的基础。借助模型,临床医师能够对患者进行生存预测、科学地评估治疗方案的风险与收益并实施精准医疗策略,从而延长患者总生存期。传统方法是利用Cox比例风险回归建立列线图进行生存预测,其作为一种半参数模型是医学生存分析领域应用最广泛的多因素分析方法,然而,Cox回归主要基于每个特征变量与生存结果存在线性相关的假设,因此,它过于简化了包括特征变量之间、特征变量与生存结局之间的复杂非线性关系,存在过拟合问题,预测准确率不高。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于集成学习的晚期胃癌生存预测方法,针对晚期胃癌生存样本不平衡的特点,采用集成学习技术建立的临床预后模型,能够解决过拟合问题。
本发明所采用的第一技术方案是:一种基于集成学习的晚期胃癌生存预测方法,包括以下步骤:
获取病例数据并进行数据筛选,得到数据集;
构建预测模型并基于数据集对预测模型进行训练,得到训练完备的预测模型;
基于混淆矩阵和工作曲线评价训练完备的预测模型。
进一步,所述获取病例数据并进行数据筛选,构建数据集这一步骤,其具体包括:
从SEER数据库下载病例数据;
根据预设规则对病例进行筛选,得到筛选后的病例数据;
对筛选后的病例数据进行统计分析,确定纳入的变量;
根据筛选后的病例数据构建数据集。
进一步,所述纳入的变量包括年龄、婚姻状态、肿瘤部位、肿瘤分级、骨转移、肝转移、肺转移、脑转移、原发部位手术、淋巴结手术、化疗和肿瘤大小。
进一步,述构建预测模型并基于数据集对预测模型进行训练,得到训练完备的预测模型这一步骤,其具体包括:
选择备选算法并基于备选算法分别建立预测模型;
结合数据集和网格搜索法对预测模型进行优化训练,得到训练完备的预测模型。
进一步,所述备选算法包括逻辑回归、K最近邻、支持向量机、随机森林和轻量级梯度提升树分类算法。
进一步,所述基于混淆矩阵和工作曲线评价训练完备的预测模型这一步骤,其具体包括:
基于混淆矩阵的评价指标,选择准确率、灵敏度、f1值和AUC共同评价预测模型的性能;
构建ROC工作曲线;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111450093.4/2.html,转载请声明来源钻瓜专利网。





