[发明专利]一种基于最优AUC的多机器学习模型特征选择方法在审
申请号: | 202210380302.0 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114724715A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 陈建新;黄湘君;周亮;李昂;许景艳;蒋冲 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H30/20;G06V10/771;G06V10/764;G06K9/62;G06N20/00 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 张玉红 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最优 auc 机器 学习 模型 特征 选择 方法 | ||
本发明所述的一种基于最优AUC的多机器学习模型特征选择方法,其步骤为:步骤1、输入影响组学特征数据集,对所有输入的特征进行预处理;步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建,迭代计算每一个高重现性特征子集的影像组学模型AUC;步骤3、对AUC结果进行比较,选取最优AUC,获得最优高重现性特征集,并将AUC结果生成可视化热力图。本发明通过交叉组合的方式形成了幂增数量的组合特征选择分类器,迭代地对所获得高重现性特征集进行了影像组学模型AUC的计算以及对比,并根据最优AUC自动进行最优高重现性特征集的选择;在进行特征筛选之后,可以生成相应的高重现性特征集进行广泛测试,避免偶然性,增加可靠性。
技术领域
本发明涉及医学图像处理领域,具体是涉及一种基于最优AUC的多机器学习模型特征选择方法。
背景技术
淋巴瘤是一种显著异质性疾病,不同病患的临床表现、治疗反应以及预后情况等都有很大的差异。以弥漫大B细胞淋巴瘤(DLBCL)为例,目前被认为是其标准治疗方案的是R-CHOP化疗免疫疗法(R表示利妥昔单抗;C表示环磷酰胺;H表示长春新碱;O代表阿霉素;P代表强的松),但有回顾性研究指出,目前仍有30-50%的患者仍未治愈,最终复发并死于该疾病。因此,对于那些对标准治疗方案反应不佳的患者,需要在诊断时进行早期识别和预后预测,以便于有针对性地调整治疗策略。然而,当前的预后评分系统,比如国际预后指数(IPI)以及其后继指标(修正的IPI和NCCN-IPI),并不足以进行病程早期的风险分层。在进行DLBCL患者风险分层评估时,代谢性肿瘤体积(MTV)和总病变糖酵解(TLG)是有力指标,但这些代谢指标反应肿瘤异质性上的能力是有限的,单纯依靠代谢指标可能会导致患者风险评估不准确以至于导致不良治疗效果。
近年来,影像组学已经成为了一个新兴且有前途的研究领域,即从患者病理图像中提取高通量的影像组学特征,结合计算机领域机器学习模型,通过对特征进行分类和高重现性特征筛选,建立影像组学模型,协助临床风险评估,对无进展生存期(Progress FreeSurvival,PFS)、总生存期(Overallsurvival,OS)等医学指标进行预后预测。
要建立有临床参考价值的高准确度影像组学模型,前期对于高重现性特征的筛选至关重要。目前在淋巴瘤影像组学研究中普遍采用最小绝对收缩和选择算子(Leastabsolute shrinkage and selection operator,LASSO)回归模型进行高重现性特征的筛选,如Ji G W,Zhu F P,Zhang Y D,et al.A radiomics approach to predict lymphnode metastasis and clinical outcome of intrahepatic cholangiocarcinoma[J].European Radiology,2019,29(7):3725-3735.及Liu Q,Li J,Liu F,et al.A radiomicsnomogram for the prediction of overall survival in patients withhepatocellular carcinoma after hepatectomy[J].Cancer Imaging,2020,20(1):82-96.如图1所示,它通过构造惩罚函数得到精炼的模型,对回归系数进行压缩从而使得不显著特征的系数为零,生成高重现性特征集,继而建立影像组学模型;但是在针对不同的数据集研究中,单一的LASSO回归模型进行特征筛选并不能保证获得的高重现性特征对于影像组学模型来说是最优的,并且缺少对多种特征分类、筛选模型的测试和对比分析。
但没有证据表明LASSO在对任何肿瘤影像组学特征数据集的处理中都能获得最优筛选结果,而且在特征数量庞大的情况下,往往一次筛选并不能将特征维度缩小至可用范围;而在特征筛选过程中能否将大量的影像组学特征降维成具有最大影响力的高重现性特征集,直接决定了影像组学模型在临床早期识别和预后预测中的准确性;所以在对特征筛选模型的选择上需要经过严格的测试、对比和验证。考虑到特征数量庞大的可能性,应对特征进行至少两轮筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210380302.0/2.html,转载请声明来源钻瓜专利网。