[发明专利]用于智能疾病筛查的临床决策支持方法及系统有效
申请号: | 201810496358.6 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108766559B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 丁帅;杨善林;胡世康 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/30;G16H50/70 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 智能 疾病 临床 决策 支持 方法 系统 | ||
1.一种模型建立的方法,其特征在于,所述方法包括:
对检查报告进行后结构化处理,得到样本数据集;
根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型;
至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,以得到疾病筛查模型,所述疾病筛查模型的输入为检查报告,输出为疾病分类结果,所述疾病分类结果用于支持临床决策;
所述至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,以得到所述疾病筛查模型,包括:
对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,并使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,得到所述疾病筛查模型;
所述根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型,包括:
将所述样本数据集按照预设比例划分为训练数据集和测试数据集;
从所述训练数据集中采样得到k份互有交叉的采样数据集,k为大于1的正整数;
采用同一机器学习算法,分别在所述k份训练数据集上进行模型的训练和校验,得到k个同质分类模型;
所述对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,包括:
确定所述多个同质分类模型的权重组合集合;
分别计算在所述权重组合集合中的每一权重组合下,集成模型的性能评估值;
将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合,并将在所述最优权重组合下的集成模型作为所述疾病筛查模型。
2.根据权利要求1所述的方法,其特征在于,所述至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,以得到所述疾病筛查模型,包括:
设定一分类阈值,并将发生疾病概率大于所述分类阈值的确定为患病样本,将发生疾病概率小于所述分类阈值的确定为正常样本;
每设定一分类阈值后,根据如下公式计算在该分类阈值下的误分类代价lcost:
lcost=α*FPR+β*(1-TPR);
其中,α为误诊代价系数,β为漏诊代价系数;TPR=TP/(TP+FN)为真正例率,TP为正确预测的患病样本数,FN为错误预测的患病样本数;FPR=FP/(FP+TN)代表患病样本的误诊率,FP为错误预测的无疾病本数,TN为正确预测的无疾病本数;1-TPR代表患病样本的漏诊率;
选取使得误分类代价lcost具有最小值的分类阈值作为所述疾病筛查模型的目标分类阈值。
3.一种用于智能疾病筛查的临床决策支持系统,其特征在于,包括:
后结构化处理模块,用于对检查报告进行后结构化处理,得到样本数据集;
模型训练模块,用于根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型;
模型选定模块,用于至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,以得到疾病筛查模型,所述疾病筛查模型的输入为检查报告,输出为疾病分类结果,所述疾病分类结果用于支持临床决策;
所述模型选定模块包括:
加权集成子模块,用于对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成;
分类阈值选取子模块,用于使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值,得到所述疾病筛查模型;
所述模型训练模块包括:
数据划分子模块,用于将所述样本数据集按照预设比例划分为训练数据集和测试数据集;
采样子模块,用于从所述训练数据集中采样得到k份互有交叉的采样数据集,k为大于1的正整数;
训练子模块,用于采用同一机器学习算法,分别在所述k份训练数据集上进行模型的训练和校验,得到k个同质分类模型;
所述加权集成子模块包括:
权重组合确定单元,用于确定所述多个同质分类模型的权重组合集合;
性能评估单元,用于分别计算在所述权重组合集合中的每一权重组合下,集成模型的性能评估值;
加权集成单元,用于将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合,并使用所述最优权重组合对所述多个同质分类模型进行加权集成。
4.根据权利要求3所述的系统,其特征在于,所述模型选定模块包括:
预设定子模块,用于设定一分类阈值,并将发生疾病概率大于所述分类阈值的确定为患病样本,将发生疾病概率小于所述分类阈值的确定为正常样本;
误分类代价计算子模块,用于在所述预设定模块每设定一分类阈值后,根据如下公式计算在该分类阈值下的误分类代价lcost:
lcost=α*FPR+β*(1-TPR);
其中,α为误诊代价系数,β为漏诊代价系数;TPR=TP/(TP+FN)为真正例率,TP为正确预测的患病样本数,FN为错误预测的患病样本数;FPR=FP/(FP+TN)代表患病样本的误诊率,FP为错误预测的无疾病本数,TN为正确预测的无疾病本数;1-TPR代表患病样本的漏诊率;
模型选定子模块,用于选取使得误分类代价lcost具有最小值的分类阈值作为所述疾病筛查模型的目标分类阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810496358.6/1.html,转载请声明来源钻瓜专利网。