[发明专利]基于组内组间优化的多重插补的乳腺癌缺失数据插补模型在审
申请号: | 202210924114.X | 申请日: | 2022-08-02 |
公开(公告)号: | CN115116616A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 程可;苗世迪;贾浩波 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组内组间 优化 多重 乳腺癌 缺失 数据 模型 | ||
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:
步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D′。
步骤2:在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D″。
步骤3:对数据集D″利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集Dc。
步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:
步骤1-1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D′。
3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:
步骤2-1按步骤1-1记录的各特征缺失比例对完整数据集D′进行设空,以完成缺失数据集的准备。
4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:
步骤3-1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。
步骤3-2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:
其中QLk为第k个特征的下四分位数,QUk为第k个特征的上四分位数,IQRk=QUk-QLk,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-3对阈值的左侧范围进行调整,小于0的阈值范围缩小到0;
步骤3-4计算阈值判别分数,计算公式如下:
其中xkj为第j重插补的第k个特征的阈值外插补值个数,k=1,2,3,…,K;j=1,2,3,…,M;K为数据集特征个数,M为插补重数;
步骤3-5对每列特征进行归一化均方根误差计算,计算公式如下:
Xtrue,kj为第j重插补的第k个原完整特征属性集合,Ximp,kj为第j重插补的第k个插补后的完整特征属性集合;
步骤3-6整合组内插补的评价指标,形成综合评价指标,计算公式如下:
其中ykj是阈值判别分数,NRMSEkj是特征插补的误差衡量指标,为综合评价指标;
步骤3-7选择综合评价指标最小的多重插补方式作为组内特征的最优插补重数,并记录各个特征最优插补重数的序号;
步骤3-8遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210924114.X/1.html,转载请声明来源钻瓜专利网。