[发明专利]基于组内组间优化的多重插补的乳腺癌缺失数据插补模型在审
申请号: | 202210924114.X | 申请日: | 2022-08-02 |
公开(公告)号: | CN115116616A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 程可;苗世迪;贾浩波 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组内组间 优化 多重 乳腺癌 缺失 数据 模型 | ||
本发明是涉及基于组内组间优化的多重插补的乳腺癌缺失数据插补模型。该插补模型由组内优化插补和组间优化插补组成,将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法,并结合医学特征的参考阈值进行综合插补。得到组内最优插补数据集,最后以均方根误差作为组间最优插补的评判标准。在插补过程中,加入临床特征阈值判别有利于增强医学数据特征的结构分布,让数据更具真实性。在组内优化中考虑到不同特征间的差异以及特征缺失值的不确定性,组间优化中考虑各插补方法的横向比较,让缺失数据的插补更具稳健性。
技术领域:
本发明涉及数据清洗技术,尤其涉及到一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型,该模型在数据插补方面有着很好的应用效果。
背景技术:
对于乳腺癌临床数据集的研究可以有效的预测和开发早期干预治疗手段。由于客观或主观因素的限制,经常会出现临床数据的缺失,给后期数据处理以及疾病预测带来不确定性。
数据集获取后,数据预处理的质量能影响后续数据建模的准确度,一个较为完整和接近真实分布的数据集是验证模型好坏的前提。数据预处理得当能使模型充分挖掘数据所隐含的信息。在数据预处理阶段最为重要的就是对数据缺失值的处理。在以往的数据缺失值处理中,采用插补方式对数据的处理是目前最为普遍的,也是尽可能的在不改变数据分布的情况下保留完整数据信息的方法。
对于乳腺癌样本数据的缺失值处理上,传统的插补方法大多基于两类,一类是基于统计学的插补方法,另一类是基于机器学习的插补方法。然而前者是基于数据集本身做出假设,然后利用原数据集对缺失数据进行相应的插补,这类方法没有考虑数据对象本身的类别,插补值往往受其他类别对象的影响,插补结果的准确性较差。后者大多是先对缺失数据集进行分类或聚类,然后进行插补,但在缺失属性较多时容易导致所分类别较多。上述两种类别的插补方法都是单一插补方法,这种方式即没有考虑插补过程中的不确定性和偶然性,也没有考虑到不同特征间的差异性,对插补后数据分布产生的结论偏差也没有进行相应的处理,缺少数据分布矫正。同时也缺乏领域知识对插补结果的约束。
在医学诊断领域医学数据量会逐年增加,且不同疾病数据有着较大的差异,对于特定的缺失数据需要有特定的领域知识介入。数据的缺失增加的临床预测的难度可能会导致结果出现偏差。为解决这一问题,本发明采用一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型来增强数据的完整性与真实性。
发明内容:
为了解决数据缺失的问题,本发明公开了一种基于内组间优化的多重插补方模型。
为此,本发明提供了如下技术方案:
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:
步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D′。
步骤2:在数据集D′中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D″。
步骤3:对数据集D″利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D″中的各个特征,得到组内最优插补数据集D″′。
步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集Dc。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210924114.X/2.html,转载请声明来源钻瓜专利网。