[发明专利]基于聚类分层抽样补偿逻辑回归的失衡数据预测方法在审
申请号: | 201410341930.3 | 申请日: | 2014-07-17 |
公开(公告)号: | CN104102716A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 李鹏;张楷卉 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨晓辉 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层抽样 补偿 逻辑 回归 失衡 数据 预测 方法 | ||
技术领域
本发明属于失衡数据预测领域。
背景技术
众所周知,决策必须依赖于预测。预测是对未来做出的估计和推断,为了达到这一目的,往往要对现实世界(或称研究对象)进行模仿或抽象,这一过程称之为建模。因此,一个“好”的模型不仅能表达现实而且应该能通过现实数据准确的反映现实的发展规律。因此,预测模型是一种以数量化表述为特征的预见或预言。
面向失衡数据集的预测问题是自然科学领域的难点问题,并在生物、医学、工程、计算等诸多领域具有重要的实际应用价值。事实证明,在数据类别失衡的情况下直接采用传统预测模型都不能达到令人接受的预测效果。
现采用的分层抽样技术主要包括面向网络流数据的分层采样方法、用于IT系统应用考评拓展平台的数据分层抽样方法和面向高属性维数据的分层抽样的采样方法。以上三种分层抽样方法均面向特定领域的实际数据,并根据数据本身特性人为制定相应的分层策略指导数据分层抽样。
而现有的逻辑回归预测技术,多应用在采用利用罚逻辑回归(PLR)模型根据质量筛分植物胚的方法、通过逻辑回归算法预测有机化学品生物降解性的方法和基于多元逻辑回归检测ICU患者记录中伪像的方法,而并没有将逻辑回归预测技术运用在失衡数据集的预测领域。
发明内容
本发明的目的是为了解决传统预测模型预测失衡数据的效果不好的问题,本发明提供一种基于聚类分层抽样补偿逻辑回归的失衡数据预测方法。
本发明的基于聚类分层抽样补偿逻辑回归的失衡数据预测方法,
它包括如下步骤:
步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据;
步骤二:对获取K个类的数据进行分层抽样,抽取n个数据;
步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回归模型的参数估计式,确定分层样本逻辑回归模型;
步骤四:将抽取的n个数据输入至分层样本逻辑回归模型中,确定待预测的样本集是否是失衡数据集。
本发明的有益效果在于,本发明采用聚类分层抽样的方法首先对失衡数据进行重采样,大量削减影响预测的噪声数据,降低失衡比,减少数据淹没现象的发生;其次,针对采样后的数据分布的改变,提出一种参数补偿逻辑回归预测模型,有效改善预测性能的同时校正预测概率值。经试验验证,本发明的预测方法可以显著提高失衡数据的预测精度。
附图说明
图1为具体实施方式一所述的基于聚类分层抽样补偿逻辑回归的失衡数据预测方法的流程示意图。
图2为具体实施方式二中基于聚类的层次划分原理示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式所述的基于聚类分层抽样补偿逻辑回归的失衡数据预测方法,它包括如下步骤:
步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据;
步骤二:对获取K个类的数据进行分层抽样,抽取n个数据;
步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回归模型的参数估计式,确定分层样本逻辑回归模型;
步骤四:将抽取的n个数据输入至分层样本逻辑回归模型中,确定待预测的样本集是否是失衡数据集。
分层抽样,也叫类型抽样。就是将总体单位按某些重要属性特征分成若干类型或层,然后在各类型或层中采用简单随机抽样(simple random sampling)或系统抽样(system sampling)方式抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。分层抽样比简单随机抽样和系统抽样更为精确,能够通过对较少的抽样单位的调查,得到比较准确的推断结果,特别是当总体较大、内部结构复杂时,分层抽样常能取得令人满意的效果。同时,分层抽样在对总体推断的同时,还能获得对每层的推论。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。分层随机抽样相比于随机抽样可以对总体的属性做更为精确的估计。
分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。相比于简单的随机抽样,分层抽样首先要进行层次的划分,即分层。在实际应用中采用分层抽样的采样方法,最重要的工作就是如何对样本进行合理的层次划分,使分层后样本的抽样更精炼的表达总体分布与特性。层次划分是分层抽样的重点与难点问题。所以本实施方式采用聚类的方式进行层次划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410341930.3/2.html,转载请声明来源钻瓜专利网。