[发明专利]分包融合集成学习数据分类方法在审
申请号: | 201810097334.3 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108416364A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 李勇明;张成;王品;李淋玉;谭晓衡;颜芳 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都蓉域智慧知识产权代理事务所(普通合伙) 51250 | 代理人: | 陈千 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类器模型 样本 集成学习 分包 子集 权重因子 数据分类 训练集 子空间 混叠 弱化 相乘 分类结果 分类样本 划分模块 获取数据 加权集成 加权融合 样本空间 融合 测试集 多空间 加权 标签 输出 传递 分类 学习 预测 | ||
本发明公开一种分包融合集成学习数据分类方法,包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。其效果是:通过分包并对每个子空间中样本进行学习,弱化样本空间中混叠区域对分类器模型的影响,然后对每个子集误分类样本进行增强,传递至下一个子集中再次学习,增加样本利用率。利用多空间加权融合集成学习模块对所有子集的预测进行加权集成,从而进一步弱化混叠区域样本对分类器模型的影响,提高分类精度。
技术领域
本发明属于大数据领域中的数据分类识别技术,具体涉及一种分包融合集成学习数据分 类方法。
背景技术
在大数据领域中,数据分类具有广泛的应用,例如医疗诊断、情感判断、语义识别以及 图像识别等。常用的分类器主要采用:随机森林(RF)算法,K最近邻(KNN)算法,支持向量机(SVM)模型,极限学习机(ELM)模型等。虽然现有的研究在特征提取,特征学习和分 类器设计等方面都取得了很大的进展,但是样本研究往往没有被重视。
以基于语音数据的帕金森病诊断为例,在语音采样和预处理过程中,可能受到采集设备, 噪声等因素的影响,最终得到的数值样本与实际样本之间可能存在较大误差,形成异常样本。 异常样本通常会导致样本空间中不同类别样本混叠形成重叠区域,重叠区域样本可能误导分 类器模型。目前还没有研究结果可以证明这部分样本对建立的分类器模型有利或有害。现有 的方法要么删除这部分样本,要么将其视为与其他样本一样重要,并没有考虑通过算法来弱 化这些样本对分类器的影响。
发明内容
基于上述缺陷,本发明提供一种分包融合集成学习数据分类方法,该方法通过对样本空 间进行学习,弱化重叠区域样本对分类模型的影响。首先,将训练集中每个样本的质心距离 测量比值作为样本权重进行计算。训练样本中的样本按照样本权重降序排列。然后将排序的 训练集样本依次划分成若干子集。其次,采用留一交叉验证(LOO)方法对一个子集的错误 分类样本和错误率进行计算,并利用每个子集训练出一个子分类器模型。基于每个子集内的 样本权重计算惩罚因子,子集的权重因子由LOO之后的子集的误差率计算。在所有子集的学 习过程中,来自前一个子集的误分类样本被增强后传递到下一个子集中,再对下一个子集进 行学习。再次,使用子集的权重因子和惩罚因子来计算每个子集的权重,并使用子集权重对 每个子分类器的测试结果进行加权。通过对每个子空间中样本进行学习,并对每个子集误分 类样本进行增强,传递至下一个子集中再次学习,以此实现对现有样本的充分利用,增加样 本利用率。利用多空间加权融合集成学习模块对所有子集的预测进行加权集成,从而进一步 弱化混叠区域样本对分类器模型的影响,提高分类精度。
为实现上述目的,本发明所采用的具体技术方案如下:
一种分包融合集成学习数据分类方法,其特征包括以下步骤:
S1:获取数据形成训练集和测试集;
S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;
S3:对应一个子集训练一个分类器模型;
S4:计算每个分类器模型对应的权重因子;
S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权 重因子相乘后加权得到最后的分类结果。
进一步地,步骤S2中所述子空间划分模块采用类心距离度量比值作为样本的权重,通 过计算训练集中每个样本的类心距离度量比值,并按从大大小顺序依次排队,最后划分为K 个子集。
进一步地,步骤S3采用子空间样本传递式训练方式进行分类器模型的训练,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810097334.3/2.html,转载请声明来源钻瓜专利网。