[发明专利]一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法在审

申请号：	201810991730.0	申请日：	2018-08-28
公开（公告）号：	CN109063787A	公开（公告）日：	2018-12-21
发明（设计）人：	王颖;汝吉东	申请（专利权）人：	齐齐哈尔大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	齐齐哈尔鹤城专利事务所 23207	代理人：	刘丽
地址：	161006 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	弱分类器构建分类结果样本集成分类子集计算机技术领域集成分类器分类样本平衡数据平衡子集算法数据样本聚类样本子集分类器训练集分类算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于不平衡数据的基于X‑mean和样本错分类率集成分类方法，属于计算机技术领域。包含以下内容：采用X‑mean算法数据子集构建方法；弱分类器平衡数据子集构建；弱分类器构建；基于AdaBoost算法集成分类器构建。本发明根据相似性高的多数类样本聚类算法，提取具有代表性样本作为多数类样本子集，在AdaBoost算法框架下，弱分类器训练采用平衡子集和错分类样本共同作为下一弱分类器训练集，最后集成弱分类器分类结果作为最终分类结果，试验结果表明，通过此方法解决了类不平衡问题，提升了分类器分类结果。

技术领域

本发明属于计算机技术领域，具体涉及到一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法。

背景技术

在分类问题中，对于多类数据集中的各类别数据，总有一些数量相当少的类被称为“少数类”，而数量多的类则被称为“多数类”，具有这样数据集被称为类不平衡。在现实问题中，类不平衡问题在数据挖掘中比较常见，也是当前亟待研究问题之一，广泛存在于文本分类、信息搜索及过滤和生物医学等领域。少数类的错分代价是不可估量的，所以在实际问题中，提升数据挖掘技术少数类分类精度迫在眉睫。

在数据层面解决类不平衡问题包括过采样和欠采样两种技术。过采样技术代表算法如SMOTE算法，该算法远超随机采样技术，一系列SMOTE改良算法也被提出，如Borderline-SMOTE算法。AdaBoost与SMOTE算法结合也被应用到类不平衡问题中，如SMOTEBoost方法在弱分类器训练过程中合成样本，提升分类器对类不平衡问题关注。RUSBoost方法采用欠采样和AdaBoost方法结合，先随机提取多数类数据子集以构成平衡数据，识别结果有所提高。

发明内容

本发明根据相似性高的多数类样本聚类算法，提取具有代表性样本作为多数类样本子集，在AdaBoost算法框架下，弱分类器训练采用平衡子集和错分类样本共同作为下一弱分类器训练集，最后集成弱分类器分类结果作为最终分类结果，通过此方法解决了类不平衡问题，提升了分类器分类结果。

本发明的技术方案是：一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法，包括以下步骤：

步骤1.基于X-mean算法的样本子集构建方法

设训练集S＝{S_neg，S_pos}，我们采用K-means算法对反例样本进行聚类，对于给定的反例样本集D，其中含有n个样本。设定阈值为正反例样本比例T，将反例样本划分为T个簇，分别为K₁，K₂，..…，K_t，其中，K_i，即各簇之间交集为空，划分的T个簇具有簇内相似，组间相异特点。

对于任意的簇K_i，定义k_m为它的质心，质心通过簇内特征集平均值方法获得，而簇内任意样本k_n与质心的距离定义为dist(k_n，k_m)，将簇K₁的质量E定义为簇内所有样本特征集与质心距离的平方和，如下：

通过计算期初最优距离分布，使样本在所在簇内距离最小，而与其他簇距离最大，簇与簇之间最大程度相互独立。基于K-means算法构建质心近距离训练样本平衡方法伪代码描述为：

步骤2.弱分类器平衡数据子集构建

正反例数据比为T，将所有反例样本分为T组，对于每一组，选取T分之一距离聚类质心距离最近的样本被选取构成训练子集1的反例样本S_neg1。接下来S_neg1与所有正例样本S_pos联合构成平衡的训练子集1 S₁，即

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐齐哈尔大学，未经齐齐哈尔大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810991730.0/2.html，转载请声明来源钻瓜专利网。

上一篇：等离子体裂解煤制乙炔反应过程中乙炔浓度的软测量方法
下一篇：一种基于聚类算法的教学资源分类管理方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法在审

专利文献下载