[发明专利]不平衡数据的分类方法在审
申请号: | 201810203520.0 | 申请日: | 2018-03-13 |
公开(公告)号: | CN108460421A | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 邓晓衡;吴佳祺;漆华妹;钟维坚;陈凌驰 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种不平衡数据的分类方法,包括获取需要分类的不平衡数据集;对数据样本权重进行初始化;抽取若干个样本构成代价敏感度高的样本集合并设置代价值;构成代价敏感度低的样本集合并设置代价值;采用基本分类器在样本上进行训练得到弱分类器;更新所有样本的权重值;对不平衡数据集的所有子集进行分裂和权重值更新;输出最终的集成分类器,完成不平衡数据分类。本发明提供的这种不平衡数据的分类方法提出了一种基于信息熵的子集分割方式来将多数类样本进行聚类,具有更高的分类精确度。 | ||
搜索关键词: | 样本 分类 权重 样本集合 敏感度 数据集 集成分类器 弱分类器 数据分类 数据样本 子集分割 初始化 分类器 信息熵 聚类 子集 抽取 输出 分裂 更新 | ||
【主权项】:
1.一种不平衡数据的分类方法,包括如下步骤:S1.获取需要分类的不平衡数据集;S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化;S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值;S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器;S6.根据步骤S5得到的弱分类器,更新所有样本的权重值;S7.对不平衡数据集的所有子集进行分裂和权重值的更新;S8.输出最终的集成分类器,从而完成不平衡数据的分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810203520.0/,转载请声明来源钻瓜专利网。