[发明专利]一种基于自适应平衡集成与动态分层决策的多分类方法在审

专利信息
申请号: 201811599644.1 申请日: 2018-12-26
公开(公告)号: CN109359704A 公开(公告)日: 2019-02-19
发明(设计)人: 高欣;何杨;井潇;刁新平;任昺;纪维佳 申请(专利权)人: 北京邮电大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 二分类 一对多 样本 自适应平衡 动态分层 数据集 子模型 原始数据集 参数区间 测试样本 分类模型 技术平衡 决策空间 类别判定 评分标准 输出结果 数据集中 网格搜索 整体识别 正常区域 采样数 过采样 交叉区 空白区 平均法 欠采样 上下限 分类 准确率 子集 决策 分解 转化 制定
【说明书】:

发明实施例提出了一种基于自适应平衡集成与动态分层决策的多分类方法,包括:根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。本发明实施例提供的技术方案,可提高一对多框架下分类模型对各类别的整体识别率。

【技术领域】

本发明涉及机器学习领域多分类方法,尤其涉及一种基于自适应平衡集成与动态分层决策的多分类方法。

【背景技术】

在利用机器学习方法解决多分类问题时,将原始多分类问题转化为多个二分类问题是一种有效的手段。其中,一对多分解策略是一种主流的分解方法,但该框架下存在严重的正负样本数目不平衡、预测结果过度依赖二分类器置信度等问题。根据合适的机器学习方法解决一对多框架下的类不平衡与结果聚合问题,以提高分类模型的准确率,是当今研究的热点之一。解决目前对于不平衡数据的分类问题,常用技术主要分为数据级方法、算法级方法、代价敏感学习和集成学习技术。数据级方法通过对数据空间进行抽样来重新平衡类分布,具体为对多数类样本欠采样或者对少数类样本过采样。欠采样中主要有随机欠采样与基于聚类的欠采样。随机欠采样从多数类样本中随机挑选部分样本与全部少数类样本组成新的训练样本,该方法虽然生成了平衡的数据集,但随机性强、未虑整个样本空间分布特点,会造成多数类有用信息的丢失;基于聚类的欠采样将多数类样本聚成多个簇,其中簇个数等于少数类样本个数,然后从所有簇中挑选中心点或者离中心点最近的样本作为训练样本,一定程度上减少了随机欠采样的盲目性。但是当少数类样本数目很大时,直接选取少数类样本个数作为簇个数可能会影响聚类过程,不利于后续采样。过抽样中经典的方法是SMOTE,该算法随机选择部分少数类样本,从这些少数类样本最近的几个邻居点中随机挑选一个样本,然后在这两个样本之间合成新的少数类样本。过采样具有的缺点是增加少数样本,可能会造成过拟合。Borderline-SMOTE1只利用位于边界内的少数样本合成新的样本,Borderline-SMOTE2除了只考虑边界点,允许少数类邻居点中存在部分多数类样本。以上方法可以减少噪声点的产生,而基于kmeans和SMOTE的启发式过采样不仅解决类间不平衡,还可以解决类内不平衡。算法级方法通过直接修改现有方法或者提出新的方法来解决类不平衡分类问题,但需要满足一定的假设条件。代价敏感学习为少数类样本分配的错误分类代价成本高于多数类样本,优化目标是使分类器的分类结果对应总代价成本最低,如何确定合适的代价成本是这类方法需要考虑的问题,同时也是难以解决的问题。集成学习技术将数据级方法与集成学习Bagging或者Boosting方法相结合,不仅通过数据预处理降低数据不平衡程度,而且通过组合多个分类器可提高分类性能。Bagging方法虽然简单,但是如果与数据预处理合理组合将对处理类不平衡分类问题具有积极作用,有效地组合两种方法可以提高对不平衡数据的分类效果。解决目前对于一对多框架下结果聚合的问题,主要有最大置信度值与动态排序方法。最大置信度考虑全部二分类模型结果,将最大置信度值对应的类别作为预测类别,但是该方法无法解决出现多个最大置信度值的情况。动态排序方法在对测试样本进行分类前,事先根据朴素贝叶斯分类器得到所有二分类模型对该样本的测试顺序,而不用同时考虑全部二分类模型结果。但朴素贝叶斯分类器给出的输出顺序对最终预测结果具有一定的影响,当所有二分类器输出结果中出现多个正类的概率大于阈值时影响更大。

【发明内容】

有鉴于此,本发明实施例提出了一种基于自适应平衡集成与动态分层决策的多分类方法,以提高分类模型的准确率。

本发明实施例提出的一种基于自适应平衡集成与动态分层决策的多分类方法,包括:

根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811599644.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top