[发明专利]基于频繁模式的选择性集成分类方法在审

专利信息
申请号: 201310740476.4 申请日: 2013-12-26
公开(公告)号: CN103744924A 公开(公告)日: 2014-04-23
发明(设计)人: 周红芳;王啸;赵雪涵;段文聪;郭杰;张国荣;王心怡;何馨依 申请(专利权)人: 西安理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安弘理专利事务所 61214 代理人: 李娜
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 频繁 模式 选择性 集成 分类 方法
【说明书】:

技术领域

发明属于数据处理方法技术领域,涉及一种基于频繁模式的选择性集成分类方法。

背景技术

近年来,集成学习(ensemble learning,EL)已成为机器学习和数据挖掘领域的一个研究热点,国际机器学习界的权威学者Dietterich在《AI Magazine》杂志上将集成学习列为机器学习领域四大研究方向之首。集成学习通过调用一些简单的分类算法对训练样本进行学习来获取若干不同的学习机(称为基分类器),然后采用某种策略对这些学习机进行组合去解决一个共同的学习任务。集成学习方法已被广泛、有效地应用于生物、工程、医学、计算机视觉和图像处理等研究领域,代表性算法有Bagging、Boosting、AdaBoost、WAVE和RFW等。集成学习过程一般分为两个阶段:基分类器的构造与基分类器的组合。与单个分类器相比,集成分类器可以有效地提高分类器的泛化能力。

目前,常见的用于生成基分类器的方法可以按照粗细粒度的分为两大类:一类是将不同类型的学习算法应用于同一数据集上,这种方法得到的基分类器通常被称为异质类型的;另一类是将同一学习算法应用于不同的数据集上,这种基分类器被称为是同质类型的。

在集成学习的研究初期,大多数方法都是先生成多个基分类器,然后将它们全部用于构建集成分类器,但是,与单个的基分类器相比,其预测速度明显下降,而且随着基分类器数目的增长,它们所需要的存储空间也急剧增多,分类精度和分类效率也可能明显下降。

2002年,周志华等人首先提出了“选择性集成”的概念,选择性集成(ensemble pruning,EP)通过从已有的集成分类器中剔除对分类结果有负面影响的基分类器减少集成分类器的存储空间,从而提高分类器的分类精度和分类效率。但是,现有的选择性集成算法都采用随机从原始的所有基分类器中挑选部分分类器进行组合,从所有组合中挑选一个最好组合作为最终的集成分类器。由于组合的过程涉及所有基分类器,组合的数目巨大,因此,其需要大量的时间用于测试组合分类器的性能,以确定最终的组合,所以导致其分类效率低下。

发明内容

本发明的目的是提供一种基于频繁模式的选择性集成分类方法,解决现有技术存在的分类效率低下的问题。

本发明的技术方案是,基于频繁模式的选择性集成分类方法,首先将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储集成分类器对样本进行分类,然后根据分类结果从布尔矩阵中选择分类性能较好的基分类器构成最终的选择性集成分类器。

本发明的特点还在于,先输入基分类器集合C和数据集D,然后进行以下步骤:

步骤1,构建分类矩阵;

步骤2,生成候选集成分类器;

步骤3,评估候选集成分类器;

最后,输出选择性集成分类器S。

上述步骤1包括:

(1)基分类器集合对数据样本进行分类;

(2)初始最终选择性集成分类器的评估值为0;

(3)构建分类矩阵;

(4)精简分类矩阵;

具体是,以数据集中的样本为行,集成分类器中的基分类器为列,基分类器对样本的分类结果为值来构建分类矩阵;其中,分类器列的排列顺序由该分类器的分类精度决定,即从左向右按照精度由高到低进行排列;如果一个样本能够被所有的基分类器正确分类或者错误分类,那么该样本不具有区分基分类器优劣的能力,于是将其从分类矩阵中删除。

上述步骤2具体是,根据多数投票原则,在一个含有m个基分类器{c1,c2,...,cm}的集成分类器集合中,如果存在个基分类器对某一个样本正确分类,那么认为这个集成分类器可以对该样本正确分类;

上述步骤3具体是,在集成分类器的大小s从0增长到m的过程中,算法重复执行步骤2生成多个候选集成分类器;从集成分类器正确分类的样本数、基分类器的平均分类精度以及集成分类器的大小三个方面对候选集成分类器进行评估,选择具有最大评估值的候选集成分类器作为最终的选择性集成分类器,其评估值计算如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310740476.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top