[发明专利]结合选择性升采样的不均衡数据流加权集成分类预测方法在审
申请号: | 201611038696.2 | 申请日: | 2016-11-11 |
公开(公告)号: | CN107341497A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 曹鹏;刘筱力;单宣峰;刘爽;栗伟;覃文军;冯朝路;杨金柱 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 李强 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据挖掘技术领域,提出结合选择性升采样的不均衡数据流加权集成分类预测方法,包括根据相似度对历史数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;对选择的样本通过在决策边界区域合成新样本以达到选择地实施升采样;采用基于概率分布相关度的权重分配策略对新样本进行加权集成分类处理。通过选择相似度高的历史数据和合成边界区域的新数据来有效增加少数类样本信息,扩大少数类的决策域;同时为了适应存在概念漂移的动态数据,使用集成分类思想,设计一种基于概率分布相关度的权重分配策略,提升整体分类精度。实验结果表明该算法有效地提高了少数类的识别率以及整体的分类性能,具有更好的处理不均衡数据流的优势。 | ||
搜索关键词: | 结合 选择性 采样 均衡 数据流 加权 集成 分类 预测 方法 | ||
【主权项】:
结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,包括:步骤一:根据相似度对历史训练数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;步骤二:对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本;步骤三:根据步骤一筛选的样本和步骤二合成的新样本形成均衡的训练数据块,利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器,并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布;步骤四:利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度,进行确定每个训练数据块对应的分类器的相关度权重;步骤五:采用步骤三中训练得到的基分类器和步骤四中基于概率分布的相关度权重,对待预测数据块中的新样本进行加权集成分类预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611038696.2/,转载请声明来源钻瓜专利网。