[发明专利]一种用于在线不平衡流数据的分类方法在审

专利信息
申请号: 201810732704.6 申请日: 2018-07-05
公开(公告)号: CN109101993A 公开(公告)日: 2018-12-28
发明(设计)人: 胡冀;颜成钢;彭冬亮;吴建锋 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 浙江永鼎律师事务所 33233 代理人: 雷仕荣
地址: 310018*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 在线分类 流数据 样本 敏感参数 标签 分类 标签获取 分类问题 模型获取 输入参数 样本输入 不一致 初始化 预测 更新
【说明书】:

发明公开了一种用于在线不平衡流数据的分类方法,包括以下步骤:步骤S1:输入参数并初始化在线分类器模型;步骤S2:将当前样本输入在线分类器模型获取预测标签值;步骤S3:获取当前样本的标签并与步骤S2中获取的预测标签值相比较,如果两者不一致,则执行步骤S4,否则,继续输入下一个样本;步骤S4:根据当前样本的标签获取代价敏感参数并利用代价敏感参数对权值进行更新。采用本发明技术方案,即解决了传统在线分类方法无解解决的不平衡流数据分类问题,同时提高了分类精度。

技术领域

本发明涉及模式识别、机器学习技术领域,尤其涉及一种用于在线不平衡流数据的分类方法。

背景技术

随着信息技术的迅猛发展,尤其是互联网行业的广泛应用,越来越多的领域出现了对海量高速到达的数据实时处理需求。各个行业产生的业务数据大多数情况下可以看作动态到达的流式数据,与传统数据相比,这类数据具有动态性、无序性、无限性、突发性和体积大等特点。如何从海量的数据中挖掘有用的特征,并对每一个样本进行实时分类变得尤为重要。

传统的批处理式的学习方法一方面存在学习时间长、学习效率低的问题;另一方面难以针对增量数据有效地更新模型,导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题。传统的批处理模式的机器学习算法在当前大数据环境下变得越来越力不从心,而在线学习通过流式计算框架,在内存中直接对数据实时运算,为大数据的学习和分类提供了有力的工具。

最早的在线学习算法可以追溯到20世纪50年代著名的感知器算法(Perceptron);近年来,研究人员提出了在线核学习算法、最小收缩和选择算子算法(LSASSO)、在线梯度下降法(OGD)、在线被动进取算法(PA)、信心加权算法(CW)、压缩感知算法(CS)等。然而上述算法依然具有以下缺陷:

1.现有算法在进行在线学习时并未考虑数据的不平衡性;而现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的;比如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。

2.现有算法对高维流数据分类精度仍需提高。

故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

鉴于现有技术的方法很难满足目前对于不平衡流数据在线分类,本发明提供一种用于在线不平衡流数据的分类方法,通过置信加权对在线流数据进行在线特征选择,并通过代价敏感性技术为不平衡数据设置不同权重,从而实现最小代价敏感损失的特征,即解决了传统在线分类方法无解解决的不平衡流数据分类问题,同时提高了分类精度。

为了解决现有技术存在的技术问题,本发明的技术方案如下:

一种用于在线不平衡流数据的分类方法,其特征在于,包括以下步骤:

步骤S1:输入参数并初始化在线分类器模型;

步骤S2:将当前样本输入在线分类器模型获取预测标签值,其中,该模型符合高斯分布N(u,∑);

步骤S3:获取当前样本的标签并与步骤S2中获取的预测标签值相比较,如果两者不一致,则执行步骤S4,否则,继续输入下一个样本;

步骤S4:根据当前样本的标签获取代价敏感参数并利用代价敏感参数对权值进行更新;

其中,所述步骤S4进一步包括以下步骤:

步骤S41:如果样本的标签为正,则设定代价敏感参数为C+;如果样本的标签为负,则设定代价敏感参数为C-

步骤S42:根据代价敏感参数更新高斯分布的参数,也即,根据公式(1)求解KL距离最小的均值参量μt+1和协方差参量Σt+1作为更新值:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810732704.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top