[发明专利]一种不均衡样本分类方法和装置在审
申请号: | 202210048383.4 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114494772A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 赵家志 | 申请(专利权)人: | 烽火通信科技股份有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 宋建平 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 均衡 样本 分类 方法 装置 | ||
本发明涉及一种不均衡样本分类方法和装置。其方法部分主要包括:进行模型构建与训练:构建并训练变分自编码器网络,计算负样本最大重构误差,并对正样本进行分类模型训练;预测未知样本所属分类:通过设定临界区上下限以及正样本分类门限来与未知样本的重构误差以及正样本分类概率分布相对比,以预测未知样本所属的分类。本发明可以在预测时通过临界区参数设置,也即设定临界区上下限以及正样本分类门限来实现对预测偏好的选择,可动态调整预测偏好。
技术领域
本发明涉及人工智能技术领域,特别是涉及一种不均衡样本分类方法和装置。
背景技术
在机器学习和数据处理领域,正负样本不均衡的情况十分常见。负样本指系统正常情况下采集的样本数据,如医学上健康人群的生理指标,表征疾病的指标都是阴性,很容易获得大量的负样本数据;正样本指系统异常情况下采集的样本数据,如医学上患某种疾病的人群生理指标,表征疾病的指标某些是阳性的,很难获得正样本数据,只有少量的带标签的正样本数据。针对这样的样本分布,除要进行正负样本分类以外,还要对正样本进行归类,比如,医学上除判断是否健康以外,还要判断患者所患疾病类型。再例如通信行业中也有类似正负样本不均衡的情况,如垃圾邮件识别,一般情况下,其负样本很多(也即正常邮件数量很多),正样本很少(也即垃圾邮件很少),而且垃圾邮件又有商品推销、广告、保险推销等等分类,也即较少的正样本还有很多不同分类。再例如网络故障分析或性能分析等问题,一般情况下,网络都是正常运行状态,其负样本很多(也即网络正常、性能正常),而正样本很少(也即网络故障、性能出错),其中网络故障、性能出错又分为各种原因,也即该正样本还存在各种不同的分类。
现有解决上述这种不均衡样本问题的方法有过抽样,欠抽样,带权值的损失函数,合成正样本、集成方法。这些方法是对训练阶段的样本或者算法进行改造,本质上会新增和丢弃一些特征信息,从而导致有过拟合、欠拟合的风险,另外这些方法在预测阶段的预测偏好不可调,新增正分类时还需要重新进行大量训练。
鉴于此,如何克服现有技术所存在的缺陷,解决上述技术问题,是本技术领域待解决的难题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种不均衡样本分类方法和装置,结合深度学习和传统机器学习算法优势,将对样本的分类分为模型训练和预测两个步骤,引入“重构误差”,使用变分自编码器的深度学习算法模型分离正负样本,使用传统机器学习算法模型分类小数据量的正样本,引入“临界区”和“正样本分类门限”,在预测阶段可灵活调整分类偏好。
本发明实施例采用如下技术方案:
第一方面,本发明提供了一种不均衡样本分类方法,包括:
进行模型构建与训练:构建并训练变分自编码器网络,计算负样本最大重构误差,并对正样本进行分类模型训练;
预测未知样本所属分类:通过设定临界区上下限以及正样本分类门限来与未知样本的重构误差以及正样本分类概率分布相对比,以预测未知样本所属的分类。
进一步的,所述进行模型构建与训练具体包括:
构建变分自编码器网络并设定损失函数以及重构误差;
对变分自编码器网络进行训练并保存其网络和参数;
将所有负样本输入变分自编码器网络进行重构并计算重构误差,取计算的重构误差最大值作为负样本最大重构误差;
训练所有正样本的分类模型并保存该分类模型及参数。
进一步的,所述变分自编码器网络包括编码器网络和解码器网络,且保存所述变分自编码器网络时,将编码器网络的网络和参数以及解码器网络的网络和参数分别保存。
进一步的,所述设定损失函数以及重构误差具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烽火通信科技股份有限公司,未经烽火通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210048383.4/2.html,转载请声明来源钻瓜专利网。