[发明专利]一种不均衡样本分类方法和装置在审

申请号：	202210048383.4	申请日：	2022-01-17
公开（公告）号：	CN114494772A	公开（公告）日：	2022-05-13
发明（设计）人：	赵家志	申请（专利权）人：	烽火通信科技股份有限公司
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/774;G06K9/62
代理公司：	深圳市六加知识产权代理有限公司 44372	代理人：	宋建平
地址：	430000 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种均衡样本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种不均衡样本分类方法和装置。其方法部分主要包括：进行模型构建与训练：构建并训练变分自编码器网络，计算负样本最大重构误差，并对正样本进行分类模型训练；预测未知样本所属分类：通过设定临界区上下限以及正样本分类门限来与未知样本的重构误差以及正样本分类概率分布相对比，以预测未知样本所属的分类。本发明可以在预测时通过临界区参数设置，也即设定临界区上下限以及正样本分类门限来实现对预测偏好的选择，可动态调整预测偏好。

技术领域

本发明涉及人工智能技术领域，特别是涉及一种不均衡样本分类方法和装置。

背景技术

在机器学习和数据处理领域,正负样本不均衡的情况十分常见。负样本指系统正常情况下采集的样本数据，如医学上健康人群的生理指标，表征疾病的指标都是阴性，很容易获得大量的负样本数据；正样本指系统异常情况下采集的样本数据，如医学上患某种疾病的人群生理指标，表征疾病的指标某些是阳性的，很难获得正样本数据，只有少量的带标签的正样本数据。针对这样的样本分布，除要进行正负样本分类以外，还要对正样本进行归类，比如，医学上除判断是否健康以外，还要判断患者所患疾病类型。再例如通信行业中也有类似正负样本不均衡的情况，如垃圾邮件识别，一般情况下，其负样本很多(也即正常邮件数量很多)，正样本很少(也即垃圾邮件很少)，而且垃圾邮件又有商品推销、广告、保险推销等等分类，也即较少的正样本还有很多不同分类。再例如网络故障分析或性能分析等问题，一般情况下，网络都是正常运行状态，其负样本很多(也即网络正常、性能正常)，而正样本很少(也即网络故障、性能出错)，其中网络故障、性能出错又分为各种原因，也即该正样本还存在各种不同的分类。

现有解决上述这种不均衡样本问题的方法有过抽样，欠抽样，带权值的损失函数，合成正样本、集成方法。这些方法是对训练阶段的样本或者算法进行改造，本质上会新增和丢弃一些特征信息，从而导致有过拟合、欠拟合的风险，另外这些方法在预测阶段的预测偏好不可调，新增正分类时还需要重新进行大量训练。

鉴于此，如何克服现有技术所存在的缺陷，解决上述技术问题，是本技术领域待解决的难题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种不均衡样本分类方法和装置，结合深度学习和传统机器学习算法优势，将对样本的分类分为模型训练和预测两个步骤，引入“重构误差”，使用变分自编码器的深度学习算法模型分离正负样本，使用传统机器学习算法模型分类小数据量的正样本，引入“临界区”和“正样本分类门限”，在预测阶段可灵活调整分类偏好。

本发明实施例采用如下技术方案：

第一方面，本发明提供了一种不均衡样本分类方法，包括：

进行模型构建与训练：构建并训练变分自编码器网络，计算负样本最大重构误差，并对正样本进行分类模型训练；

预测未知样本所属分类：通过设定临界区上下限以及正样本分类门限来与未知样本的重构误差以及正样本分类概率分布相对比，以预测未知样本所属的分类。

进一步的，所述进行模型构建与训练具体包括：

构建变分自编码器网络并设定损失函数以及重构误差；

对变分自编码器网络进行训练并保存其网络和参数；

将所有负样本输入变分自编码器网络进行重构并计算重构误差，取计算的重构误差最大值作为负样本最大重构误差；

训练所有正样本的分类模型并保存该分类模型及参数。

进一步的，所述变分自编码器网络包括编码器网络和解码器网络，且保存所述变分自编码器网络时，将编码器网络的网络和参数以及解码器网络的网络和参数分别保存。

进一步的，所述设定损失函数以及重构误差具体包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。