[发明专利]基于循环一致生成对抗网络的不平衡数据分类方法在审
| 申请号: | 202210625335.7 | 申请日: | 2022-06-02 |
| 公开(公告)号: | CN114943300A | 公开(公告)日: | 2022-08-26 |
| 发明(设计)人: | 王利娟;杨绪前 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 侯琼;王品华 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 循环 一致 生成 对抗 网络 不平衡 数据 分类 方法 | ||
本发明公开了一种基于循环一致生成对抗网络的不平衡数据分类方法,主要解决现有技术中分类模型对噪声数据敏感、数据层方法合成样本存在类间重叠以及合成样本特征多样性匮乏的问题。其实现步骤为:1)对原始数据集进行预处理;2)根据预处理后数据构建孪生数据对集;3)设计内部有两组判别器和生成器的循环一致生成对抗网络;4)用孪生数据对集中的数据对网络模型进行迭代训练,合成目标少数类样本数据;5)将目标少数类样本数据增强到原始数据集得到平衡数据集,并用该数据集训练基础分类器,完成分类。本发明能够能够在一定程度上降低分类模型对噪声数据的敏感度,有效提高分类结果准确率、改善分类性能,可用于网络异常检测。
技术领域
本发明属于数据处理技术领域,进一步涉及不平衡数据分类,具体为一种基于循环一致生成对抗网络的不平衡数据分类方法,可用于网络异常检测。
背景技术
数据不平衡问题广泛存在于各种数据驱动的工业场景中。为了从大量数据中提取有价值的信息,人们使用最广泛的数据处理技术是分类方法。不平衡数据分类的目的是通过对不平衡数据进行一定的处理,从而提高分类器的性能。不平衡数据主要存在两种情况,即类内不平衡和类间不平衡。类内不平衡指的是同一类别样本在特征空间上的分布不均衡,而类间不平衡指的是不同类别样本之间在数量上的不均衡。数量较多的类别被称为多数类,数量较少的类别被称为少数类。
目前,不平衡数据分类方法主要分为两个层面,即数据层面和算法层面。数据层面方法在数据预处理阶段实施,直接对不平衡数据进行处理。这种类型的方法通常对多数类进行欠采样以去除冗余,对少数类样本过采样以增加样本数量。之后,使用经过平衡处理的数据训练分类器,优化目标函数获得分类器的模型参数。不同的分类器(如深度神经网络、逻辑回归)使用不同的目标函数。算法层面方法对传统分类器进行改进设计,以减轻分类模型拟合时对多数类样本的偏重,同时强化其对少数类样本特征的学习,进而实现不平衡数据分类。经典不平衡数据分类技术包括合成少数过采样算法SMOTE和自适应提升算法AdaBoost。在不平衡数据分类过程中,首先对用于训练分类器的数据集进行一定的不平衡处理,然后基于平衡处理后的数据集训练分类模型。具体来说,不平衡数据分类主要执行以下三个步骤:1)对训练数据进行单热编码、归一化等预处理操作;2)使用合适的策略对存在类间不平衡的训练数据进行平衡处理;3)使用平衡处理后的数据对分类器进行迭代训练。
现有的不平衡数据分类方法大多基于数据重用,并没有真正实现不平衡样本数据特征空间的扩充,导致分类器对少数类拟合困难。对于不平衡数据分类,亟待出现不仅能够解决常规分类问题,还可以应对不平衡数据给分类任务带来的例如模型预测准确率欠佳、分类边界不稳定、合成样本特征多样性匮乏等新问题的数据分类技术。
发明内容
本发明目的在于针对上述现有技术的不足,提出一种基于循环一致生成对抗网络的不平衡数据分类方法,用于解决现有不平衡数据分类技术中分类模型对噪声数据敏感、数据层方法合成样本存在类间重叠以及合成样本特征多样性匮乏的问题。该方法通过循环一致生成对抗网络合成少数类样本,对少数类样本特征的拆分重组在一定程度上降低了合成样本与多数类样本类间重叠的可能性,增加了少数类样本组合特征的多样性,然后将合成样本增强到原始数据集以实现训练集的平衡处理,从而提高分类器对不平衡数据的分类性能。本发明能够在一定程度上降低分类模型对噪声数据的敏感度,有效提高分类结果准确率、改善分类性能。
实现本发明方法的思路如下:设计由两个生成对抗网络构成,内部有两组判别器和生成器的循环一致生成对抗网络,首先将不同的少数类样本组合成孪生数据对的结构,作为循环一致生成对抗网络的输入数据;接着通过优化原始数据和合成数据之间的对抗损失,以及原始数据和基于合成的恢复数据之间的循环一致损失,来保证整体循环一致生成对抗网络的最优化,从而合成逼真的少数类样本,使得合成的少数类样本具有孪生数据对中不同类别样本的组合特征;然后将合成数据追加到原始数据集中作为分类器的训练集,经过迭代优化分类器,最终实现对不平衡数据的分类。
本发明实现上述目的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210625335.7/2.html,转载请声明来源钻瓜专利网。





