[发明专利]一种基于WGAN训练收敛的不平衡数据集分析方法在审

专利信息
申请号: 202110736686.0 申请日: 2021-06-30
公开(公告)号: CN113537313A 公开(公告)日: 2021-10-22
发明(设计)人: 许艳萍;裘振亮;章霞;叶挺聪;仇建;张桦;吴以凡;张灵均;陈政 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨舟涛
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 wgan 训练 收敛 不平衡 数据 分析 方法
【说明书】:

发明公开了一种基于WGAN训练收敛的不平衡数据集分析方法,针对不平衡数据集中的少类样本构建包含生成器和判别器的WGAN模型。生成器生成数据,再利用判别器对生成的新数据和原始数据进行判断,进而将判别结果以代价的形式反馈给生成器,使生成器生成与原始数据更相近的新数据。在WGAN模型训练过程中,生成器和判别器交替训练,每一轮以判别器的代价函数收敛作为生成器和判别器训练平衡的纳什均衡点,指导生成器和判别器的训练更替。本发明提出的基于WGAN训练收敛的不平衡数据集分析方法,可以通过生成大量少类样本,与原始样本融合,实现数据集的平衡,当基于浅层机器学习算法对数据分类时,实现对原始少类数据的高效正确检测。

技术领域

本发明属于数据分析处理领域,涉及网络安全大数据分析和建模,具体涉及一种基于WGAN训练收敛的不平衡数据集分析方法。

背景技术

在网络空间中,通过多种途径获取的数据集通常是不平衡的,即数据集中包含的各个类别的样本数目不同,如网络入侵检测中,大部分情况下都是正常访问流量,异常流量出现的情况较少;应用软件中,良性应用的数目要远远多于恶意应用的数目,而恶意应用一旦因为应用不当而广泛传播,将会给用户带来无法估计的损失。不平衡的数据集很常见,在使用数据挖掘算法和机器学习算法进行分析时,通常会产生很多问题,如少类样本数量较少,不利于分类器的学习和训练,以至于对训练集中的少类样本分类精度较差;在分类边界上分布较少的少类样本,造成分类面向少类样本偏离,使得少类样本的误分概率较大;当少类样本数量极少,又被分类器划分到更多子空间时,容易被当作噪声数据抛弃,进而形成数据碎片。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,我们将深度学习技术应用于处理网络安全不平衡数据集,实现网络安全数据分类,提高网络数据中占少类的威胁检测。

对抗生成网络GAN是一个典型的深度生成式模型,其设计灵感来自于博弈论,一般由生成器和判别器两个神经网络构成,生成器用于尽量生成与真实数据相近的新数据去欺骗判别器,判别器的目标是尽量辨别出生成器生成的假数据和真实数据。通过对抗方式进行多次训练,最后得到一个性能优异的生成器。但是,GAN存在训练不稳定、梯度消失、模式崩溃的问题,为了解决这些问题,WGAN被提了出来,成功地对GAN进行了改进,表现为四点:(1)判别器的最后一层网络模型去掉Sigmoid;(2)生成器和判别器的损失函数不取对数;(3)判别器参数更新的过程中对损失函数值做截断;(4)不使用基于动量的优化算法。但是,不管是GAN,还是WGAN都没有考虑的一点是在训练过程中,对抗式生成网络存在训练不平衡的问题,如果判别器训练得太好,生成器就无法得到足够的梯度继续优化,而如果判别器训练得太弱,指示作用不显著,同样不能让生成器进行有效的学习。这样一来,判别器的训练次数就非常难把控。

发明内容

针对现有技术的不足,本发明提出了一种基于WGAN训练收敛的不平衡数据集分析方法,使用WGAN模型,利用生成器生成与原始的少类样本相似的新样本后,与原样本进行融合形成新的数据集,再输入浅层机器学习算法中进行分类,改善因样本不平衡导致的分类错误。在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练,平衡判别器的指示作用与生成器的有效学习。

一种基于WGAN训练收敛的不平衡数据集分析方法,具体包括以下步骤:

步骤一、数据采集与预处理

采集网络安全数据,按照类别标签将网络安全数据分割成多类数据子集和少类数据子集,并计算两个子集间的不平衡度与过采样率,根据过采样率确定生成少类数据的数量。

步骤二、构建WGAN模型

构建包含生成器和判别器的WGAN模型,将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中,生成符合要求数量的新的少类数据。

步骤三、训练WGAN模型

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110736686.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top