[发明专利]一种主动安全增量数据训练方法在审
申请号: | 201910859405.3 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110610208A | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 张吉昕;秦拯;黄小凤;胡玉鹏;张吉良;蒋孜博 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/66;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增量数据 样本 安全性验证 动态训练 攻击检测 决策边界 主动安全 主动学习 重训练 对抗 更新 | ||
本发明涉及一种主动安全增量数据训练方法。其发明内容主要包括(1)基于主动学习的增量数据重训练方法;(2)基于对抗样本攻击检测的模型安全性验证方法。基于上述方法,动态训练新增样本、更新模型,扩大模型决策边界的同时,确保模型的稳定性。
技术领域
本发明涉及机器学习领域,一种主动安全增量数据训练方法。
背景技术
近几年,随着以机器学习为代表的人工智能技术的快速发展,机器学习等人工智能技术广泛应用至各领域,如计算机视觉、自然语言处理、安全、金融等领域。机器学习方法通过训练大量数据拟合逼近现实世界数据规律的模型,并基于该模型对现实世界数据规律进行预测。机器学习方法主要分为有监督学习方法、无监督学习方法、强化学习方法、集成学习方法等。其中,有监督学习方法通过对有标签的数据进行训练,优点在于模型准确性高,缺点主要体现在需要大量被标记的数据;无监督学习方法仅训练无标签的数据,优点在于无需标记数据,缺点在于模型准确性不足;强化学习方法通过优化策略搜索解空间,优点在于无需训练数据,缺点在于搜索时间较长且针对目标设计的回报函数对结果影响较大;集成学习方法通过集成多个弱分类器形成一个强分类器,优点在于可以增强原有模型的准确性,缺点在于难以训练时间较长。
虽然上述机器学习方法已得到广泛应用且取得一定效果,然而仍然存在一些问题有待改善:一方面,鉴于有监督学习方法,特别是基于神经网络的深度学习方法具备高准确性的特点,该类方法已成为当前最主流的机器学习方法之一,但该类方法需要大量有标签的数据进行训练,限制了该方法的发展。另一方面,基于神经网络的深度学习方法可以被少量错误标记的样本进行对抗样本攻击,造成原本训练出的模型准确性急剧降低。
发明内容
本发明旨在解决神经网络中有标签样本量较少的问题以及被错误标记的对抗样本攻击的问题。
为此,本发明提出了一种主动安全增量数据训练方法,主要包括两部分内容:
(1)基于主动学习的增量数据重训练方法;
(2)基于对抗样本攻击检测的模型安全性验证方法。
具体内容如下:
采用方法(1)对增量数据进行重训练,实现增量数据动态训练;同时采用方法(2)检测对抗样本攻击,确保模型在动态训练过程中的稳定性;结合方法(1)和方法(2),实现神经网络算法在仅有少量标记样本情况下的安全增量训练。具体算法如下:
(1)基于主动学习的增量数据重训练方法。
基于有标签的初始训练样本集合X={x1,x2,....,xn}及其标签集合Y={y1,y2,....,yn},采用神经网络算法根据权重更新公式进行有监督训练,得到初始训练模型NeuNet(<X,Y>)。其中,Loss是损失函数,如均方误差或交叉熵损失Loss=-y·logh(w·x)-(1-y)·log(1-h(w·x))。
复制初始训练模型NeuNet(<X,Y>),即原模型,得到原模型副本NeuNetCopy(<X,Y>)。基于该模型对新增无标签训练样本X'={x1',x2',....,xn'}根据公式Conf=NeuNetCopy(X')计算置信度,置信度值域范围为[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910859405.3/2.html,转载请声明来源钻瓜专利网。