[发明专利]一种大批量对抗样本生成方法及系统在审
申请号: | 202010084808.8 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111275123A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 蒋志文;崔展齐;郑怡亭;胡川 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大批量 对抗 样本 生成 方法 系统 | ||
本发明实施例提供的大批量对抗样本生成方法及系统,包括:抽样构建抽样样本集;基于样本扰动向量的对抗样本生成方法,获取每个抽样样本的扰动向量,以构建扰动样本集;对扰动样本集中的每个扰动样本进行扰动幅度转换,构建扰动幅度集,求取扰动幅度集的平均扰动幅度值;根据扰动幅度集的平均扰动幅度,获取原始样本集的平均扰动幅度值;基于扰动幅度的对抗样本生成方法,根据平均扰动幅度值,获取与原始样本集对应的对抗样本集。本发明提供的大批量对抗样本生成方法及系统,基于抽样获取部分样本的扰动向量并转换为扰动幅度后,快速大批量地生成对抗样本,降低了生成对抗样本的时间,提高了获得对抗样本的效率,以提升深度神经网络模型的鲁棒性。
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种大批量对抗样本生成方法及系统。
背景技术
深度学习是人工智能的一个重要领域,被广泛地运用于计算机视觉等领域,如图像识别和人脸识别等,其安全问题越来越受到研究者的关注。在2018年3月,Uber公司的基于深度学习的自动驾驶汽车在行驶时撞倒一名骑行者并导致后者不治身亡,当时该汽车处于自动驾驶状态,遇到行人后系统并未发车任何减速信号,导致该事故的原因有一部分是深度学习模型的不够健壮。因此,深度学习系统的安全问题越来越受到研究人员的关注。
由于当前技术尚无法解释神经网络内部的原理,以致在分类问题中,神经网络使用高度非线性化的边界来拆分n维空间,使其易受对抗样本的攻击。对抗样本为在机器学习模型的原始输入数据上添加一些人类无法察觉的噪声,引起机器学习模型对原始输入样本的分类输出发生改变。有研究表明,在无人驾驶汽车行驶时需要识别的路标上贴上某种被精心设计好的图片,无人驾驶汽车就可能会发生识别错误,比如:将stop路标识别成了限速80的标志,从而导致自动驾驶汽车做出错误的判断,引发交通事故。
对抗样本不仅能用于检测深度学习的脆弱性,还能用于对深度学习模型进行加固。在训练模型的过程中,如果在数据集中加入扰动过的样本可以构建鲁棒性更好的模型,能有效防御对抗样本的攻击。
然而,上述训练过程需要大量对抗样本的支撑,如何在短时间内生成大量对抗样本是一个急需解决的问题。
发明内容
本发明实施例提供一种大批量对抗样本生成方法及系统,用以克服现有技术在对抗样本生成方法中均无法解决快速生成大批量有效对抗样本的的缺陷。
第一方面,本发明实施例提供一种大批量对抗样本生成方法,包括:
S1:从原始样本集中抽样构建抽样样本集;
S2:基于样本扰动向量的对抗样本生成方法,获抽样样本集中每个抽样样本的扰动向量,以构建扰动样本集;
S3:对扰动样本集中的每个扰动样本进行扰动幅度转换,构建扰动幅度集,并获取扰动幅度集的平均扰动幅度值;
S4:根据扰动幅度集的平均扰动幅度,获取原始样本集的平均扰动幅度值;
S5:基于扰动幅度的对抗样本生成方法,根据原始样本集的平均扰动幅度值,获取与原始样本集对应的对抗样本集。
进一步地,上述步骤S1具体包括:
S11:将原始样本集中的所有样本按照其标签名称划分为多个子数据集;
S12:根据预设抽样比分别对任一所述子数据集进行随机抽样,以构建抽样样本集。
进一步地,上述步骤S2具体包括:
S21:对抽样样本集中任一抽样样本使用基于样本扰动向量的对抗样本生成方法进行样本生成,获取对应的扰动向量;
S22:将任一抽样样本与所述对应的扰动向量配对,添加至扰动样本集;
S23:依次迭代执行步骤S21-S22,直至遍历抽样样本集中每个抽样样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084808.8/2.html,转载请声明来源钻瓜专利网。