[发明专利]针对文本分类器的自然对抗样本生成方法及相关装置有效
申请号: | 202110884051.5 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113326356B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 张华;高浩然;杨兴国;涂腾飞;王华伟;秦素娟;高飞 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 王刚 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 文本 分类 自然 对抗 样本 生成 方法 相关 装置 | ||
本公开提供一种针对文本分类器的自然对抗样本生成方法及相关装置,将文本样本所对应的离散向量映射到连续空间中,并利用梯度在连续空间中寻找通用扰动,并通过控制噪声的更新阈值来进一步平衡攻击率和自然性之间的关系。通过这种通用扰动生成对抗样本,能够保证样本集中任意样本添加通用扰动后,均具有良好的自然语言特性,并保持了与原始样本高度的相似性,由此高效和准确的实现了针对文本分类器的自然对抗样本的生成。
技术领域
本公开涉及对抗样本技术领域,尤其涉及一种针对文本分类器的自然对抗样本生成方法及相关装置。
背景技术
对抗样本目前在计算机视觉领域已经有了比较深入的研究和比较广泛的应用。例如,可以通过在图像输入上加入精心设计的扰动,使得接收该输入的模型产生完全错误的输出,而这一扰动本身却非常微小,甚至对于人眼是不可见的。
对抗样本产生作用往往意味着模型使用了不鲁棒的特征,这会使得模型本身也不鲁棒。对抗训练通过数据增强的方式,将对抗样本按比例掺入训练集中,在新的数据集上训练得到的模型不再使用这些不鲁棒的特征,从而会使得模型的鲁棒性更强。
如何在自然语言处理任务上有效地构建对抗样本在目前而言还存在诸多挑战。首先,由于句子空间是离散的,沿梯度方向进行扰动的难度很高,梯度方向代表了最有效的扰动方向,无法有效地利用梯度就无法高效地生成对抗样本;其次,增删改字词的操作难以保证句子的通顺性。也就是说,现有技术中想要将对抗样本应用在自然语言处理领域中,具有梯度难以利用和句子的通顺性难以保障的问题。
发明内容
有鉴于此,本公开的目的在于提出一种针对文本分类器的自然对抗样本生成方法及相关装置。
基于上述目的,本公开提供了一种针对文本分类器的自然对抗样本生成方法,包括:
获取目标文本分类器所对应的文本样本;
生成所述文本样本对应的第一离散向量,并生成所述第一离散向量对应的连续向量;
对所述连续向量进行降维,生成所述连续向量对应的潜在向量;
响应于确定当前迭代次数为一,利用正态分布随机获取噪声;响应于确定当前迭代次数不为一,获取上一次迭代生成的所述噪声;
将所述噪声添加至所述潜在向量中,生成所述潜在向量对应的第一连续空间向量;
对所述第一连续空间向量进行升维至与所述连续向量的维度相同,生成所述第一连续空间向量对应的第二连续空间向量;
生成所述第二连续空间向量对应的第二离散向量;
利用所述目标文本分类器对所述第二离散向量进行文本分类,获得所述第二离散向量对应的类别结果,并将所述类别结果与所述文本样本对应的预设类别结果的交叉熵作为损失;
响应于确定当前迭代次数小于最大迭代次数,计算所述损失对于所述噪声的求导结果,并将所述噪声与所述求导结果的和作为当前迭代生成的所述噪声以用于下一次迭代;
响应于确定所述当前迭代次数等于所述最大迭代次数,针对各次迭代分别对应的所述损失,获取最大的所述损失对应的所述第二离散向量,作为所述文本样本对应的所述自然对抗样本。
基于同一发明构思,本公开提供了一种针对文本分类器的自然对抗样本生成装置,包括:
文本样本获取模块,被配置为获取目标文本分类器所对应的文本样本;
连续向量生成模块,被配置为生成所述文本样本对应的第一离散向量,并生成所述第一离散向量对应的连续向量;
潜在向量生成模块,被配置为对所述连续向量进行降维,生成所述连续向量对应的潜在向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110884051.5/2.html,转载请声明来源钻瓜专利网。