[发明专利]对抗文本的生成方法、装置、设备及存储介质有效
申请号: | 202110527819.3 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113204974B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 张超;张子晗;刘明烜;段海新;孙东红;李琦 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杜叶蕊;臧建明 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对抗 文本 生成 方法 装置 设备 存储 介质 | ||
本发明实施例提供一种对抗文本的生成方法、装置、设备及存储介质,该方法包括:获取待处理的文本信息集,其中文本信息集中包括有原始文本;对原始文本进行扰动处理,生成原始文本对应的多个候选文本;对各候选文本进行语义识别处理,根据语义识别处理结果确定原始文本对应的对抗文本,对抗文本用于对目标模型进行训练。本发明实施例能够生成与原始文本的语义相似度高的对抗文本,即得到高质量的对抗文本,进而利用该高质量对抗文本可以对目标模型进行有效的训练,以使训练后的目标模型具有高鲁棒性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种对抗文本的生成方法、装置、设备及存储介质。
背景技术
随着深度学习技术的发展,深度学习模型也面临着各种安全问题,其中,对抗攻击是一个热点问题。在自然语言处理领域,对抗攻击指在原始文本上添加微小的扰动得到对抗文本,通过输入对抗文本使深度学习模型输出一个错误语义标签,而用户却不能察觉对抗文本相较于原始文本在语义上的改动。
为解决这一安全问题,需要使用对抗文本对目标模型进行防御对抗攻击的训练,以使目标模型可以有效抵御外界的对抗攻击。现有技术中,针对中文,采用映射的方式实现对抗文本的生成,即将原始文本中的词语映射到向量空间,得到词向量,在词向量上添加扰动,并将词向量映射回文本格式生成对抗文本。
然而,现有方法中大量的词向量难以映射回文本格式,且生成的对抗文本与原始文本的语义相差较大,对抗文本质量低,导致对抗文本的训练价值较低。
发明内容
本发明实施例提供一种对抗文本的生成方法、装置、设备及存储介质,以解决针对中文,现有技术中生成的对抗文本与原始文本的语义相差较大,对抗文本质量低,进而导致对抗文本的训练价值较低的技术问题。
第一方面,本发明实施例提供一种对抗文本的生成方法,所述方法包括:
获取待处理的文本信息集,其中所述文本信息集中包括有原始文本;
对所述原始文本进行扰动处理,生成所述原始文本对应的多个候选文本;
对各候选文本进行语义识别处理,根据语义识别处理结果确定原始文本对应的对抗文本,所述对抗文本用于对目标模型进行训练。
在一种可能的实施方式中,所述对所述原始文本进行扰动处理,生成所述原始文本对应的多个候选文本,包括:
确定原始文本对应的字词序列,并确定各字词在所述原始文本中的优先级;
根据所述各字词的优先级从各字词中选出待处理字词,并对所述待处理字词进行多种扰动处理;
根据对所述待处理字词的多种扰动处理结果以及当前的原始文本生成所述原始文本对应的多个候选文本。
在一种可能的实施方式中,所述待处理的文本信息集中还包括有目标语义标签以及原始文本对应的真实语义标签,所述目标语义标签与所述真实语义标签不同;
所述对各候选文本进行语义识别处理,根据语义识别处理结果确定原始文本对应的对抗文本,包括:
对各候选文本进行语义识别处理,得到各候选文本的语义标签以及各候选文本的置信度;
根据各候选文本的语义标签,选出语义标签与所述目标语义标签一致的任一候选文本作为所述对抗文本。
在一种可能的实施方式中,所述确定原始文本对应的字词序列,并确定各字词在所述原始文本中的优先级,包括:
确定攻击场景,根据所述攻击场景确定原始文本对应的字词序列;
根据所述攻击场景对应的优先级算法,对所述各字词在所述原始文本中的优先级进行计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110527819.3/2.html,转载请声明来源钻瓜专利网。