[发明专利]基于遗传算法的对抗卷积神经网络句子相似度计算方法在审
申请号: | 202110295650.3 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112906820A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 黄兴哲;高亚 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 算法 对抗 卷积 神经网络 句子 相似 计算方法 | ||
本发明公开了一种基于遗传算法的对抗卷积神经网络句子相似度计算方法,属于中文自然语言处理领域。针对现有方法缺少对抗样本的检测机制无法实现模型安全性的保证问题。本发明基于遗传算法和对抗卷积神经网络通过设置文本的修改率并与深度学习模型交互的形式来提升句子相似度计算模型的安全性。模型中在生成对抗样本时考虑了文本的同义词,位置信息,改变率等参数。本发明在微软释义语料库上做了大量的实验验证了该方法的有效性,可用于提升句子相似度计算模型的安全性。
技术领域
本发明属于一种算法程序,涉及到文本处理模型的安全机制,主要是句子语义评估模型对抗样本的生成与检测。
背景技术
文本处理模型在经过数据的训练后可以对文本的语义进行识别进而实现大量文本数据的分析,深度学习模型通过预训练的参数根据输入文本的特征完成文本的语义分类任务。然而,对语句进行同义词或者语序的转化来干扰模型输出的结果对深度学习模型的安全性产生了挑战。这类经过了同义词替换或者语序转化的文本被称为对抗样本。在传统的安全增强模型中通过掺杂对抗样本来训练文本处理模型提高模型的安全性。对抗样本的生成大多通过粒子群算法来实现,例如萤火虫算法,蚁群算法等。这种将对抗样本的生成和模型的训练分离开的机制并不能有效地提升模型的安全性,有效增强模型安全性的关键在于对抗样本的质量和文本处理模型对对抗样本特征的学习率。
对抗样本的生成是通过替换原始样本中的单词和语序来实现的,Alzantot等人提出了一种基于遗传算法的文本生成模型,通过遗传算法的交叉、变异和遗传操作,替换原始文本内容,得到对抗样本。该方法通过对文本中的单词进行同义替换来生成对抗文本。然而,在被替换的对抗性例句中存在许多语法错误。另外,这种换词方法不能有效地利用梯度信息产生干扰。对抗样本的关键是如何尽可能减少对语义的影响,欺骗深度学习模型,这需要结合深度学习模型的分类结果来评判。
对抗样本的检测在是由文本分类模型完成的,安全性高的模型可以将对抗样本进行正确的语义评估。Ali等人提出了一种基于对抗训练的文本分类模型,该模型通过改变输入深度学习模型的数据来降低拟合度,提高安全性能。这种方法虽然在一定程度上提高了模型的安全性,但是降低了模型分类的准确性。
不同于现有的方法,我们的模型将对抗样本的生成与深度学习模型的训练结合起来进行交互式的信息反馈从而指导参数向更优的方向训练。模型中使用遗传算法来生成对抗样本,并设置对抗例句的改变率,将训练后的样本输入到对抗卷积神经网络中评估样本的攻击性。为了同时保证样本的攻击性与模型的安全性,我们设置了样本改变率和模型准确率两个阈值,在训练的过程寻找出一组能同时保证样本攻击性和准确率的阈值参数。
发明内容
本发明的目的是解决对抗样本的训练缺少与深度学习模型的交互,模型对样本的识别和判断能力不能被保证的问题。
为了解决以上问题提出了交互式的对抗样本训练与模型安全性增强机制,通过设置阈值参数的形式来保证对抗样本的攻击性和语义评估模型的安全性。其主要技术方案如下:
S1.在遗传算法和深度学习模型中分别通过设置修改率和准确率阈值的形式来保证对抗样本的攻击性和深度学习模型的安全性;
S2.设置语义相似度阈值,使用余弦距离相似度从同义词集合中筛选待替换词的同义词并根据设置的改变率来进行替换;
S3.在传统的卷积神经网络基础上加入了对抗训练和对抗丢失层,使用对抗卷积神经网络来学习对抗样本的原始样本的特征。
其中,基于遗传算法的对抗样本生成首先完成对原始句子的分词并对句子中的动词根据同义词表生成同义词集合,通过余弦距离公式计算待替换词和同义词集合中单词的相似度并根据设置的阈值threshold1进行过滤,相似度大于threshold1的单词被保留,小于threshold1的单词被舍弃,相似度计算公式如下所示。
Sim(i,j)=cos(i,j),j∈syn(word) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110295650.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于计算广告背景下的相似人群拓展方法以及装置
- 下一篇:一种新型升降台