[发明专利]基于可解释模型的循环神经网络后门攻击检测方法有效
申请号: | 202010936181.4 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112132262B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 范铭;司梓良;刘烃;魏闻英;魏佳利 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可解释 模型 循环 神经网络 后门 攻击 检测 方法 | ||
本发明公开一种基于可解释模型的循环神经网络后门攻击检测方法,分三步对RNN模型进行抽象并对文本进行后门检测:首先使用机器学习算法对RNN隐藏层向量进行聚类,构建不确定有穷自动机;其次根据构建的不确定有穷自动机,获取文本的状态转移路径,从而计算文本中每个单词的权重;最后基于变异测试的思想,对文本中的后门进行检测。通过以上方法,可以准确地对RNN在文本上的决策做出解释,并准确检测出后门文本。
技术领域
本发明涉及机器学习的可解释性技术领域,特别涉及循环神经网络(RecurrentNeural Network,RNN)的可解释性以及针对文本的后门检测方法。
背景技术
近年来,随着人工智能相关技术的飞速发展,深度神经网络在许多领域得到了广泛应用。然而,其安全性也引起了社会各界的担忧,特别是关于对抗样本与后门攻击技术的研究指出深度神经网络容易受到攻击,这也限制了深度神经网络在自动驾驶、国防等安全相关领域的进一步应用。
为了解释深度神经网络的决策并发现网络中的问题,国内外的研究人员针对卷积神经网络(Convolutional Neural Network,CNN)的可解释性进行了大量的研究,提出了CAM、Grad-CAM等多种解释方法,并且取得了较好的效果。然而,现有的研究主要针对CNN,针对RNN可解释性的研究相对较少,更没有针对RNN的后门检测方法。但不可忽视的是,RNN在自然语言处理、语音识别等任务中扮演着举足轻重的角色。
总的来说,现有RNN的研究存在以下问题:
1)没有针对RNN的解释方法;
2)RNN因其神经元独特的性质,通用的解释方法难以取得好的效果;
3)目前没有针对RNN的后门检测方法。
发明内容
本发明的内容在于提出一种基于可解释模型的循环神经网络后门攻击检测方法,以解决上述技术问题。本方法分三步对RNN模型进行抽象并对文本进行后门检测:首先使用机器学习算法对RNN隐藏层向量进行聚类,构建不确定有穷自动机;其次根据构建的不确定有穷自动机,获取文本的状态转移路径,从而计算文本中每个单词的权重;最后基于变异测试的思想,对文本中的后门进行检测。通过以上方法,可以准确地对RNN在文本上的决策做出解释,并准确检测出后门文本。
为了实现上述目的,本发明采用以下技术方案:
基于可解释模型的循环神经网络后门攻击检测方法,包括如下步骤:
1)、基于聚类算法的RNN模型抽象:
步骤S101:对于文本数据集D和待抽象RNN模型M,将D中的每一条文本输入到M中,提取M中每一时间步的隐藏层向量与输出层向量;对于文本数据集D,生成所有文本的隐藏层向量集H和输出层向量集O;
步骤S102:根据输出层向量集O将隐藏层向量集H划分为一定数目的子集,对每个子集Hi分别使用机器学习算法,并得到Hi的一个划分Si;
步骤S103:将文本数据集D中的每一条文本输入到待抽象模型M中,根据M中每一时间步的隐藏层向量与输出层向量,获得划分Si中分块之间以及划分Si与Sj的分块之间的连接关系R;
2)、基于RNN抽象模型的解释结果生成:
步骤S104:对于文本数据集D中的任一条文本T,根据T的每一单词的隐藏层向量计算其与各分块之间的相似关系,结合分块之间的连接关系R,确定文本T在分块之间的转移关系;
步骤S105:根据文本T中每一个单词在分块之间的转移关系,确定每一个单词的转移权重I;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010936181.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建盏支烧工艺
- 下一篇:一种2-三氟甲基取代的喹唑啉酮衍生物的制备方法