[发明专利]归因解释方法的稳定性的确定方法、装置和设备在审
申请号: | 202211066401.8 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115422921A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 张元哲;刘康;赵军;杨朝 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06F40/216;G06N5/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 胡程潇 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 归因 解释 方法 稳定性 确定 装置 设备 | ||
本发明实施例提供一种归因解释方法的稳定性的确定方法、装置和设备,该方法包括:获取样本文本;对样本文本进行文本对抗攻击,得到攻击后的样本文本;分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释,得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值;基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值,确定各个归因解释方法对应的归因值排序发生变化的单词数量;根据归因值排序发生变化的单词数量,确定各个归因解释方法的稳定性。本发明实施例的方法为归因解释方法的衡量和选择提供了合理准确的评价标准,实现了对各个归因解释方法优劣的准确衡量。
技术领域
本发明涉及计算机技术领域,尤其涉及一种归因解释方法的稳定性的确定方法、装置和设备。
背景技术
归因解释方法可以给出输入当中每个特征对模型的对应的贡献大小,可以在一定程度上解释模型的推理过程,因此在近年来得到了很多的关注。
相关技术中,存在多种不同的归因解释方法,但不同的归因解释方法对于同一个模型同一个样例会产生完全不同的解释结果。因此,如何有效的确定各种归因解释方法的优劣,是本领域技术人员亟需关注的问题。
发明内容
针对现有技术中的问题,本发明实施例提供一种归因解释方法的稳定性的确定方法、装置和设备。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种归因解释方法的稳定性的确定方法,包括:
获取样本文本;
对所述样本文本进行文本对抗攻击,得到攻击后的样本文本;
分别对样本文本和所述攻击后的样本文本采用多个归因解释方法进行解释,得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值;
基于所述样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值,确定各个归因解释方法对应的归因值排序发生变化的单词数量;
根据归因值排序发生变化的单词数量,确定各个归因解释方法的稳定性。
进一步地,所述对所述样本文本进行文本对抗攻击,得到攻击后的样本文本,包括:
确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合;
根据所述攻击顺序和各个单词对应的同义词集合,对样本文本进行攻击,得到攻击后的样本文本。
进一步地,所述根据所述攻击顺序和各个单词对应的同义词集合,对样本文本进行攻击,得到攻击后的样本文本各个单词,包括:
对各个单词对应的同义词集合中的各个同义词进行打分,得到各个同义词的打分结果;
根据所述攻击顺序和各个单词对应的所述同义词的打分结果,对样本文本进行攻击。
进一步地,所述对各个单词对应的同义词集合中的各个同义词进行打分,得到各个同义词的打分结果,包括:
根据样本文本中的各个单词的同义词,对样本文本中的单词进行替换,得到各个目标文本;所述目标文本包括所述所述同义词;
分别对样本文本和所述目标文本采用归因解释方法进行解释,得到样本文本中各个单词的归因值以及目标文本中各个单词的归因值;
根据所述样本文本中各个单词的归因值及各个目标文本中各个单词的归因值,确定各个同义词对应的各个目标文本中归因值排序发生变化的单词数量;
根据各个目标文本中归因值排序发生变化的单词数量,对各个同义词进行打分,得到各个同义词的打分结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211066401.8/2.html,转载请声明来源钻瓜专利网。