[发明专利]投毒数据识别方法、装置、系统及计算机可读存储介质在审

申请号：	202111286282.2	申请日：	2021-11-02
公开（公告）号：	CN114004297A	公开（公告）日：	2022-02-01
发明（设计）人：	马影;魏国富;周晓勇;夏玉明;刘胜;徐明;王启凡;梁淑云;余贤喆;陶景龙;殷钱安	申请（专利权）人：	上海观安信息技术股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京城烽知识产权代理事务所(特殊普通合伙) 11829	代理人：	王新月
地址：	201803 上海市嘉定***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	投毒数据识别方法装置系统计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种投毒数据识别方法，其特征在于，包括：

获取参照干净数据集D_clean以及初始测试数据集D_target；

将所述初始测试数据集D_target中，原标注标签与数据内容不一致的数据记为标签修改的投毒数据，将所述标签修改的投毒数据从所述初始测试数据集D_target中剔除，得到标准测试数据集D′_target；

根据所述参照干净数据集D_clean，将所述标准测试数据集D′_target中，数据内容添加了扰动或后门触发器的数据标记为标签不变的投毒数据；

删除所述标准测试数据集D′_target中标签不变的投毒数据，得到纯净数据集。

2.根据权利要求1所述的投毒数据识别方法，其特征在于，所述将所述初始测试数据集D_target中，原标注标签与数据内容不一致的数据记为标签修改的投毒数据，包括：

获取干净模型M_c1ean；其中所述干净模型M_clean采用所述参照干净数据集D_c1ean进行模型训练得到；

将所述初始测试数据集D_target输入至所述干净模型M_clean中，得到每个数据的第一预测标签；

将所述第一预测标签与对应的原标注标签不一致的数据的集合记为疑似投毒数据集D_dirty；

识别出所述疑似投毒数据集D_dirty中，原标注标签与数据内容不一致的数据。

3.根据权利要求2所述的投毒数据识别方法，其特征在于，所述根据所述参照干净数据集D_clean，将所述标准测试数据集D′_target中，数据内容添加了扰动或后门触发器的数据标记为标签不变的投毒数据，包括：

将所述标准测试数据集D′_target均分为多个标准测试数据子集；

逐次分别将各标准测试数据子集作为目标标准测试数据子集D′_targeti，执行如下步骤：

获取除所述目标标准测试数据子集D′_targeti外的其它标准测试数据子集，将所述其它标准测试数据子集与所述参照干净数据集D_clean作为训练集进行模型训练，得到所述目标标准测试数据子集D′_targeti对应的疑似毒化模型M_dirtyi；

将所述目标标准测试数据子集D′_targeti输入至对应的疑似毒化模型M_dirtyi中，得到该目标标准测试数据子集D′_targeti中每个数据对应的第二预测标签；

将疑似投毒数据集D_dirty中，每个所述第二预测标签与对应的原标注标签一致的数据，确定为添加了扰动或后门触发器的数据。

4.根据权利要求1所述的投毒数据识别方法，其特征在于，所述获取参照干净数据集D_clean，包括：

获取初始干净数据集D′_clean；

将所述初始干净数据集D′_clean进行数据增强，得到所述参照干净数据集D_clean。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司，未经上海观安信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111286282.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载