[发明专利]一种模型攻击的防御方法及装置有效
申请号: | 201911193975.X | 申请日: | 2019-11-28 |
公开(公告)号: | CN110889117B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 翁海琴;薛峰;宗志远 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 攻击 防御 方法 装置 | ||
本说明书提供一种模型攻击的防御方法及装置。所述方法包括:当集成模型被调用时,获取所述集成模型中各个子模型输出的子预测结果;判断所述调用是否符合攻击调用;若所述调用符合攻击调用,则采用预设的防御输出策略,基于所述各个子模型输出的子预测结果确定出所述集成模型的预测结果并输出。上述方案可有效防御成员推测攻击、对抗样本攻击等模型攻击,避免用户隐私泄露,保护用户个人数据的安全。
技术领域
本说明书涉及人工智能领域,尤其涉及一种模型攻击的防御方法及装置。
背景技术
随着人工智能技术的不断发展,机器学习即服务(Machine Learning as aService,MLaaS)已广泛应用于互联网公司的云平台服务中,例如Google的预测API、亚马逊机器学习(AmazonML)、MicrosoftAzure机器学习(Azure ML)等等。
MLaaS依赖于机器学习模型为用户提供服务,随着机器学习模型的不断发展与完善,针对模型的攻击也越来越多,例如:成员推测攻击、对抗攻击等,这些攻击会对机器学习模型的安全性造成巨大威胁。
以成员推测攻击为例,攻击者会利用模型在训练集和测试集上表现的差异,推测模型的训练集,即推测模型在训练过程中是否使用了某个特定的样本。例如,某公司线上部署了一个训练好的模型,攻击者可以通过成员推测攻击,推测模型的训练集,进而根据推测得到的训练集进一步推测模型的结构、模型参数等数据,威胁了模型的安全。当模型的样本涉及用户的隐私数据时,攻击者还能利用推测得到的训练集样本,推测用户的隐私,导致用户的个人数据泄露。
发明内容
有鉴于此,本说明书提供一种模型攻击的防御方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种模型攻击的防御方法,包括:
当集成模型被调用时,获取所述集成模型中各个子模型输出的子预测结果;
判断所述调用是否符合攻击调用;
若所述调用符合攻击调用,则采用预设的防御输出策略,基于所述各个子模型输出的子预测结果确定出所述集成模型的预测结果并输出。
一种模型攻击的防御装置,包括:
获取模块,当集成模型被调用时,获取所述集成模型中各个子模型输出的子预测结果;
判断模块,判断所述调用是否符合攻击调用;
防御输出模块,若所述调用符合攻击调用,则采用预设的防御输出策略,基于所述各个子模型输出的子预测结果确定出所述集成模型的预测结果并输出。
本说明书的一个实施例实现了当集成模型被调用时,可以获取集成模型内的各个子模型输出的子预测结果,判断该调用是否符合攻击调用,若符合,则采用预设的防御输出策略,从各个子预测结果中选择置信度较低的预测结果作为集成模型的预测结果并输出。
通过上述方法,攻击者获取到的输出结果为置信度较低的预测结果。对于成员推测攻击,可降低攻击者基于预测结果推测出模型的训练集的概率,达到防御成员推测攻击的效果。对于对抗攻击,可降低攻击者基于预测结果构建出对抗样本的概率,达到防御对抗攻击的效果。对于模型的样本涉及用户隐私的情况,还能防止用户个人信息泄露。
附图说明
图1是本说明书一示例性实施例示出的一种模型攻击的防御方法的流程示意图;
图2是本说明书另一示例性实施例示出的一种模型攻击的防御方法流程示意图;
图3是本说明书另一示例性实施例示出的一种模型攻击的防御方法流程示意图;
图4是本说明书另一示例性实施例示出的一种用于模型攻击的防御装置的一结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911193975.X/2.html,转载请声明来源钻瓜专利网。