[发明专利]基于自适应调整权重的数据隐私保护方法及系统在审
| 申请号: | 202210798075.3 | 申请日: | 2022-07-06 |
| 公开(公告)号: | CN115495771A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 陈益强;何雨婷;杨晓东;于汉超 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06V10/764;G06V10/774;G06N3/04;G06N3/08;G06N20/00;G06Q10/04 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;陈思远 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自适应 调整 权重 数据 隐私 保护 方法 系统 | ||
本发明提出一种基于自适应调整权重的数据隐私保护方法和系统,解决了面向非独立同分布数据带来的模型性能下降和收敛速度变慢的问题,属于联邦学习应用技术领域。包括:在每一轮联邦通信开始时,服务器端利用辅助数据集评估全局模型类别层面的可信度,将可信度矩阵和全局模型参数下发到参与该轮联邦的客户端中;客户端根据本地私有数据集评估全局模型样本层面的可信度,进行知识蒸馏时利用类别可信度和样本可信度进行加权,动态指导本地模型的训练过程,并上传更新后的本地模型参数至服务器端;服务器端加权聚合各本地模型参数更新全局模型。
技术领域
本发明涉及联邦学习和数据安全技术领域,基于客户端选择性知识蒸馏的联邦学习方法及系统。
背景技术
传统的机器学习技术已经被成功应用到了计算机视觉、自然语言处理、推荐系统和自动控制等领域。随着人工智能在各行各业的应用落地,人们对于用户隐私和数据安全的关注度也在不断提高。各国也都在不断加强对数据安全和隐私的保护,例如欧盟2018年正式出台了《通用数据保护条例》(General Data Protection Regulation,GDPR),我国2021年通过了《中华人民共和国个人信息保护法》。由于这些法律法规的隐私保护限制,使得医疗、企业、军事等领域的数据呈现孤岛分布。近年兴起的联邦学习(FederatedLearning,FL)通过传输模型参数而非原始数据,实现了多方数据的安全共享。一方面,数据不出本地可以很好地保护用户隐私和数据安全;另一方面,联合训练能够充分感知各个客户端的本地私有数据,解决数据孤岛问题。
不同用户、设备和机构等参与客户端所在的环境是天然异质的,导致联邦学习中的数据是非独立同分布(Non-independent and identically distributed,Non-IID)的。Non-IID一直是联邦学习领域中亟待解决的前沿热点问题,其中标签分布偏移在联邦学习的实际应用场景中尤为显著。客户端的数据异构性会导致其本地训练的时候严重偏移全局目标,造成更新过程的分歧(Weight Divergence)。因此联邦学习数据Non-IID的研究挑战之一在于约束各个客户端本地训练过程中的模型更新方向,从本地私有数据中学习知识的同时保留全局模型的知识。现有技术通过在本地损失函数中添加修正项,使得本地更新过程不过分偏离全局模型。其中修正项使用本地模型减去上一轮的全局模型的L2距离进行计算。在一个完整的数据集上训练的全局模型比在一个倾斜的子集上训练的本地模型能够学习到更好的表示。基于此,在本地损失函数中添加一个对比学习损失项,以达到减小本地模型学习到的表示与全局模型学习到的表示之间的距离,增大本地模型学习到的表示与前一个本地模型学习到的表示之间的距离的目的。还可以采用可塑权重巩固(Elastic WeightConsolidation,EWC)方法消除联邦学习中的灾难性遗忘问题,通过在本地损失函数中添加一个惩罚项,阻碍本地模型在全局任务上的模型重要参数的变化。
上述研究方法都是利用全局模型约束客户端本地模型的更新方向,防止更新后的本地模型和全局模型差异太大。但是这些工作都存在以下两个方面的缺陷:一方面,这些工作不能自适应的调整本地目标函数中的修正项和任务损失项之间的权重。若修正项的权重过大会导致该轮联邦无法学习到新知识,而过小又会导致优化方向偏移全局目标,因此需要非常仔细的调整该权重才能朝着理想的最优模型优化,尝试权重的过程会耗费大量时间和精力。另一方面,这些工作没有考虑到性能较差的全局模型会误导本地模型的更新方向朝着错误的方向优化,尤其针对没有参与上一轮联邦的客户端。因为每一轮参与联邦的客户端是动态变化的,并且客户端的数据是非独立同分布的,导致聚合得到的全局模型在不同类别上的表征能力不同。在联邦学习的开始阶段,全局模型还没有学习到一个很好的表示,此时本地模型训练时应该更注重从本地私有数据中学习知识而非保留全局知识。而在联邦通信中后期,全局模型在特定类别上的表现优于本地模型,本地模型应从类别层面和样本层面选择性的保留全局知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210798075.3/2.html,转载请声明来源钻瓜专利网。





