[发明专利]一种联邦学习场景中的数据选择方法在审

专利信息
申请号: 202011464915.X 申请日: 2020-12-14
公开(公告)号: CN112464269A 公开(公告)日: 2021-03-09
发明(设计)人: 张兰;李向阳;李安然 申请(专利权)人: 德清阿尔法创新研究院
主分类号: G06F21/60 分类号: G06F21/60;G06F21/62;G06N20/00
代理公司: 杭州九洲专利事务所有限公司 33101 代理人: 陈琦;陈继亮
地址: 313200 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 联邦 学习 场景 中的 数据 选择 方法
【说明书】:

一种联邦学习场景中的数据选择方法,所述该方法包括过滤出和任务相关的用户和数据、训练前用户选择、训练过程中用户和数据选择、模型训练,本发明采用了向量草图和随机响应机制,用户选择策略高效且带有隐私保护;同时由于采用了server端日志信息来动态选择用户;基于梯度上界值选择数据,以及考虑到错误数据对梯度的影响,数据选择策略高效且准确。

技术领域

本发明涉及的联邦学习场景中的数据选择方法,属于数据分析与数据质量评估领域。

背景技术

如何获取大量的高质量数据集已成为许多机器学习模型和AI应用的常见瓶颈。这不仅是因为收集和标记大量样本非常昂贵,而且还因为隐私问题阻碍了许多领域(例如医学和经济学)的数据共享。联邦学习的出现使得终端用户利用本地数据联合训练网络模型成为可能。在联邦学习过程中,用户本地的数据质量影响全局模型的性能,低质量数据(例如,错误标签数据,非均匀分布的数据)将严重阻碍全局模型取得良好的效果。

本发明旨在一给定预算下,以一种隐私保护的方式为给定的联邦学习任务选择一组高质量的训练样本,从而提高模型的精度和加快模型收敛速度。

针对深度学习中的数据选择已有一系列工作:1)他们提出多种质量指标,例如任务相关性和内容多样性,并对数据样本进行质量指标检测,选择质量分数高的数据参与训练。2)动态选择对模型重要的训练样本,以在训练过程中组成数据batch,以加速模型收敛,通常,重要性分数通过梯度范数或损失值来量化。但他们不能直接用于联邦学习中:1)现有的方法需要直接访问所有训练样本,而在联邦系统中,数据不能被第三方直接访问到。2)直接计算每个样本的重要性对资源有限的参与者造成不可接受的开销。3)现有的方法没有考虑非IID或者错误样本对样本选择策略的影响,并且可能会给错误的样本赋予更高的重要性,从而降低模型性能。

发明内容

本发明的目的在于克服现有技术的不足,提供一种隐私保护的方式为给定的联邦学习任务选择一组高质量的训练样本,从而提高模型的精度和加快模型收敛速度。所述该方法包括过滤出和任务相关的用户和数据、训练前用户选择、训练过程中用户和数据选择、模型训练。

作为优选:任务相关用户和数据过滤为当一FL任务到达时,server首先通过计算每个用户Ck,k∈[K]的标签集Yk={yk|(xk,yk)∈Dk}和目标标签集Y的交集{(xk,yk)|yk∈Yk∩Y},以过滤出拥有目标类别数据的用户。如果相交集中的样本数量超过目标模型的最小数量|{(xk,yk)|yk∈Yk∩Y}|>v,则该用户是相关的,为了满足隐私保护的需求,我们使用隐私保护求交技术(PSI)。

作为优选:训练前用户选择:server使用基于点阵行列式(DPP)算法从相关用户集中进一步选择高质量用户集(用户下标集合Q),以在预算约束B下最大化同质性和内容多样性:max V(Q),s.t.,∑k∈Q,Q∈N′bk≤B.V(Q)是被选中的用户的质量价值。然后,server协调选定的用户以开始训练模型。在该模块中,主要分为以下步骤:

a)基于同质性用户选择:server优先选择那些数据分布均匀且类别不缺失的用户。以同质性为选择用户的指标时,Vμ(Q)=∑k∈Qμk,μk定义为用户k的数据分布和均匀分布之间的差异性,即:为了保护隐私的计算μk,我们利用基于BGN的同态加密的高效安全的两方计算协议,让server和每个用户使用server的公钥共同计算。然后server通过贪婪地选择具有最大的用户,直到预算B用完,找到最佳用户集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011464915.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top