[发明专利]一种联邦学习场景中的数据选择方法在审

专利信息
申请号: 202011464915.X 申请日: 2020-12-14
公开(公告)号: CN112464269A 公开(公告)日: 2021-03-09
发明(设计)人: 张兰;李向阳;李安然 申请(专利权)人: 德清阿尔法创新研究院
主分类号: G06F21/60 分类号: G06F21/60;G06F21/62;G06N20/00
代理公司: 杭州九洲专利事务所有限公司 33101 代理人: 陈琦;陈继亮
地址: 313200 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 联邦 学习 场景 中的 数据 选择 方法
【权利要求书】:

1.一种联邦学习场景中的数据选择方法,其特征在于所述该方法包括过滤出和任务相关的用户和数据、训练前用户选择、训练过程中用户和数据选择、模型训练。

2.根据权利要求1所述的联邦学习场景中的数据选择方法,其特征在于所述任务相关用户和数据过滤为当一FL任务到达时,server首先通过计算每个用户Ck,k∈[K]的标签集Yk={yk|(xk,yk)∈Dk}和目标标签集Y的交集{(xk,yk)|yk∈Yk∩Y},以过滤出拥有目标类别数据的用户。如果相交集中的样本数量超过目标模型的最小数量|{(xk,yk)|yk∈Yk∩Yv,则该用户是相关的,为了满足隐私保护的需求,我们使用隐私保护求交技术(PSI)。

3.根据权利要求1所述的联邦学习场景中的数据选择方法,其特征在于所述训练前用户选择:server使用基于点阵行列式(DPP)算法从相关用户集中进一步选择高质量用户集(用户下标集合Q),以在预算约束B下最大化同质性和内容多样性:maxV(Q),s.t.,∑k∈Q,Q∈N′bk≤B.V(Q)是被选中的用户的质量价值。然后,server协调选定的用户以开始训练模型。在该模块中,主要分为以下步骤:

a)基于同质性用户选择:server优先选择那些数据分布均匀且类别不缺失的用户。以同质性为选择用户的指标时,Vμ(Q)=∑k∈Qμk,μk定义为用户k的数据分布和均匀分布之间的差异性,即:

为了保护隐私的计算μk,我们利用基于BGN的同态加密的高效安全的两方计算协议,让server和每个用户使用server的公钥共同计算。然后server通过贪婪地选择具有最大的用户,直到预算B用完,找到最佳用户集合。

b)基于多样性用户选择:server选择那些数据内容多样的用户参与模型训练。以内容多样性为选择用户的指标时,V(Q)=ρ(D),D∪k∈QDk,其中S(vi,vj)是计算用户Ci,Cj间的相似性函数,比如欧式距离。Server贪婪地选择与当前用户集相似性最低的下一个用户。

为了计算数据集的内容多样性,首先需要提取数据的特征向量表达,我们使用深度学习模型提取特征,比如使用VGG-16网络提取图片的内容特征向量,然后去计算该用户所有数据的内容多样性。当该用户的数据量M较大,且特征向量维度l较高时,计算内容多样性开销很大O(M2l),同时现有的计算方法需要直接接触到原始数据,因此我们提出了一种高效的隐私保护的内容多样性计算方法,该方法通过基于JL变换的低维向量来构建每个用户数据集的特征,并使用随机响应机制保护每个样本的隐私,主要分为以下步骤:

i.构建数据集内容草图:用户Ck本地生成内容特征向量φk={φk,i|i∈[Uk]},然后server选择一个映射矩阵w将φk映射为一低维向量h(φk,i)=sign(w·φk,i)。这种映射造成的失真降低了多样性的准确性,但一定程度上保护了用户映射向量的隐私,数据集DK的内容向量草图是

ii.随机响应机制:为了进一步保护每个数据存在性的隐私,我们使用了随机响应机制来产生向量草图h(φk,i)的扰动向量表示以的概率为1,以的概率为0,并以1-f的概率为f是用户自定义的控制隐私程度的参数。然后用户使用扰动向量生成扰动草图并把发送给server,server使用扰动草图向量计算相似性并计算内容多样性至此,server计算内容多样性的开销降低了若干数量级,并且保护了用户的数据隐私。

C)基于点阵行列式用户选择:当同时考虑同质性和多样性时,用户选择问题被转化成DPP问题。用户Ci的同质性分数是μi,和用户Cj的相似性是Sij,我们定义一半正定矩阵A[N′]=[Aij]i,j∈[N′],Aij=uiujSij,那么用户被选中的概率当同质性增加而相似性降低时,行列式增加,因此,基于DPP的选择倾向于选择具有均匀分布类别的用户,同时避免内容高度相似的用户。价值函数SQ=[Sij]i,j∈Q.我们将用户选择问题转化成log-子模问题,迭代地选中最大化PA(Q∪{k})的用户Ck

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011464915.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top