[发明专利]一种纵向联邦学习建模方法、装置、设备及计算机介质在审
申请号: | 202110417898.2 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113723621A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 韩雨锦;李怡欣;陈忠;王虎;黄志翔 | 申请(专利权)人: | 京东数字科技控股股份有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨 |
地址: | 100000 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 纵向 联邦 学习 建模 方法 装置 设备 计算机 介质 | ||
本申请公开了一种纵向联邦学习建模方法、装置、设备及计算机可读存储介质,应用于业务方时,获取进行纵向联邦学习建模所需的目标标签;对目标标签进行分解,得到目标子标签;将目标子标签分配给与目标标签对应的各个数据方,以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模;其中,业务方保存有标签,数据方不保存有标签。由于所有的目标子标签集合起来才能全面描述目标标签,所以各个数据方只能借助目标子标签得到特定角度的目标标签信息,而无法得到目标标签的全部信息,避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题,且可以提高建模效率。
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种纵向联邦学习建模方法、装置、设备及计算机介质。
背景技术
随着大数据时代的到来,各个数据源之间存在着难以打破的壁垒,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。为了解决数据的孤岛问题,在两个数据集的用户重叠较多而用户特征重叠较少的情况下,可以把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练,以得到对所有特征进行处理的模型来进行数据处理,也即通过纵向联邦学习的方法进行数据处理。
但是,在纵向联邦学习中,是通过安全多方计算以及密码学来保证建模过程中的隐私安全的,这就需要对各方交互的过程中需要保护的信息进行加密传输,会消耗大量的计算资源与时间,建模效率低。
综上所述,如何提高纵向联邦学习建模的效率是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种纵向联邦学习建模方法,其能在一定程度上解决如何提高纵向联邦学习建模的效率的技术问题。本申请还提供了一种纵向联邦学习建模装置、电子设备及计算机可读存储介质。
第一方面,本申请提供一种纵向联邦学习建模方法,应用于业务方,包括:
获取进行纵向联邦学习建模所需的目标标签;
对所述目标标签进行分解,得到目标子标签;
将所述目标子标签分配给与所述目标标签对应的各个数据方,以使各个所述数据方基于分配的所述目标子标签及所述数据方的本地数据进行纵向联邦学习建模;
其中,所述业务方保存有标签,所述数据方不保存有所述标签。
可选的,所述对所述目标标签进行分解,得到目标子标签,包括:
对所述目标标签分解,得到子标签;
按照归一化幅值降序的排列方式,对所述子标签进行排序,得到排序子标签;
基于能量损失计算方法,确定使得所述目标子标签与所述目标标签相似的子标签数量值;
在所述排序子标签中,选取前所述子标签数量值的所述子标签作为所述目标子标签。
可选的,所述基于能量损失计算方法,确定使得所述目标子标签与所述目标标签相似的子标签数量值,包括:
基于MSE损失计算方法,通过第一计算公式,计算所述排序子标签与所述目标标签的第一损失值;
确定使得所述第一损失值小于第一预设值的所述子标签数量值,所述第一预设值为判定所述目标子标签与所述目标标签相似的临界值;
所述第一计算公式包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股股份有限公司,未经京东数字科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110417898.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种拖把桶
- 下一篇:用于车辆的内侧把手装置