[发明专利]一种纵向联邦学习建模方法、装置、设备及计算机介质在审

申请号：	202110417898.2	申请日：	2021-04-19
公开（公告）号：	CN113723621A	公开（公告）日：	2021-11-30
发明（设计）人：	韩雨锦;李怡欣;陈忠;王虎;黄志翔	申请（专利权）人：	京东数字科技控股股份有限公司
主分类号：	G06N20/20	分类号：	G06N20/20
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王雨
地址：	100000 北京市大兴区经济***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种纵向联邦学习建模方法装置设备计算机介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种纵向联邦学习建模方法、装置、设备及计算机可读存储介质，应用于业务方时，获取进行纵向联邦学习建模所需的目标标签；对目标标签进行分解，得到目标子标签；将目标子标签分配给与目标标签对应的各个数据方，以使各个数据方基于分配的目标子标签及数据方的本地数据进行纵向联邦学习建模；其中，业务方保存有标签，数据方不保存有标签。由于所有的目标子标签集合起来才能全面描述目标标签，所以各个数据方只能借助目标子标签得到特定角度的目标标签信息，而无法得到目标标签的全部信息，避免了因加密目标标签进行传输带来的计算资源与时间消耗大的问题，且可以提高建模效率。

技术领域

本申请涉及信息处理技术领域，更具体地说，涉及一种纵向联邦学习建模方法、装置、设备及计算机介质。

背景技术

随着大数据时代的到来，各个数据源之间存在着难以打破的壁垒，例如在基于人工智能的产品推荐服务中，产品销售方拥有产品的数据、用户购买商品的数据，但是没有用户购买能力和支付习惯的数据。在大多数行业中，数据是以孤岛的形式存在的，由于行业竞争、隐私安全、行政手续复杂等问题，即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力，在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的，或者说所需的成本是巨大的。为了解决数据的孤岛问题，在两个数据集的用户重叠较多而用户特征重叠较少的情况下，可以把数据集按照纵向(即特征维度)切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练，以得到对所有特征进行处理的模型来进行数据处理，也即通过纵向联邦学习的方法进行数据处理。

但是，在纵向联邦学习中，是通过安全多方计算以及密码学来保证建模过程中的隐私安全的，这就需要对各方交互的过程中需要保护的信息进行加密传输，会消耗大量的计算资源与时间，建模效率低。

综上所述，如何提高纵向联邦学习建模的效率是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种纵向联邦学习建模方法，其能在一定程度上解决如何提高纵向联邦学习建模的效率的技术问题。本申请还提供了一种纵向联邦学习建模装置、电子设备及计算机可读存储介质。

第一方面，本申请提供一种纵向联邦学习建模方法，应用于业务方，包括：

获取进行纵向联邦学习建模所需的目标标签；

对所述目标标签进行分解，得到目标子标签；

将所述目标子标签分配给与所述目标标签对应的各个数据方，以使各个所述数据方基于分配的所述目标子标签及所述数据方的本地数据进行纵向联邦学习建模；

其中，所述业务方保存有标签，所述数据方不保存有所述标签。

可选的，所述对所述目标标签进行分解，得到目标子标签，包括：

对所述目标标签分解，得到子标签；

按照归一化幅值降序的排列方式，对所述子标签进行排序，得到排序子标签；