[发明专利]基于多方高维数据纵向联邦学习的商业信息推荐方法及装置在审
申请号: | 202210368272.1 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114677200A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 钱鹰;莫昊恂;刘歆;陈奉;宋阳;熊炜;陈雪;杨世利 | 申请(专利权)人: | 重庆邮电大学;宋阳;熊炜;陈雪;杨世利 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F16/9535;G06F16/958;G06F21/60;G06N20/10 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多方 数据 纵向 联邦 学习 商业信息 推荐 方法 装置 | ||
1.一种基于多方高维数据纵向联邦学习的商业信息推荐方法,其特征在于:包括以下步骤:
S1:创建同态加密的密钥对,进行多方数据的预处理和加密样本对齐,所述多方数据为标签方A方、客户方B方、客户方C方和协作方P方的己方存在且不能被他方知晓的商业隐私数据;
S2:构建纵向联邦LightGBM模型;
S3:将纵向联邦LightGBM模型转换成神经网络,作为纵向联邦ECA-DeepGBM模型的GBDT2NN部分;
S4:纵向联邦ECA-DeepGBM模型CatNN部分前馈过程计算;
S5:构建损失函数,训练高维数据分类预测模型,基于训练好的高维数据分类预测模型,实现商业信息分类推荐。
2.根据权利要求1所述的基于多方高维数据纵向联邦学习的商业信息推荐方法,其特征在于:步骤S1具体包括以下步骤:
S11:协作方P方生成同态加密的公钥pk,私钥sk,并将公钥pk发送给标签方A方、客户方B方、客户方C方;各方的所述商业隐私数据包括:A方拥有已有商业信息的标签,也是推荐需求方;B方拥有个人或企业的部分商业信息,以及B方应用场景中的其他相关数据;C方拥有个人或企业的基本信息;
S12:建立以扩充样本特征维度为目的多方纵向联邦学习分类预测样本集,用于商业信息分类推荐:使用基于加密的样本对齐技术,确保A方、B方与C方在不暴露各自原始数据的情况下就对齐共同用户;
S13:客户方B方、客户方C方将己方样本的特征进行预处理,客户方B方将己方特征拆分成连续的数值特征与离散的类别特征客户方C方将己方特征拆分成连续的数值特征与离散的类别特征将数值特征作为己方模型的GBDT2NN部分的输入,类别特征作为己方模型的CatNN部分的输入。
3.根据权利要求1所述的基于多方高维数据纵向联邦学习的商业信息推荐方法,其特征在于:步骤S2具体包括以下步骤:
S21:客户方B方与客户方C方将连续的数值特征作为共同输入进行纵向联邦LightGBM的训练:客户方B方、客户方C方通过互斥特征捆绑来得到处理后的新的数据集
S22:标签方A方通过真实标签和已训练的决策树的预测值来计算每个样本损失函数的一阶导数gi和二阶导数hi的信息,i∈{1,2,3,…,Y},其中Y为样本的个数,损失函数采用交叉熵损失函数,然后通过同态加密后传输给其他持有特征的客户方;
S23:客户方B方、客户方C方接受到加密后的一阶导数[[gi]]和二阶导数[[hi]]后,根据己方数据集xEFB里的所有特征,将每个特征对应的特征值按百分比分割进行分桶,并得到每个特征每一个桶里样本的一阶导数[[gi]]与二阶导数[[hi]]的之和,[[Gi]]与[[Hi]],之后将[[Gi]]与[[Hi]]发送给标签方A方,[[*]]表示对数据进行了同态加密;
S24:标签方A方得到客户方B方、客户方C方传递的聚合加密梯度{[[Gi]],[[Hi]]}后,进行相应的解密操作,得到每一个桶的聚合值,然后通过最大化找到相应的最优分割点,其中λ表示L2正则项的系数,Gl表示小于等于分裂阈值v的所有桶相加得到的一阶导数之和,Gr表示大于分裂阈值v所有桶相加得到的一阶导数之和,G表示当前结点的所有样本的一阶导数之和,Hl表示小于等于分裂阈值v的所有桶相加得到的二阶导数之和,Hr表示大于分裂阈值v所有桶相加得到的二阶导数之和,H当前结点的所有样本的二阶导数之和;遍历每一个桶对应的特征值作为分界点,能够得到当前特征的score最大值;遍历所有特征,得到全局最大化score的对应的分裂的特征k、最优分裂的阈值点v;
S25:拥有最优分裂点特征的客户方保存分裂的阈值点v、用于分裂的特征k,然后对当前树结点的样本空间进行划分,通过特征k的分裂的阈值点v来划分成左右两个子数据集,并将划分后新的结点的样本空间结果发送给其他客户方以及标签方A方,进行样本空间的同步,同时该客户方返回所属客户方信息给标签方A方,用于记录在哪一个客户方的特征进行了结点分裂;
S26:标签方A方将当前叶子结点分裂成两个新的叶子结点,将叶子结点索引与叶子结点样本空间中样本的id进行记录,用于将梯度提升树转换成神经网络;迭代步骤S22-S26,进入对下一个叶子结点分割的选择,直到达到LightGBM训练的终止条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;宋阳;熊炜;陈雪;杨世利,未经重庆邮电大学;宋阳;熊炜;陈雪;杨世利许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210368272.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴手性芳基三氮唑类化合物的制备方法
- 下一篇:温度检测电路、方法及电子烟
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置