[发明专利]一种联邦衍生特征逻辑回归建模方法有效
申请号: | 202210263501.3 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114362948B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 郭梁;裴阳;毛仁歆;石斑 | 申请(专利权)人: | 蓝象智联(杭州)科技有限公司 |
主分类号: | H04L9/08 | 分类号: | H04L9/08;G06F21/62 |
代理公司: | 杭州天麟知识产权代理事务所(特殊普通合伙) 33374 | 代理人: | 占宇 |
地址: | 311100 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 衍生 特征 逻辑 回归 建模 方法 | ||
本发明公开了一种高效的联邦衍生特征逻辑回归建模方法。它包括以下步骤:发起方、参与方选取同样的K个样本,利用秘密分享算法计算出衍生特征;发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,并初始化;发起方、参与方配合计算出每个样本对应的预测值yD,并计算出每个样本对应的差值Δy;发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值;重复上述步骤T次,完成逻辑回归模型建模。本发明可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私。
技术领域
本发明涉及衍生特征逻辑回归建模技术领域,尤其涉及一种联邦衍生特征逻辑回归建模方法。
背景技术
在实际业务中,很多变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用,所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
特征衍生常用于金融风控场景。目前,发起方、参与方联合建模时,需要发起方的基础数据与参与方的基础数据采用明文方式进行特征衍生,得到明文的衍生特征后,发起方、参与方利用衍生特征、双方的基础数据进行逻辑回归建模,然而这种建模方法采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
发起方、参与方也可采用《ABY – A Framework for Efficient Mixed-ProtocolSecure Two-Party Computation》这篇论文的方法,利用秘密分享算法计算发起方的基础特征和参与方的基础特征的联邦衍生特征,发起方、参与方各自保留对应的密文状态的衍生特征分片,但是,现有的逻辑回归建模方法无法使用密文状态的衍生特征分片。
发明内容
本发明为了解决上述技术问题,提供了一种联邦衍生特征逻辑回归建模方法,其可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种联邦衍生特征逻辑回归建模方法,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,样本数据集XA中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,样本数据集XB中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B;
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中的每个数据特征对应的权重系数、样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数、衍生特征分片<XC>B对应的权重系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝象智联(杭州)科技有限公司,未经蓝象智联(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210263501.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像生成方法、模型生成方法及设备
- 下一篇:一种多项可调节式超声针