[发明专利]多数据方用户分析模型联合训练方法、装置及存储介质在审
| 申请号: | 202010370875.6 | 申请日: | 2020-04-30 |
| 公开(公告)号: | CN111611601A | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 戴佳 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G06F21/60 | 分类号: | G06F21/60;H04L29/06;G06F16/27;G06F16/215;G06K9/62;G06N3/04;G06Q40/08 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多数 用户 分析 模型 联合 训练 方法 装置 存储 介质 | ||
本发明涉及人工智能,揭露了一种多数据方用户分析模型联合训练方法,包括:构建公钥和私钥,并将所述公钥分发给至少两个数据方终端设备;接收所述至少两个数据方终端设备利用所述公钥进行数据加密得到的加密样本数据;利用所述私钥对所述加密样本数据进行解密操作,将解密后的加密样本数据中重复数据剔除,得到训练样本数据;构建初始用户分析模型,根据所述训练样本数据对所述初始用户分析模型进行训练,得到用户分析模型;将所述用户分析模型分发给所述至少两个数据方终端设备。本发明还涉及区块链技术,所述公钥和私钥存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多数据方用户分析模型联合训练的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着机器学习和大数据的兴起,多数公司会根据自己公司已有用户数据进行建模训练,得出用户分析模型进行用户行为分析。例如,目前产险理赔救援服务存在很多欺诈报案情况发生,为了解决人工审核速度慢成本高的问题,目前的处理方法是用大数据行欺诈检测,通过研究自己公司的报案数据统计出已知用户欺诈行为的特征,用机器学习的方法建模,再进行训练得出欺诈模型,应用到用户报案检测环节。但是目前的这种方法存在以下的问题:进行模型训练的数据仅仅是自己保险公司的数据,数据量不能包含全网用户,不能统计到更普遍的欺诈行为,因此,当欺诈用户发生在一家公司后,用户可以选择更换公司的方式来继续进行欺诈。
综上所述,现有的建模方法,由于隐私保护的原因,各公司之间一般不愿意进行用户数据的交换,因此各个公司能拿到的训练数据仅仅是自己公司的数据,训练得到的用户分析模型可能并不十分精确。
发明内容
本发明提供一种多数据方用户分析模型联合训练方法、装置、电子设备及计算机可读存储介质,其主要目的在于不需要交换数据而实现联合各方数据训练用户分析模型。
使用非对称加密算法构建公钥和私钥,并将所述公钥分发给至少两个数据方终端设备;
接收所述至少两个数据方终端设备利用所述公钥进行数据加密操作得到的加密样本数据;
利用所述私钥对所述加密样本数据进行解密操作,得到样本数据;
对所述样本数据进行重复数据剔除操作,得到训练样本数据;
构建初始用户分析模型,根据所述训练样本数据对所述初始用户分析模型进行训练,得到用户分析模型;及
将所述用户分析模型分发给所述至少两个数据方终端设备。
可选地,该方法还包括:
将所述样本数据利用下述Hash函数进行分布式存储:
slice_id=(w1×(hash_str(point_name)/b1)+w2×(day_time(time)/b2))
其中:slice_id为对数据分配的分片号,hash_str(point_name)为所述数据加入存储节点的数据名的量化函数,day_time(time)为所述数据加入存储节点的时间段的量化函数,b1为数据名的分散程度,b2为时间段的分散程度;w1 和w2为权重系数。
可选地,所述对所述样本数据进行重复数据剔除操作,包括:
计算所述样本数据中不同用户的数据之间的相似度;
根据所述数据之间的相似度,剔除所述样本数据中的重复用户的数据。
可选地,所述相似度的计算公式为:
其中,Xi表示用户X的第i个特征数据,Yi为用户Y的第i个特征数据, sim(X,Y)表示用户X和Y的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010370875.6/2.html,转载请声明来源钻瓜专利网。





