[发明专利]一种基于联邦学习张量因子分解的医疗隐私数据保护方法有效

申请号：	202110422402.0	申请日：	2021-04-20
公开（公告）号：	CN112966307B	公开（公告）日：	2023-08-22
发明（设计）人：	郑子彬;麦成源;陈川	申请（专利权）人：	钟爱健康科技（广东）有限公司
主分类号：	G06F21/62	分类号：	G06F21/62;G06F21/60;G16H10/60;G06N20/20
代理公司：	北京沃知思真知识产权代理有限公司 11942	代理人：	王茜
地址：	529700 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于联邦学习张量因子分解医疗隐私数据保护方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于联邦学习张量因子分解的医疗隐私数据保护方法，该基于联邦学习张量因子分解的医疗隐私数据保护方法的具体步骤如下：步骤一：各个医疗机构需维护本地分解的张量因子矩阵和全局张量非病患因子矩阵，并在联邦过程开始时对其进行初始化；步骤二：各个医疗机构进行本地的张量因子分解训练，通过利用损失函数进行梯度下降；步骤三：根据本地分解的因子矩阵和全局非病患因子矩阵求出对应的因子矩阵更新梯度；该基于联邦学习张量因子分解的医疗隐私数据保护方法能够提高通信效率的同时进一步保护用户数据隐私，同时减少同态加密的运算量，能够解决非独立同分布的客户端本地训练导致聚合后全局因子矩阵精确度较低的问题。

技术领域

本发明涉及隐私数据保护领域，尤其涉及一种基于联邦学习张量因子分解的医疗隐私数据保护方法。

背景技术

经检索，中国专利号CN109510712A公开了一种远程医疗数据隐私保护方法、系统及终端在隐私保护过程中容易出现隐私保护局限性问题，同时通信效率较低，同态加密的运算量较大；

在医疗场景下，病患用户的电子健康档案(EHRs)包含患者的临床病史综合信息，利用EHR数据计算表型(Phenotyping)，从而利用表型预测疾病风险及辅助精确医学，无监督学习中的张量分解是一种高效的、代替人工参与的计算表型方法，，但单一医疗机构有限的EHRs数据限制了张量分解预测疾病风险的性能，集中式机器学习则会带来隐私风险，迫切需要一种分布式、隐私保护的学习方法，目前，联邦学习框架可以较好契合满足该场景需求，在保护原始数据隐私的同时联合学习到各个机构的知识或信息，因此，提出利用联邦张量分解方法解决存在的医疗隐私数据保护问题，但共享的局部表型信息也存在一定的敏感信息，因此需要利用相关隐私保护策略解决，同时，由于大多医疗机构的病患用户数据也存在非独立同分布的情况，特别对于中小型和专科医疗机构，保证全局表型的普遍性和准确性非常重要。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种基于联邦学习张量因子分解的医疗隐私数据保护方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于联邦学习张量因子分解的医疗隐私数据保护方法，该医疗隐私数据保护方法的具体步骤如下：

步骤一：各个医疗机构需维护本地分解的张量因子矩阵和全局张量非病患因子矩阵，并在联邦过程开始时对其进行初始化；

步骤二：各个医疗机构进行本地的张量因子分解训练，通过利用损失函数进行梯度下降；

步骤三：根据本地分解的因子矩阵和全局非病患因子矩阵求出对应的因子矩阵更新梯度；

步骤四：医疗机构通过梯度压缩策略对因子矩阵更新梯度进行稀疏化；

步骤五：各个医疗机构利用同态加密算法将本轮次的非病患因子矩阵更新的非零梯度进行加密，并发送到中心服务器；

步骤六：中心服务器对所有客户端的非病患因子矩阵更新的已加密梯度进行同态加法聚合，返回聚合后的梯度到各个医疗机构；

步骤七：医疗机构客户端对全局加密梯度解密，并对全局非病患因子矩阵执行梯度下降；

步骤八：客户端得到全局因子矩阵后继续下一轮张量因子分解训练；