[发明专利]一种基于多方联合K均值建模的病例画像方法及装置有效

申请号：	202210087944.1	申请日：	2022-01-26
公开（公告）号：	CN114121206B	公开（公告）日：	2022-05-20
发明（设计）人：	陆林	申请（专利权）人：	中电云数智科技有限公司
主分类号：	G16H10/60	分类号：	G16H10/60;G16H50/70;G06K9/62;G06F21/57
代理公司：	工业和信息化部电子专利中心 11010	代理人：	焉明涛
地址：	430100 湖北省武汉市经济技术***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多方联合均值建模病例画像方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多方联合K均值建模的病例画像方法及装置，包括：经由所述主节点初始化K均值模型的K个均值向量后，将各均值向量加密广播至各个子节点；各子节点：接收并解密多个均值向量后，遍历该子节点配置的各样本的特征向量与各均值向量之间的距离，确定该样本的类别；按照确定的类别对各样本进行分组，累加该组中各样本的特征向量；将特征向量累加的结果和统计的样本的数量经加密后发送至所述主节点；经由所述主节点基于各组的特征向量累加的结果以及各组的样本的数量，更新各均值向量；执行迭代，完成K均值模型训练。本发明方法联合多TEE节点参与模型训练，有效降低单一节点的计算资源开销，减少甚至避免节点内存溢出的问题。

技术领域

本发明涉及数据处理技术，尤其涉及一种基于多方联合K均值建模的病例画像方法及装置。

背景技术

传统的无监督K均值聚类算法主要是数据集中式的训练模式。该方式需要多个数据持有方共享其数据集中到某一处，但病例数据是分散在各个医疗机构中，例如对数据跨医院的收集存在如下问题：1）数据持有方（例如医疗机构）不愿意或者受限于制度不能公开共享这些病例数据；2）诊断病例中包含患病者的姓名、性别、年龄、所在地等敏感信息，一旦这些信息在数据流转与分析过程中泄露，将对患病个体带来负面的影响。

可信执行环境（Trusted Execution Environment，TEE）是基于可信硬件的一种隐私计算技术，它通过开辟一片独立的可信区域来确保数据与算法的完整性、安全性和一致性。利用可信执行环境，为促进多方共同参与K均值模型的隐私训练提供了安全保障。然而，传统的可信执行环境计算方式需要多方同时将加密数据传输给一个TEE结点，对通信负载造成较大的压力，同时当多方数据集较大时对TEE的内存开销也大，进行模型训练时容易造成通信延迟、内存溢出的问题。

发明内容

本发明实施例提供一种基于多方联合K均值建模的病例画像方法及装置，用以在主从架构下，联合多节点参与模型训练，不仅能够保护诊断病例中用户的隐私，还能有效降低单一TEE节点集中机密计算的资源开销，减少甚至避免节点内存溢出的问题。

本发明实施例提供一种多方联合的K均值模型训练方法，应用于可信执行环境TEE，所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本；

所述K均值模型训练方法包括：

经由所述主节点初始化所述K均值模型的K个均值向量后，将各均值向量加密广播至各个子节点；

各子节点：

接收多个均值向量后，遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离，以利用距离最小的均值向量确定该病例样本的类别；

按照确定的类别对各病例样本进行分组，累加该组中各病例样本的特征向量，以及，统计该组中病例样本的数量；

将特征向量累加的结果和统计的病例样本的数量发送至所述主节点；

经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量，更新各均值向量；

执行迭代，完成K均值模型训练。

在一些实施例中，主节点初始化所述K均值模型的K个均值向量之前，所述K均值模型训练方法包括还包括：