[发明专利]基于多源迁移学习的多中心协同癌症预后预测系统有效
申请号: | 202010038230.2 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111261299B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李劲松;田雨;陈伟国;马静 | 申请(专利权)人: | 之江实验室 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 迁移 学习 中心 协同 癌症 预后 预测 系统 | ||
本发明公开了一种基于多源迁移学习的多中心协同癌症预后预测系统,该系统包括模型参数设置模块、数据筛选模块和多源迁移学习模块;模型参数设置模块负责设置癌症预后预测模型参数;数据筛选模块布置于临床中心,管理中心将设置好的模型参数传输到各临床中心,各临床中心依据模型参数从本地数据库中查询样本特征与预后指标数据,对数据进行预处理;多源迁移学习模块包括源模型训练、迁移权重计算和目标模型计算单元。本发明利用多源迁移学习解决源中心与目标中心之间数据存在异质性的问题及目标中心标签数据不足问题,在考虑多中心数据异质性的前提下构建更加精准的预测模型。同时,模型训练过程中各机构的原始数据互补共享,避免患者隐私泄露。
技术领域
本发明属于医疗领域及机器学习领域,尤其涉及一种基于多源迁移学习的多中心协同癌症预后预测系统。
背景技术
癌症死亡率高,随着其发病率的不断攀升,已经成为人类死亡的主要原因之一。高质量的癌症预后预测可以为医生的临床决策提供依据,对于癌症的控制和治疗意义重大。
传统预后预测基于专家临床经验(如TNM模型),缺乏循证支持。随着医疗信息技术,特别是电子病历、医疗大数据分析挖掘等技术发展,数据驱动预后预测模型越来越受到关注。这些预测模型需要大规模临床数据,但针对单一病种,单家机构往往缺少足够标签数据,不足以支撑模型训练,模型效果差,需要多中心协同构建预后预测模型。
现有技术方案通常将多家机构的数据进行汇总后训练通用模型。因不同机构之间数据存在异质性(主要体现在边缘分布、条件概率分布差异性上),训练得到的通用模型的泛化能力较差,当目标机构数据与训练数据有较高异质性时模型表现往往不佳,只有在目标机构中积累一定数量的有标签样本后,利用本地有标签样本对通用模型进行校准才能获得较好的性能。目前尚缺乏将模型训练与应用环境有机整合的机制。
无论是直接利用本地有标签样本训练模型还是利用本地有标签样本对通用模型进行校正都对本地有标签样本的数量有一定要求。在缺少本地标签的情况下,现有方法难以应用。且大规模数据需要多家机构共同参与,存在患者隐私泄露风险。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多源迁移学习的多中心协同癌症预后预测系统,主要解决如下技术问题:
1.单一机构电子病历数据资源有限,虽然患者规模以及病历数据总量较大,但是面向特定疾病预后研究需要,单一机构中有明确预后结局事件(如死亡、复发等)的患者数量有限,从而限制了特定疾病构建高质量预后预测模型的建立;
2.缺乏对于模型泛化能力的研究,现有方法构建的模型(特别是统计模型)在与训练数据集具有相近似特征分布的数据集上可以得到较好的预测性能表现,但是在与训练环境具有不同边缘概率分布、条件概率分布差异的数据集上的表现往往不佳。
本发明的目的是通过以下技术方案来实现的:一种基于多源迁移学习的多中心协同癌症预后预测系统,该系统包括:模型参数设置模块、数据筛选模块和多源迁移学习模块。
所述模型参数设置模块:布置于管理中心,负责设置癌症预后预测模型参数,包括癌症类别(如结直肠癌)、源中心与目标中心、样本特征(如年龄、性别、结直肠癌分级、组织学分类等)、样本数据预处理方法、预后指标(如五年生存状态);
所述管理中心对各临床中心的资源进行协调管理,接受用户访问;
所述源中心为针对特定癌症类别,拥有有标签样本的临床中心,负责源癌症预后预测模型训练;
所述目标中心为针对特定癌症类别,拥有无标签样本的临床中心,负责目标癌症预后预测模型训练;
所述临床中心为实际持有临床数据的机构,负责样本数据筛选和癌症预后预测模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038230.2/2.html,转载请声明来源钻瓜专利网。