[发明专利]一种基于多任务学习模型的慢病预测系统在审
申请号: | 201911317824.0 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111180068A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 吴健;冯芮苇;刘雪晨;曹燕 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 模型 预测 系统 | ||
1.一种基于多任务学习模型的慢病预测系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中存有训练好的慢病预测模型,所述的慢病预测模型由共享层卷积神经网络和多个慢病分支网络组成;
所述计算机处理器执行所述计算机程序时实现以下步骤:
将待预测的体检记录经过预处理后先输入慢病预测模型的共享层卷积神经网络中进行特征提取,特得到特征图;
然后将得到的特征图分别输入每个慢病分支网络,分别进行特征提取和预测,得到慢病预测结果。
2.根据权利要求1所述的基于多任务学习模型的慢病预测系统,其特征在于,所述共享层卷积神经网络的结构为:首先通过多层任务共享的卷积层,然后分别使用3个和6个尺寸为3×3的卷积核进行特征提取,卷积核的步长设置为1;
每个慢病分支网络分别设有2个卷积层,每个卷积层分别由9个和12个卷积核进行特征提取,卷积核的步长分别设计为2和1;最后,每个分支分别依次通过两个节点数为32的全连接层和一个softmax层得到最后的输出。
3.根据权利要求1所述的基于多任务学习模型的慢病预测系统,其特征在于,所述慢性病预测模型的训练过程如下:
获取慢性病检查相关的体检数据作为样本数据,经过预处理之后,标注标签,标注后的样本数据通过5折交叉验证方法分成训练集和验证集;
设计针对体检数据中结构化数据的数据编码方法,得到慢病预测模型的输入数据;所述数据编码方法包括内容编码策略和空间编码策略,其中,内容编码策略用于实现数据的数值类型统一,空间编码策略用于实现输入模型的数据格式统一;
搭建基于多任务学习的慢病预测模型,使用深度学习方法对编码的结构化数据进行特征提取和分类,同时输出多种慢病的预测结果;
使用训练集对所述慢病预测模型进行训练,根据模型的预测结果与标签的重合度对模型的参数进行调整,直至模型收敛。
4.根据权利要求3所述的基于多任务学习模型的慢病预测系统,其特征在于,所述的预处理包括:对于体检数据中的各项指标进行相关性分析、缺失值统计,从体检记录角度剔除单条记录缺失值超过一定比例的数据,从数据指标角度剔除所有记录中缺失值超过一定比例的数据指标,对体检记录中的缺失数据,根据年龄分组并进行缺失值填充。
5.根据权利要求3所述的基于多任务学习模型的慢病预测系统,其特征在于,所述的5折交叉验证方法具体过程如下:
不重复抽样将样本数据随机分为5份,每份数据样本数量相等或相接近;每一次挑选其中1份作为测试集,剩余4份作为训练集用于模型训练,重复5次,制作5组不同的训练集和验证集组。
6.根据权利要求3所述的基于多任务学习模型的慢病预测系统,其特征在于,所述的内容编码策略采取如下两种具体操作:
使用标签编码方式将体检记录中的文本信息编码成数值信息;
使用One-hot编码方式将体检记录中的文本信息编码成数值信息,作为输入。
7.根据权利要求3所述的基于多任务学习模型的慢病预测系统,其特征在于,所述的空间编码策略具体操作过程如下:
内容编码之后的体检记录是一维向量,对一维向量中的所有变量进行两两之间相关性分析;根据某个变量和其他所有变量之间的相关性之和进行降序排序;降序排列之后的所有变量依次排列,形成二维向量,作为网络的输入数据。
8.根据权利要求3所述的基于多任务学习模型的慢病预测系统,其特征在于,使用训练集对所述慢病预测模型进行训练的具体过程如下:
输入一组训练集,分别经过潜在相关性的共享层特征提取、针对单种慢性病的特征提取,输出预测结果;
将输出的预测结果与数据所对应的标签进行对比,运用ACC函数作为当前模型的损失,并回传到模型中,对所述模型中的参数进行更新;
当达到设定的ACC阈值或者达到指定迭代次数时,所述模型停止更新,输出结果;
使用上述方法依次输入剩余的训练集进行训练,直至模型收敛。
9.根据权利要求8所述的基于多任务学习模型的慢病预测系统,其特征在于,训练过程还包括:在每组的训练集训练结束后,将该组的验证集输入模型,得到对应的分类结果;将所有验证集得到的损失值求平均值,作为模型的性能评估,用于寻找最优参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911317824.0/1.html,转载请声明来源钻瓜专利网。