[发明专利]一种基于深度置信网络的肿瘤预后预测系统有效
申请号: | 201710007736.5 | 申请日: | 2017-01-05 |
公开(公告)号: | CN106897545B | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 李劲松;池胜强;童丹阳;王昱;周天舒 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度置信网络的肿瘤预后预测系统,包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;本发明利用高斯受限玻尔兹曼机,保留数据的非线性特征;根据输入数据的维度、输出分类的数量、模型的准确度,可以灵活扩展深度置信网络;模型训练过程中,不采用任何限制和假设,可以充分挖掘变量对结果的影响方式以及变量之间的相互作用,全面展现不同因素对肿瘤预后影响的方式,并提高肿瘤预后预测的准确性。 | ||
搜索关键词: | 一种 基于 深度 置信 网络 肿瘤 预后 预测 系统 | ||
【主权项】:
1.一种基于深度置信网络的肿瘤预后预测系统,其特征在于,该系统包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;所述数据学习预测模块的处理过程包括两部分:首先基于深度学习的无监督训练方法,利用患者特征对相似患者进行聚类,其次利用相似患者群体,计算累积风险函数,具体步骤如下:(1)利用深度置信网络模型对相似患者聚类(1.1)假设患者数量为N,患者特征数量为M,可见层变量为vi,i=1,...,m,隐藏层变量为hj,j=1,...,g,其中m是可见层变量的数量,g是隐藏层变量的数量,可见层变量的数量m等于患者特征数量M;wij是可见层变量vi和隐藏层变量hj之间的连接权重,则可见层与隐藏层之间的连接权重矩阵W=(wij)m×g;可见层变量的偏置为ai,i=1,...,m,可见层变量的偏置向量记为a=(a1,...,am),隐藏层变量的偏置为bj,j=1,...,g,隐藏层变量的偏置向量记为b=(b1,...,bg);(1.2)构建高斯RBM模型:因为患者的特征数据往往是一些连续型变量或者有序变量,而不是简单的二分类数据,因此,采用高斯RBM模型代替简单的RBM模型,从而保留数据的非线性特征;高斯RBM模型的能量函数E(v,h;θ)为:
其中,θ=(a,b,W,σ)表示模型的设置参数,σ=(σ1,...,σm)表示可见层变量的高斯噪音;高斯RBM的条件分布为:![]()
其中,N(μ,p2)表示均值为μ,标准差为p的高斯分布;可见层v的边缘分布为:
其中,θ=(a,b,W,σ)表示模型的设置参数;利用梯度下降法调整参数,使输入与输出的误差最小,通过满足下式,得到模型的最佳参数:
其中,Z(θ)是归一化常数;(1.3)在训练时,深度置信网络采用逐层无监督的方法来学习参数;首先把可见层v和隐藏层h1作为一个受限玻尔兹曼机RBM,训练出这个RBM的参数W1;接着,保持W1不变,把h1作为一个可见层,把h2作为隐藏层,训练出第二个RBM的参数W2;然后,保持W2不变,把h2作为一个可见层,把h3作为隐藏层,训练出第三个RBM的参数W3;以此类推,训练出复杂的由多层RBM堆叠的深度置信网络;训练过程中,不限制变量之间的相互作用和变量对分类结果的影响形式;(1.4)因为隐藏层变量的值是二值型数据,利用最顶层的所有隐藏层变量的取值来确定患者所属的一个分类;如果最顶层有n个隐藏层变量,则患者被分成了2n类;(1.5)增加患者数量,不需要改变网络设置;增加患者特征,在网络中增加可见层变量的数量;调整患者分类数量,在网络中修改最顶层隐藏层的变量数量;调整模型的准确度,可以改变隐藏层的层数;(2)利用相似患者群体,计算累积风险函数:患者i有m个输入特征,记为Xi,在步骤1中患者i得到唯一的类别c,c∈P;P为利用深度置信网络模型对相似患者聚类得到的所有类别集合;在时间t,患者i的累积风险函数H(t|Xi)就是c类别的Nelson‑Aalen估计值:
其中,dl,c表示在时间tl,c,c类别中患者的死亡人数;rl,c表示在时间tl,c,c类别中患者的存在风险的人数;t1,c<t2,c<…<tN(c),c表示c类别中N(c)个不同的事件时间;(T1,c,s1,c),...,(Tn(c),c,sn(c),c)表示c类别中所有患者的生存时间和生存状态,n(c)表示c类患者的总数量;对一个患者i,如果si,c=0,那么该患者在时间Ti,c属于截尾数据;如果si,c=1,则该患者在时间Ti,c出现结果事件;记c类别中患者i在时间tl,c的生存状态为
则
其中I()为指示函数,当Ti,c<tl,c时,
当Ti,c≥tl,c时,
则在时间tl,c,c类别中存在风险的人数rl,c=rl‑1,c‑dl‑1,c,死亡人数
其中r0,c=n(c),d0,c=0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710007736.5/,转载请声明来源钻瓜专利网。