[发明专利]II型糖尿病发病概率分层预测方法无效
申请号: | 201310073852.9 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103150611A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 罗森林;赵海秀;潘丽敏;郭伟东;张铁梅 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种II型糖尿病发病概率分层预测方法,属于生物信息处理技术领域。本发明首先对Ⅱ型糖尿病人群进行风险等级判定,然后对不同风险等级人群采用包装法进行属性选择,选择出关键发病危险属性;然后利用朴素贝叶斯算法,计算出个体初始发病概率;个体初始发病概率与单步转移矩阵构建马尔可夫链,从而建立针对不同风险等级人群的Ⅱ型糖尿病发病概率预测系统。与现有技术相比,本发明在进一步提升II型糖尿病发病概率预测准确率的同时,可以根据不同个体输入的数据选择对应风险等级的预测模型,预测多年内的发病概率,处理速度快。能够达到对Ⅱ型糖尿病早发现、早重视、提前干预,降低(或延缓)Ⅱ型糖尿病发生的目的。 | ||
搜索关键词: | ii 糖尿病 发病 概率 分层 预测 方法 | ||
【主权项】:
1.一种II型糖尿病发概率分层预测方法,其特征在于,包括如下步骤:步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];采用包装法中朴素贝叶斯学习算法对样本集进行属性选择,选择出影响II型糖尿病发病的J维属性。步骤2,求解初始状态向量。具体过程如下:步骤2.1,利用风险状态判定系统对人群进行风险状态判定,判定为无风险、低风险、中风险或高风险4个风险等级中的一种。基于模型复杂程度的考虑,将低风险和中风险人群合并,统称为低中风险人群,并且无风险、低中风险和高风险作为数据的分类的类别变量,在本文中分别使用类别Ci(0、1、2)表示。步骤2.2,在步骤2.1的基础上,将属性选择输出的J维属性作为求解初始状态向量的输入,基于朴素贝叶斯算法,求解初始状态向量。具体方法为:步骤2.2.1,计算先验概率P ( C i ) = S i S ]]> 其中P(Ci)为先验概率,表示风险等级为i的概率。训练样本是对整体的一个随机抽样,可以通过统计训练数据得到该概率,其中Ni表示状态为i的样本个数,N表示样本的总个数。步骤2.2.2,计算关键J个属性中第k个属性Xk对于类别Ci的作用程度P(Xk|Ci)。这个要分两种情况分别进行说明。如果属性为离散属性,则用公式
进行计算,其中Ski表示第k属性在类别Ci中的个数,而Si表示类别Ci的总个数。如果属性为连续属性,则统计第k属性在类别Ci中的均值和方差,计算该属性在对应类型的作用贡献程度,其中
和
分别为均值和方差,具体计算公式如下所示。P ( X k | C i ) = g ( X k , μ C i , σ C i ) = 1 2 π σ C i e - ( X k - μ C i ) 2 2 σ C i 2 ]]> 步骤2.2.3,计算所有属性在对于类别Ci总的作用程度P(X|Ci)。各个属性之间是相对相互独立的,则总贡献计算公式为P ( X | C j ) = Π k = 1 n P ( X k | C j ) ]]> 其中P(Xk|Ci)是第k属性对于类别Ci的作用程度。步骤2.2.4,计算初始状态向量P(Ci|X)。把训练样本X分到它所作用总的程度最大的类别中去。也就是分到P(Ci|X)最大的类别Ci中去。具体计算公式如下所示:P ( C j | X ) = P ( X | C j ) * P ( C j ) P ( X ) ]]> 式中对于同一条X来说,P(X)一样的,所以分母P(X)对P(Ci|X)的分布比例是没有影响的,可以不用去计算,并且任意一个样本被分到某一风险等级和患病的概率之和为1,所以可以利用上式和
求解P(Ci|X)的概率,最后解得的初始状态概率向量为:P 0 = P ( C i | X ) 1 - P ( C i | X ) ]]> 根据以上步骤就可以完成求解一条数据在当前时刻分别在各个状态的概率大小,也就获得了马尔科夫链中非常关键的一项内容,初始状态概率空间。步骤3,认为马尔科夫链中的一个吸收态。结合算法原理和状态转移两部分的介绍,求解一步状态转移矩阵,得到各个风险等级的m步转移矩阵如下式所示。Q M = q i 00 ( m ) q i 01 ( m ) 0 1 ]]> 单步转移矩阵为:Q = a i 1 - a i 0 1 ]]> 上式中ai是属于[0,1]的实数。通过实际跟踪数据获得转移矩阵,假设其是经过m步一次转移之后的转移矩阵,即m次一步转移矩阵的累积以后的转移矩阵,其计算公式为:Qm=QM式中Q表示一步状态转移矩阵;QM表示通过统计获得的转移矩阵,通过设置优化任务函数和优化任务函数的目标解来决定是否要停止训练。其中优化任务函数采用限制最大相对误差,即求解转移矩阵的对应位置上最大的相对误差,相对误差公式如下式所示。f = min ( | q ij - q ij ′ | q ij ) ]]> 步骤4,在步骤2和3的基础上,即在已知初始状态向量和一步状态转移矩阵的情况下构建马尔科夫链,其构建的公式如下式所示。Pn=P0×Qn式中,P0是初始状态向量,Q是一步状态转移矩阵,n表示转移的次数。个体II型糖尿病发概率预测是根据上述方法构造完成的马尔科夫链进行预测的,通过输入数据当前时刻的身体指标,判定其所属风险等级,然后输入到相应的模型中,预测个体长时间的发病概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310073852.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动圆锯切割机送料装置
- 下一篇:一种多功能芯轴装置
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理