[发明专利]基于多维高斯分布贝叶斯分类的癌症复发预测系统有效
申请号: | 201810416949.8 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108597603B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 李玲;渠云龙;杨秀华;刘丹;黄玉兰;张海蓉;佟宇琪;顾琳;刘婉莹;戴思达;李林;骆宝童;高华照;张春霞 | 申请(专利权)人: | 吉林大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06K9/62 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 王淑秋 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 分布 贝叶斯 分类 癌症 复发 预测 系统 | ||
本发明涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,该系统的包括预处理模块、训练模块和贝叶斯分类器;预处理模块对训练集进行数据清洗并生成类向量数据集;训练模块首先计算两个类属性先验概率,然后利用pearson相关系数将数据属性分成与类属性关联度紧密的类数据属性集合和与类属性关联度稀疏的II类数据属性集合,两类数据属性集合分别利用多维高斯分布和一维高斯分布来计算相应的概率;贝叶斯分类器将两者概率及类别的先验概率联合共同作为数据属于每个类的概率,并据此判别癌症的分类测试结果。本发明提高了癌症是否复发的预测准确率。
技术领域
本发明属于数据挖掘技术领域,涉及一种基于属性选择的多维高斯分布贝叶斯分类系统,具体涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统。该系统对于一般的满足高斯分布的连续型数据的分类具有普适性。
背景技术
分类方法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类方法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类方法的应用非常广泛,例如银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。
贝叶斯分类方法是数据分类方法中一种常用的方法,该方法以经典的数学理论为基础,采用概率统计知识对数据样本进行分类。它基于概率统计学中的贝叶斯定理,在己知先验概率与类条件概率的前提下,对类成员关系的可能性进行预测,具有稳固的理论知识根底。从理论上讲,贝叶斯分类方法的出错概率最小,并且它能综合样本信息和先验知识来训练分类器,避免了数据的过拟合现象,降低了因主观判断而造成的误差。
朴素贝叶斯分类方法(Naive Bayesian Classifier,NBC)作为贝叶斯分类方法经典方法之一,其优点有:1、数学基础坚实,分类效率稳定,容易解释;2、所需估计的参数很少,对缺失数据不太敏感;3、无需复杂的迭代求解框架,适用于规模巨大的数据集。正是由于朴素贝叶斯方法的以上优点,其在分类中常被应用,如垃圾邮件分类。然而,朴素贝叶斯分类基于数据属性间强独立性的假设,在计算过程中,它认为一个属性对目标类的作用和其他属性无关,具有一定的自身局限性。若在条件独立性假设不成立时构造NBC,将会直接影响到最终的分类效果,然而在实际应用中往往很难满足该假设。因此,如何改进NBC使得其在实际应用中独立性假设不满足的情况下,仍具有较好的分类效果,是当前国内外重要的研究课题之一。
乳腺癌是女性常见的恶性肿瘤之一,近年来我国乳腺癌的发病率呈迅速上升趋势,在女性各肿瘤中居首位。而乳腺癌治愈后,又有一部分人群会出现复发的可能,据统计,乳腺癌术后的5年内是复发的高危险期,特别是术后的1-2年风险。乳腺癌一旦有复发或转移现象,治疗的难度将会增加,远比第一次的治疗方式来得更为棘手,很有可能会直接威胁病人生命。因此,能够早点判断其复发可能性对于患者是十分有利的。因此,将贝叶斯分类预测方法应用到乳腺癌是否复发上,具有重要的意义。
发明内容
本发明所要解决的技术问题是提供一种能够提高癌症是否复发预测准确率的基于多维高斯分布贝叶斯分类的癌症复发预测系统。
为了解决上述技术问题,本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统包括预处理模块、训练模块和贝叶斯分类器;
数据预处理模块:将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集,该训练集中包含类属性和M个数据属性,当类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;
训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;
类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs),s=1,2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810416949.8/2.html,转载请声明来源钻瓜专利网。