[发明专利]一种基于加权关联规则算法的乳腺癌分类方法在审
申请号: | 202110563903.0 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113192632A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 胡晓慧;苗世迪;李思琪;王瑞涛 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 关联 规则 算法 乳腺癌 分类 方法 | ||
本发明涉及一种基于加权关联规则算法的乳腺癌分类方法,该方法包括以下步骤:数据输入模块,用于获取待分类的乳腺癌数据;数据预处理模块,用于对待分类的乳腺癌数据进行数据的预处理;特征加权模块,用于采用信息增益的方法对预处理后的乳腺癌数据的特征进行加权;数据分类模块,用于采用关联规则分类算法对特征加权后的乳腺癌测试数据进行分类,与现有的相关技术相比,本发明用信息增益值确定特征重要性,为每个特征分配相应的权重,关联规则剪枝过程中使用HM值和属性级别上的优先级来度量规则,最终形成的规则集用于乳腺癌的分类,提高了分类的性能。
技术领域:
本发明涉及数据分类的技术,尤其是涉及一种基于加权关联规则算法的乳腺癌分类方法,该方法在预测乳腺癌疾病方面有着很好的应用。
背景技术:
乳腺癌是人类第二常见的肿瘤,占女性癌症的四分之一,在其他类型的癌症中,它被认为是大多数国家妇女死亡的主要原因,一个有效的分类器,准确地帮助医生来预测这一慢性疾病是迫切需要的,许多学者采用关联规则分类技术,通过应用关联规则来增强分类的过程,从而来解决这一问题,然而,大多数关联规则分类算法都受到规则评估过程中所使用的评估度量以及属性级别上的优先级技术的影响,这些技术可能在规则生成过程中发挥着至关重要的作用,本发明试图通过基于加权关联规则算法的分类来解决这一问题,提出了一种基于统计谐波均值(HM)的预剪枝技术,以生成更准确的关联规则,从而来提高关联规则分类器的性能。
发明内容:
本发明的目的就是为了解决上述现有相关技术存在的问题而提供的一种基于加权关联规则算法的乳腺癌分类算法。
为此,本发明提供了如下技术方案:
1.一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,该方法包括以下步骤:
步骤1:数据输入模块,用于获取待分类的乳腺癌数据。
步骤2:数据预处理模块,用于对待分类的乳腺癌数据进行数据的预处理。
步骤3:特征加权模块,用于采用信息增益的方法对预处理后的乳腺癌数据的特征进行加权。
步骤4:数据分类模块,用于采用关联规则分类算法对特征加权后的乳腺癌测试数据进行分类。
2.根据权利要求1所述的一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,所述步骤2中,数据预处理模块,对待分类的乳腺癌数据进行预处理,具体步骤为:
步骤2-1删除所述乳腺癌数据中含有缺失值的实例;
步骤2-2采用自上而下的、有监督的CAIM离散算法对无缺失值的乳腺癌数据的连续型属性进行离散化处理,处理公式为:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示实例中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的实例个数总和,M+r是属于区间(dr-1,dr]的实例个数总和,n表示区间个数,caim值越大表明类和属性相关度越大,所选择的断点越合理。
3.根据权利要求1所述的一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,所述步骤3中,特征加权模块,采用信息增益的方法对预处理后的乳腺癌数据的特征进行加权,具体步骤为:
步骤3-1计算每个特征的信息增益值,其计算公式为:
IG=H(Class)+H(Attibute)-H(Class,Attibute)
其中,H是由定义的香农熵,P(Xi)为概率函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110563903.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型可循环雾培装置
- 下一篇:一种粉末饮片自动包装机