[发明专利]一种基于加权关联规则算法的乳腺癌分类方法在审
申请号: | 202110563903.0 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113192632A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 胡晓慧;苗世迪;李思琪;王瑞涛 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 关联 规则 算法 乳腺癌 分类 方法 | ||
1.一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,该方法包括以下步骤:
步骤1:数据输入模块,用于获取待分类的乳腺癌数据。
步骤2:数据预处理模块,用于对待分类的乳腺癌数据进行数据的预处理。
步骤3:特征加权模块,用于采用信息增益的方法对预处理后的乳腺癌数据的特征进行加权。
步骤4:数据分类模块,用于采用关联规则分类算法对特征加权后的乳腺癌测试数据进行分类。
2.根据权利要求1所述的一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,所述步骤2中,数据预处理模块,对待分类的乳腺癌数据进行预处理,具体步骤为:
步骤2-1删除所述乳腺癌数据中含有缺失值的实例;
步骤2-2采用自上而下的、有监督的CAIM离散算法对无缺失值的乳腺癌数据的连续型属性进行离散化处理,处理公式为:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示实例中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的实例个数总和,M+r是属于区间(dr-1,dr]的实例个数总和,n表示区间个数,caim值越大表明类和属性相关度越大,所选择的断点越合理。
3.根据权利要求1所述的一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,所述步骤3中,特征加权模块,采用信息增益的方法对预处理后的乳腺癌数据的特征进行加权,具体步骤为:
步骤3-1计算每个特征的信息增益值,其计算公式为:
IG=H(Class)+H(Attibute)-H(Class,Attibute)
其中,H是由定义的香农熵,P(Xi)为概率函数;
步骤3-2根据计算信息增益值得出的特征重要性为每个特征使用1-10的比例分配权重,特征权重基于三种不同的度量:高、中、低,高测度表示从8到10的标度值,中等表示从4到7的值,低测度表示从1到3的值。
4.根据权利要求1所述的一种基于加权关联规则算法的乳腺癌分类方法,其特征在于,所述步骤4中,数据分类模块,采用关联规则分类算法对特征加权后的乳腺癌测试数据进行分类,具体步骤为:
步骤4-1从数据中调用训练集Train={(x1,y1),(x2,y2),...,(xN,yN)},其中是第i个实例的第j个特征,N为训练集实例个数,n为特征总数;
步骤4-2计算训练集中生成的所有候选k(k=1,2,3,...n)项集规则的支持度,计算公式为:
其中,suppcount定义为suppcount(r)=r∪ci,表示为项集规则的支持计数,r为项集规则,ci(i=1,2...n)为r所属的类别;
步骤4-3计算训练集中生成的所有候选k项集规则的权重,计算公式为:
其中,item为项集,k为项集个数;
步骤4-4计算训练集中生成的所有候选k项集规则的加权支持度,计算公式为:
Weighted support(r)=Weight(r)*Support(r);
步骤4-5查找满足加权支持度大于或等于给定的最小支持度的频繁k项集规则;
步骤4-6使用前面步骤4-2、步骤4-3、步骤4-4和步骤4-5中解释的相同过程,依次生成候选k(k=1,2,3,...n)项集规则,在创建候选k项集规则时,k项集规则的前k-2项必须与k-1项集规则的前k-2项匹配;
步骤4-7查找满足加权支持度大于或等于给定的最小支持度的频繁k项集规则,最终结合所有的频繁项集规则产生规则集;
步骤4-8在产生的规则集中保留所有满足最小置信度(≥0.4)的规则,并删除其他规则,置信度的计算公式为:
其中,actoccr(r)为与r规则的分类类别相同的实例数;
步骤4-9计算规则集中的统计谐波均值(HM),并根据HM值对规则集中的规则进行排序,如果多个规则具有相同的HM度量值,则将分别根据置信度、加权支持度和支持度对规则进行排序,计算HM值公式如下:
步骤4-10应用数据覆盖的M1方法将规则拆分为两组,即强规则和备择规则;
步骤4-11根据上诉所得的强规则与备择规则来预测测试集的分类,首先在强规则集中找匹配的规则,如果在强规则集中未找到匹配规则,则继续搜索备择规则集,否则,给定的实例将被预测为默认类,其中默认类是具有最大频率的类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110563903.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型可循环雾培装置
- 下一篇:一种粉末饮片自动包装机