[发明专利]一种基于关联规则的软标签模式分类方法在审
申请号: | 202110622712.7 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113283522A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 焦连猛;耿小姣;王丰;杨浩宇;马皓楠;刘准钆;梁彦;潘泉 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 标签 模式 分类 方法 | ||
本发明公开了一种基于关联规则的软标签模式分类方法ARC‑SL,首先基于熵的自适应划分得到连续属性模糊分区;然后基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则(ICAR)集合;接下来通过规则修剪除去冗余次等的规则;最后利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。本发明能够从不精确的信息中学习分类模型,分类结果更灵活。
技术领域
本发明属于关联分类技术领域,具体涉及一种软标签模式分类方法。
背景技术
关联分类(AC)是一种很有前途的数据挖掘方法,关联分类集成了分类和关联规则发现,可以建立准确且可解释的分类模型。关联分类有两个主要的优于其他传统分类方法的优点。一方面,关联分类使用关联规则挖掘技术来发现属性值之间的所有可能关系,这有助于通过提取一些其他方案可能遗漏的隐藏规则来获得更准确的分类结果。另一方面,关联分类模型描述为一组IF-THEN规则,这些规则可以解释并且可以手动修订。置信函数理论提供了一个有基础且可行的框架来处理各种各样的不确定信息,置信函数理论是概率论的一般化,它与其他理论(包括模糊集,随机集和不精确概率) 密切相关。
基于各种规则学习和修剪策略,人们已经构建了一系列关联分类模型。例如CMAR,MMAC,MLRP,PCAR和ACPRISM。到目前为止,关联分类已经成功地用于解决许多实际问题,包括软件缺陷预测、文本分类、医学诊断等。但是关联分类要求准确的带有标签的数据,但实际在许多情况下,由于数据采集、数据干扰或其他影响因素的限制,很难获得经过精确标记的数据,因此,可用的类别信息通常是部分已知的或不精确的。忽略这些不精确的数据将导致信息丢失,这对可靠的分类是不利的。因此,本方法扩展了关联分类以解决带有软标签的数据分类,这些软标签表示为定义在类别集上的置信函数。
发明内容
为了克服现有技术的不足,本发明提供了一种基于关联规则的软标签模式分类方法ARC-SL,首先基于熵的自适应划分得到连续属性模糊分区;然后基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则(ICAR)集合;接下来通过规则修剪除去冗余次等的规则;最后利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。本发明能够从不精确的信息中学习分类模型,分类结果更灵活。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:基于熵的自适应划分得到连续属性的模糊分区;
步骤2:基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则集合;
步骤3:通过规则修剪除去冗余次等的规则;
步骤4:利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。
进一步地,所述步骤1基于熵的自适应划分得到连续属性模糊分区的具体步骤为:
步骤1-1:计算训练样本集T={(x1,m1),…,(xN,mN)},其中xi是样本属性集,每个样本xi由P个属性xi,1,xi,2,…,xi,P描述;mi是样本xi的类别质量函数,表示样本xi对于各类焦点的置信隶属度中的所有类别质量函数的平均值,表示为mT:
其中Cs∈C,C是所有类焦点的集合,KT是由确定的归一化系数,N是训练集样本个数,mi(Cs)是每个训练样本i对类Cs的类别质量函数;
步骤1-2:根据式(1),得到训练集T的类信息熵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110622712.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高均衡性的贮柜出料方法
- 下一篇:区块链测试的方法、装置和电子设备