[发明专利]一种基于关联规则的软标签模式分类方法在审

申请号：	202110622712.7	申请日：	2021-06-04
公开（公告）号：	CN113283522A	公开（公告）日：	2021-08-20
发明（设计）人：	焦连猛;耿小姣;王丰;杨浩宇;马皓楠;刘准钆;梁彦;潘泉	申请（专利权）人：	西北工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于关联规则标签模式分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于关联规则的软标签模式分类方法ARC‑SL，首先基于熵的自适应划分得到连续属性模糊分区；然后基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则(ICAR)集合；接下来通过规则修剪除去冗余次等的规则；最后利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。本发明能够从不精确的信息中学习分类模型，分类结果更灵活。

技术领域

本发明属于关联分类技术领域，具体涉及一种软标签模式分类方法。

背景技术

关联分类(AC)是一种很有前途的数据挖掘方法，关联分类集成了分类和关联规则发现，可以建立准确且可解释的分类模型。关联分类有两个主要的优于其他传统分类方法的优点。一方面，关联分类使用关联规则挖掘技术来发现属性值之间的所有可能关系，这有助于通过提取一些其他方案可能遗漏的隐藏规则来获得更准确的分类结果。另一方面，关联分类模型描述为一组IF-THEN规则，这些规则可以解释并且可以手动修订。置信函数理论提供了一个有基础且可行的框架来处理各种各样的不确定信息，置信函数理论是概率论的一般化，它与其他理论(包括模糊集，随机集和不精确概率) 密切相关。

基于各种规则学习和修剪策略，人们已经构建了一系列关联分类模型。例如CMAR，MMAC，MLRP，PCAR和ACPRISM。到目前为止，关联分类已经成功地用于解决许多实际问题，包括软件缺陷预测、文本分类、医学诊断等。但是关联分类要求准确的带有标签的数据，但实际在许多情况下，由于数据采集、数据干扰或其他影响因素的限制，很难获得经过精确标记的数据，因此，可用的类别信息通常是部分已知的或不精确的。忽略这些不精确的数据将导致信息丢失，这对可靠的分类是不利的。因此，本方法扩展了关联分类以解决带有软标签的数据分类，这些软标签表示为定义在类别集上的置信函数。

发明内容

为了克服现有技术的不足，本发明提供了一种基于关联规则的软标签模式分类方法ARC-SL，首先基于熵的自适应划分得到连续属性模糊分区；然后基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则(ICAR)集合；接下来通过规则修剪除去冗余次等的规则；最后利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。本发明能够从不精确的信息中学习分类模型，分类结果更灵活。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：基于熵的自适应划分得到连续属性的模糊分区；

步骤2：基于先验的规则挖掘生成具有可变支持和置信度阈值的不准确的分类关联规则集合；

步骤3：通过规则修剪除去冗余次等的规则；

步骤4：利用修剪后保留下来的规则集用于对未标记的输入实例进行分类。

进一步地，所述步骤1基于熵的自适应划分得到连续属性模糊分区的具体步骤为：

步骤1-1：计算训练样本集T＝{(x₁,m₁),…,(x_N,m_N)}，其中x_i是样本属性集，每个样本x_i由P个属性x_i,1,x_i,2,…,x_i,P描述；m_i是样本x_i的类别质量函数，表示样本x_i对于各类焦点的置信隶属度中的所有类别质量函数的平均值，表示为m_T：