[发明专利]一种基于补子空间的加权协同表示非均衡分类方法在审

申请号：	202210356037.2	申请日：	2022-04-06
公开（公告）号：	CN114742149A	公开（公告）日：	2022-07-12
发明（设计）人：	李艳婷;金军委;王帅;陶红伟;吴怀广;顿辉;朱付保	申请（专利权）人：	郑州轻工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京睿智保诚专利代理事务所(普通合伙) 11732	代理人：	韩迎之
地址：	450001 河南省郑***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于空间加权协同表示均衡分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于补子空间的加权协同表示非均衡分类方法，用于对非均衡数据进行分类，包括以下内容：对总类别数为c的非均衡数据集进行预处理，得到目标训练样本集X和目标测试样本集；自适应地获取所述目标训练样本集X中各类训练样本子集的权重；基于补子空间确定加权协同表示分类模型；对所述加权协同表示分类模型进行求解，得到最优表示系数，并根据所述最优表示系数重构的误差预测所述目标测试样本集的类别。本发明将更具判别性的补子空间正则项引入到协同表示建模过程中，并且根据非均衡数据集的原始类别分布信息来自适应地获取每类的权重，从而赋予了少数类更大的权重，有效解决了现有的协同表示方法无法对少数类正确分类的问题。

技术领域

本发明涉及非均衡数据分类技术领域，特别涉及一种基于补子空间的加权协同表示非均衡分类方法。

背景技术

疾病诊断、故障检测、信息安全等应用领域大量涉及非均衡数据集的分类问题。目前已有的分类技术对少数类的识别率远低于多数类。特别对于严重非均衡数据，少数类的识别精度甚至为0。实际上，在少数类上实现精准分类尤其重要。以疾病诊断为例，重症患者被诊断为健康人付出的代价要远高于健康人被诊断为重症患者的情况。因此，设计出高效精准的非均衡分类方法至关重要。

现有的非均衡分类方法大致分为基于数据层面和基于算法层面两大类型。基于数据层面的核心思想是通过采样技术实现类别分布的均衡化。但这种技术会破坏原始数据之间的关系，从而限制了它的发展应用。本发明致力于提出新的基于算法层面的非均衡分类方法。在众多此类方法中，协同表示分类(Collaborative representation basedclassification,CRC)方法由于简单、高效、易操作、复杂度低已被广泛应用于各种分类领域。然而它的成功很大程度上依赖类别分布，类别分布的非均衡性会严重影响其分类精度。所以，CRC方法及其变种对少数类样本还无法达到精准识别。

综上所述，针对非均衡数据分类问题，尚未有有效的解决方案。考虑到CRC方法在理论和操作上的巨大优势，本发明选用它作为基础模型，在延续它已有优势的基础上着重弥补其在少数类上分类的不足。

发明内容

本发明的目的在于，提供一种基于补子空间的加权协同表示非均衡分类方法，解决现有技术中CRC无法在非均衡数据集上对少数类精准分类的问题。

为了实现上述目的，本发明提供了如下技术方案：

一种基于补子空间的加权协同表示非均衡分类方法，包括以下内容：

对总类别数为c的非均衡数据集进行预处理，得到目标训练样本集X和目标测试样本集；

获取所述目标训练样本集X中各类训练样本子集的权重；

利用各类训练样本子集的权重基于补子空间确定加权协同表示分类模型；

对所述加权协同表示分类模型进行求解，得到最优表示系数，并根据所述最优表示系数重构的误差预测所述目标测试样本集的类别。

优选的，所述对总类别数为c的非均衡数据集进行预处理的步骤为：

采用交叉验证法将所述非均衡数据集随机分成n份，其中a份作为原始测试集，b份作为原始训练集；a+b＝n；对所述原始测试集和所述原始训练集进行随机交叉验证m次，得到m组训练样本集和m组测试样本集；

将m组所述训练样本集和m组所述测试样本集分别转化为列向量数据，并进行归一化处理，得到所述目标训练样本集X和所述目标测试样本集。