[发明专利]一种基于协同表示的样本不平衡分类方法有效
申请号: | 202110287823.7 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112862000B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 杨猛;黄俊凯 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/214 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 表示 样本 不平衡 分类 方法 | ||
本发明提供一种基于协同表示的样本不平衡分类方法,一种基于协同表示的样本不平衡分类方法,包括以下步骤:S1:获取样本不平衡的数据集;S2:在样本不平衡的数据集中选择方差最大的类作为基类,并计算各类别的权重;S3:根据各类别的权重构建基于协同表示带权重的分类器;S4:通过基于协同表示带权重的分类器对样本不平衡的数据集中的数据进行分类。本发明提供一种基于协同表示的样本不平衡分类方法,通过基于协同表示带权重的分类器对样本不平衡的数据集进行数据分类,能够更好地建模样本间的分布信息,更充分地利用数据分布的信息,解决了目前分类器在样本不平衡的分类任务中并未充分利用数据分布的信息的问题。
技术领域
本发明涉及数据分类技术领域,更具体的,涉及一种基于协同表示的样本不平衡分类方法。
背景技术
近些年来,稀疏编码或稀疏表示已在许多应用中得到广泛使用。Huang等在一组冗余基上稀疏地编码信号,并根据其编码矢量对信号进行分类。Wright等人提出的一种基于稀疏表示的分类(SRC)方案,利用稀疏表示来做鲁棒的人脸识别(FR),并取得了巨大的成功。最近,SRC的许多变体争相出现。如Gao等人提出了FR的内核稀疏表示,将内核技巧与SRC相结合。Zhang等用l2范数代替l1范数,提出了基于协同表示的分类器(CRC)。
但是,当给定的数据集不平衡时,SRC和其他传统分类器很可能无法获得令人满意的结果。在现实世界中,不平衡的数据集可以在各种应用程序中广泛找到,例如生物识别,医学诊断和欺诈检测。时至今日,样本不平衡分类仍然是一个具有挑战性的问题。
最近,Shu等提出了基于稀疏监督的分类器(SSRC)来解决分类不平衡的问题。在SSRC中,每个类别的训练样本都被用来独立地线性表示测试样本,并将相应的权重添加到不同的类别重构项中。但是SSRC在样本不平衡的分类任务中并未充分利用数据分布的信息,影响分类性能。
现有技术中,如2018年6月1日公开的中国专利,一种加权核稀疏和协同表示系数的高光谱影像分类方法,公开号为CN108108719A,通过核函数把高光谱数据变换到核空间能提高数据可分性,同时融合表示系数能有效结合基原子间的稀疏结构和协同结构,进而提升高光谱影像的分类精度,但没有充分利用数据分布的信息。
发明内容
本发明为克服目前SSRC在样本不平衡的分类任务中并未充分利用数据分布的信息的技术缺陷,提供一种基于协同表示的样本不平衡分类方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于协同表示的样本不平衡分类方法,包括以下步骤:
S1:获取样本不平衡的数据集;
S2:在样本不平衡的数据集中选择方差最大的类作为基类,并计算各类别的权重;
S3:根据各类别的权重构建基于协同表示带权重的分类器;
S4:通过基于协同表示带权重的分类器对样本不平衡的数据集中的数据进行分类。
优选的,步骤S2具体为:
S2.1:将样本不平衡的数据集中方差最大的类别j作为基类;
S2.2:优化除类别j外的各类别i的重构项:
S2.3:根据各类别i的重构项的优化结果计算各类别i的重构误差ei:
S2.4:根据各类别i的重构误差计算各类别i的权重wi。
优选的,在步骤S2.2中,通过以下公式优化各类别i的重构项:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110287823.7/2.html,转载请声明来源钻瓜专利网。