[发明专利]一种多标签解耦的双向重采样方法在审
申请号: | 202010692452.6 | 申请日: | 2020-07-17 |
公开(公告)号: | CN112001499A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 李小波;周书悦 | 申请(专利权)人: | 浙江师范大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 王丰毅 |
地址: | 321004 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 双向 采样 方法 | ||
本发明涉及一种多标签解耦的双向重采样方法。通过对多标签数据集并发度较高的样本进行解耦,并在解耦阶段时对数据集样本解耦时设置解耦终止条件,使得解耦更加合理,重采样阶段对过采样和欠采样方法进行改进,并且将过采样与欠采样结合并且对样本标签进行比较,使得样本分布更加均衡的同时最大限度的保留含有弱势标签的样本,并且对数据集的原始分布情况不发生太大改变。
技术领域
本发明属于多标签重采样领域,具体涉及一种多标签解耦的双向重采样方法。
背景技术
目前在多标签学习中,由于分类器自身缺陷,分类器在多标签不平衡的数据集中分类性能下降明显。研究表明,分类器在标签平衡的数据集中表现更为优异。对数据集的平衡关系到最后的分类效果,现阶段主要采用重采样方式对数据集进行预处理使数据集达到平衡。但是现有的多标签不平衡处理方法会对数据集的分布造成一定的影响,单纯的过采样容易造成过拟合现象,单纯的欠采样容易造成信息丢失,而且单独使用这两种方法会对数据集的原始分布造成破坏。随着对多标签不平衡数据集研究的深入,研究发现强势标签和弱势标签在样本当中的并发现象也会造成分类器的性能下降,强势标签与弱势标签的解耦是广泛应用的方法,而标签不平衡和标签并发往往在数据集中是共同存在的,这更加造成了正确分类的难度。对于此类问题,将标签解耦方法与重采样方法结合的混合方法得到了重视。但是标签解耦方法在标签的并发程度达到平衡时还会继续进行解耦,使数据集产生“过解耦”状态,影响最终的分类效果。
发明内容
本发明主要针对上述问题,在对传统重采样算法和解耦算法进行研究,在此基础上,提出了一种多标签双向重采样算法。通过对多标签数据集并发度较高的样本进行解耦,并在解耦阶段时对数据集样本解耦时设置解耦终止条件,使得解耦更加合理,重采样阶段对过采样和欠采样方法进行改进,并且将过采样与欠采样结合并且对样本标签进行比较,使得样本分布更加均衡的同时最大限度的保留含有弱势标签的样本,并且对数据集的原始分布情况不发生太大改变。
本发明的上述技术问题是通过以下技术方案得以实施的:一种多标签解耦的双向重采样方法,包括解耦和重采样,其特征在于,所述重采样包括:
步骤一,随机选择标签集合中的一个标签y,若标签属于弱势标签,并且标签所包含的样本数小于平均样本数以及IRMeanIR就随机产生一个抽样次数 x,并满足x=Random(0,MeanSamples-|y|);
步骤二,从标签的样本中随机选择m个样本对这m个样本计算 Min-SCUMBLEIns值,并且复制其中m个样本中Min-SCUMBLEIns值最低的样本,放回抽取x次,添加到数据集中,将需重采样的样本数减1;
步骤三:若标签属于强势标签,
则抽样次数x=Random(0,|y|-MeanSamples);
步骤四:从标签的样本中随机选择m个样本对这m个样本计算 Min-SCUMBLEIns值,将Min-SCUMBLEIns值最低的样本标签值设置为0,共抽取x次,将需重采样个数减1。
Xi表示数据集的第i个样本,Y表示数据集D的标签集,Li为Xi样本的标签集;解耦后的数据集为Dd,弱势标签域为minBag,强势标签域为majBag;
需重采样的样本数为数据集的数量乘以重采样率P;
即samplesToResampling=|D|*P;
根据公式1计算所有标签的标签不平衡数IR值,
根据公式2求出初始平均不平衡数MeanIR值,
根据公式3求出平均样本数MeanSamples的值;
根据公式4求出弱势标签度量Min-SCUMBLEIns的值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江师范大学,未经浙江师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010692452.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吸音材料及其制备方法和用途
- 下一篇:控制方法、装置、服务器及存储介质