[发明专利]一种基于不平衡数据集的PTM-WKNN分类方法和装置在审
申请号: | 201810989980.0 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109376752A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 张华;金正平;秦素娟;刘胜兰;金学奇;陈国恩;张磊;董宁;段鹏;任天宇 | 申请(专利权)人: | 北京邮电大学;国网浙江省电力有限公司;国网北京市电力公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 王刚 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 测试集 权重 训练集样本 方法和装置 邻居 欧式距离 数据集 最近邻 待测样本 分类结果 分类样本 技术效果 计算训练 局部特性 权重计算 样本分类 分类 | ||
本发明公开了一种基于不平衡数据集的PTM‑WKNN分类方法和装置。其中所述方法包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。该方法和装置考虑了待分类样本的局部特性,又考虑到了每个近邻样本与待测样本的距离对样本分类的影响,具有更好的技术效果。
技术领域
本发明涉及不平衡数据集二分类技术领域,特别是指一种基于不平衡数据集的PTM-WKNN分类方法和装置。
背景技术
在生活中,数据不平衡的现象很常见,比如搜索引擎的点击预测、医疗诊断以及垃圾邮件检测等。在大部分不平衡问题中,少数类是被关注的重点,少数类也即正类,多数类也即负类。但在传统的分类算法中,往往将所有的样本一视同仁,这样虽然能取得一个较好的整体性能,但无法保证对于少数类的分类效果,因此就有必要研究针对不平衡数据集的分类方法。
对于不平衡数据集的分类,很多人致力于其研究并作出了相关工作,通常将已有的处理不平衡数据集的方法进行了归纳,将他们分为三类,即基于数据采样的方法、基于代价敏感的方法以及改进算法层面的方法。在算法层面,KNN(k-NearestNeighbor,邻近算法)是一种被简单且被广泛使用的分类方法,被应用于诸多领域,也包括对不平衡数据集进行分类。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数都属于某一个类别,则判定该样本也属于这个类别。通常情况下,可以使用K折交叉验证来估计KNN算法中的k值,并将该k值用于全体样本。K折交叉验证将原始数据均分成K组,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的性能平均数作为此时分类器的性能指标。通过比较不同近邻个数下的KNN方法中的K折交叉验证性能,最终取到最佳性能下对应的k值,即最佳的近邻个数取值。
传统的KNN存在一些不足,其中有一个问题就是该算法对所有的近邻都是分配的相等的权重,针对这个缺陷,WKNN在传统KNN的基础上进行了改进。对于每个测试集样本,WKNN考虑到了待测样本的k个邻居与待测样本的距离不同,造成的影响不同,越近的邻居造成的影响越大,越远的邻居影响越小,故引入权重随距离增大而减小的减函数作为权重函数,给更近的邻居分配更大的权重,而较远的邻居的权重相应减少,这就需要一个能把距离转换为权重的函数,如高斯函数,倒数函数等等,最后进行各类加权,将不同类别下的决策权重进行比较,得到各个样本的分类结果。除此之外,KNN分类器还存在一个问题,即如何寻找一个适当的k值。k值若太小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而k值若太大,如果待分类样本属于少数类,那么在选择k个近邻的时候,实际上并不相似的数据也被包含进来,造成噪声增加,从而导致分类效果降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;国网浙江省电力有限公司;国网北京市电力公司,未经北京邮电大学;国网浙江省电力有限公司;国网北京市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810989980.0/2.html,转载请声明来源钻瓜专利网。