[发明专利]一种基于三角质心权重的过采样方法在审
申请号: | 202110976931.5 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113792765A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 周红芳;陈佳琳 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王奇 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三角 质心 权重 采样 方法 | ||
1.一种基于三角质心权重的过采样方法,其特征在于,应用了Borderline-SMOTE方法的初始操作,将数据分为噪音(noise),危险(danger),以及安全(safe)三部分,然后对danger类样本选择其同类近邻,再根据权重与权重系数确定新样本最终的位置,以加强相关样本特征,具体步骤为:
步骤1,将待处理样本量化为数值,计算量化后样本的特征权重;
步骤2,对量化后的样本进行danger类样本提取;
步骤3,搜索danger类样本的近邻样本;
步骤4,对于每个danger样本的近邻样本,随机找出两个近邻样本,计算三个点的三角质心坐标,得到质心样本;
步骤5,所述质心样本中对质心坐标的每一个特征分别乘以步骤1得到的特征权重,得到偏移质心,所有所述偏移质心组成质心偏移样本;
步骤6:根据遗传算法确定质心偏移样本的权重系数,所述权重系数乘以偏移质心,最终得到新样本。
2.如权利要求1所述的一种基于三角质心权重的过采样方法,其特征在于,所述步骤1中通过Relief方法来计算所述特征权重。
3.如权利要求1所述的一种基于三角质心权重的过采样方法,其特征在于,所述danger类样本的提取方法为:应用Borderline-SMOTE方法思想将待处理样本中的多数类和少数类划分开来,并对每一个少数类样本搜索k近邻,得到该样本附近的多数类个数m(k≥m≥0);如果m=k,说明该负类样本附近都是正类,该样本将被认定为噪音(noise),停止操作;如果m的值为k的一半及以上,那么认为该负类样本是容易被误分类的样本,称其为危险(danger),即需要获取的安全类样本;如果m的值不到k的一半,那么认为该负类样本是安全的(safe),停止操作。
4.如权利要求1所述的一种基于三角质心权重的过采样方法,其特征在于,所述三角质心坐标的计算方式为:
Centroid=(D(A)+D(B)+D(C))/3 (3)
式(3)中,Centroid是三角质心坐标,D(A)是danger样本的中心点坐标,D(B)与D(C)为danger样本的两个近邻样本。
5.如权利要求1所述的一种基于三角质心权重的过采样方法,其特征在于,所述新样本的合成方法为:
Newsample=Centroid*Featrue Weight*Weightcoefficient (4)
其中,Centroid是三角质心坐标,Featrue Weight是各个特征的权重,Weightcofficient则是权重系数。
6.如权利要求1所述的一种基于三角质心权重的过采样方法,其特征在于,所述权重系数通过遗传算法来确定,在0-1之间生成初始种群,通过对十进制数转化成的二进制字符串权重系数的不断地进行遗传算法中的选择,交叉,变异,种群保留,在进行了设定的迭代次数后终止,获得最佳权重系数与分类结果,其中定初始种群数为10,迭代20代,采用锦标赛选择方法进行选择,采用两点交叉的方式,0.7交叉概率,染色体长度分之一来作为变异概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110976931.5/1.html,转载请声明来源钻瓜专利网。