[发明专利]基于聚类过采样与实例硬度阈值的数据重采样方法在审
申请号: | 202010949329.8 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112115992A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 殷茗;马怀宇;朱奎宇;张小港;高存志 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/40 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 采样 实例 硬度 阈值 数据 方法 | ||
1.一种基于聚类过采样与实例硬度阈值的数据重采样方法,其特征在于步骤如下:
步骤1:从文本数据集中随机选择k条文本样本作为初始聚类中心,采用K-means算法对数据集中的所有文本进行聚类处理,然后,以聚类后各个类别的中心为初始聚类中心,采用K-means算法对数据集中的所有样本进行聚类处理,重复以上过程,直至所有样本所属的聚类类别不再发生变化,得到聚类结果;所述的k的取值为2、5、10或15;
步骤2:对于步骤1得到的每一个聚类,如果其中少数类文本与多数类文本的数量比小于不平衡率阈值irt,则删除该聚类;所述的不平衡率阈值irt的取值为1、1.5或2;
设经过上述处理后剩余n个聚类,按以下过程对剩余聚类进行采样权重分配:
步骤a:计算每个聚类中所有两两少数类文本数据之间的欧几里得距离,然后计算每个聚类中所有少数类文本之间的欧几里得距离的均值作为其平均距离;
步骤b:按照下式计算得到每个聚类的少数类文本密度D(i):
其中,M(i)表示第i个聚类中所包含的少数类文本的数量,m为文本对应的特征项数量,i=1,…,n;
步骤c:按照下式计算得到每个聚类的稀疏度量值S(i):
其中,N(i)表示第i个聚类中所包含的文本总数,i=1,…,n;
步骤d:按照下式计算得到每个聚类的采样权重W(i):
其中,S(i)表示第i个聚类的稀疏度量值,i=1,…,n;
步骤3:采用SMOTE算法对步骤2中的n个聚类中的文本数据分别进行过采样处理,在每个聚类中人工生成新的少数类文本;其中,设定SMOTE算法生成的少数类文本数量为各个聚类的采样权重与两种类别文本数量差值的乘积,设定SMOTE算法中的临近样本参数neighbors的取值为2、5、10或15;
步骤4:将步骤3处理后的n个聚类得到的数据作为平衡数据集,采用实例硬度阈值算法对数据集中每条文本进行硬度计算,去除被错误分类的高硬度文本,得到最终的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010949329.8/1.html,转载请声明来源钻瓜专利网。