[发明专利]一种短文本分类方法有效
申请号: | 201710686945.7 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107368611B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 康琦;张量 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
地址: | 201804 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种短文本分类方法,该短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。 | ||
搜索关键词: | 短文本分类 超平面 权重 欠采样 子域 样本 多类样本 文本分类 稀疏性 有效地 采样 高维 分割 分类 赋予 | ||
【主权项】:
1.一种短文本分类方法,其特征在于:包括以下步骤:S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型;其中,步骤S1具体步骤如下:S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM‑dm)/m;S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710686945.7/,转载请声明来源钻瓜专利网。