[发明专利]一种基于NB-Bagging的短文本分类方法有效
| 申请号: | 202110079516.X | 申请日: | 2021-01-21 |
| 公开(公告)号: | CN112749756B | 公开(公告)日: | 2023-10-13 |
| 发明(设计)人: | 刘虎;丁明月;赵世栋;宋东林;顾刚;王梦华 | 申请(专利权)人: | 淮阴工学院 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F18/214;G06F18/2415 |
| 代理公司: | 淮安市科文知识产权事务所 32223 | 代理人: | 李锋 |
| 地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 nb bagging 文本 分类 方法 | ||
1.一种基于NB-Bagging的短文本分类方法,其特征在于,包括如下步骤:
步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行 Bunch类数据化处理,得到Bunch数据类型G2'和H2';
步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2;
步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F;
步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。
2.根据权利要求1所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={(label,text1, name1),(label,text2, name2),…,(label,textN,nameN)},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];
步骤1.2:定义训练集和测试集分别为G1和H1,G1={Text1,Text2,…,TextA},H1={Text1,Text2,…,TextB};
步骤1.3:使用结巴分词方法对G1和H1处理,去掉结巴分词库里的常用词和符号,得到分词后的文本数据集G2和H2,G2={Text1,Text2,…,TextP},H2={Text1,Text2,…,TextQ};
步骤1.4: 定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合,满足target_name={labels,filenames,contents};
步骤1.5:对G2和H2 Bunch类数据化处理,得到Bunch数据类型G2'和H2',G2'={target_name1,target_name2,…,target_nameA},H2'={target_name1,target_name2,…,target_nameB}。
3.根据权利要求1所述的基于NB-Bagging的短文本分类方法,其特征在于,所述步骤2的具体方法为:
步骤2.1:使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理,得到过滤后的Bunch类数据集G2''和H2'';
步骤2.2:通过词向量空间模型建立G2''中文本内容的词向量空间V1,使用权重策略TF-IDF对V1进行处理,得到训练集的二维权重矩阵T1,T1=[v1,v2,…,vm];
步骤2.3:将V1词向量空间映射到H2''文本内容上,得到测试集词向量空间V2,使用TF-IDF权重策略处理V2,得到测试集的二维权重矩阵T2,T2=[v1,v2,…,vn]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079516.X/1.html,转载请声明来源钻瓜专利网。





