[发明专利]一种基于NB-Bagging的短文本分类方法有效

专利信息
申请号: 202110079516.X 申请日: 2021-01-21
公开(公告)号: CN112749756B 公开(公告)日: 2023-10-13
发明(设计)人: 刘虎;丁明月;赵世栋;宋东林;顾刚;王梦华 申请(专利权)人: 淮阴工学院
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/289;G06F18/214;G06F18/2415
代理公司: 淮安市科文知识产权事务所 32223 代理人: 李锋
地址: 223005 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 nb bagging 文本 分类 方法
【说明书】:

发明公开了一种基于NB‑Bagging的短文本分类方法,属于文本分类与机器学习领域。针对朴素贝叶斯弱分类器的样本属性关联性差和过拟合问题,提出了一种朴素贝叶斯用Bagging思想集成的短文本分类方法。本方法首先使用结巴分词方法完成文本的分词,然后使用词向量空间模型和TF‑IDF算法来获得特征项和权重矩阵,再通过多个朴素贝叶斯分类器用Bagging方法集成得到多组分类预测标签,最后通过少数服从多数的投票方式得到最终的分类预测标签。本发明实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了短文本分类的准确度。

技术领域

本发明涉及短文本分类技术领域,具体涉及一种基于NB-Bagging的短文本分类方法。

背景技术

在面对短文本的分类问题的时候,由于短文本长度短、词项特征稀疏等特点,导致传统的长文本分类方法不再适用于短文本分类。在文本分类领域中取得较成功的长文本分类方法难以直接应用到短文本分类中,短文本分类技术(Short Text Classification)在一定程度上可以解决上述短文本应用中面临的挑战,该技术是近年来国内外众多学者的研究热点之一,也是自然语言处理(NLP)领域中一项至关重要的任务,针对短文本的分类算法已经成为目前研究者亟待解决的一个研究难题。

现如今,比较主流的机器学习方法有朴素贝叶斯(Naïve Bayes, NB)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)、多类逻辑回归(Softmax Regression, SR)、随机森林(Random Forest, RF)、深度神经网络(Deep NeuralNetwork, DNN)等。

传统的短文本分类方法主要是利用朴素贝叶斯单个弱分类器进行分类,其存在两个问题:1)分类过程中容易过拟合,过拟合会导致模型在预测时准确率低;2)样本属性关联性差,,忽略了数据之间的关联性;3.分类决策存在错误率。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种基于NB-Bagging的短文本分类方法,利用NB-Bagging算法对文本进行有监督训练测试,实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了短文本分类的准确度。

技术方案:本发明提供了一种基于NB-Bagging的短文本分类方法,包括如下步骤:

步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行 Bunch类数据化处理,得到Bunch数据类型G2'和H2';

步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2;

步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F;

步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。

进一步地,所述步骤1的具体方法为:

步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={(label,text1, name1),(label,text2, name2),…,(label,textN,nameN)},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110079516.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top