[发明专利]基于主题识别的网络舆情文本分类方法在审
申请号: | 202310404738.3 | 申请日: | 2023-04-17 |
公开(公告)号: | CN116467443A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 朱磊;王菁;马维纲;黑新宏;赵钦;杨明松;文苗青 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F18/214;G06F18/2415;G06F18/2431;G06N3/0464;G06N3/0475;G06N3/084;G06N3/094 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 识别 网络 舆情 文本 分类 方法 | ||
1.基于主题识别的网络舆情文本分类方法,其特征在于:具体包括如下步骤:
步骤1,选取原始数据集,对该数据集进行处理;
步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;
步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练;
步骤4,对步骤3处理后的数据进行不相关词汇剔除;
步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。
2.根据权利要求1所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤1的具体过程为:
步骤1.1,从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集,通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作,并经过格式转换处理为csv格式保存;
步骤1.2,使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词,然后人工删除掉拼接文本分词后的标点符号和停用词;
步骤1-3,将步骤1.2处理后的文本数据进行分类标签类别划分,划分为n类标签;
步骤1-4,按照步骤1-3划分的标签,对经步骤1.2处理后的文本进行标签标注;
步骤1-5,手动构建所分类的网络舆情主题文本的术语词典,其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本。
3.根据权利要求2所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤2的具体过程为:
步骤2.1,按照步骤1.3标注的标签对经步骤1.2处理后的文本进行拼接,构建出以主题帖为单位的文档级数据;其中假设包含D个文本的语料库,每个语料库文本中含有B个词对,每个语料库文本中有N个单词,每个语料库文本中一共涉及到K个主题;
步骤2.2,将步骤2.1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中,BTM模型中先生成词对语料库,利用语料库信息将短文本转化为词对模式,从语料库的层面去描述主题分布以及词分布。
4.根据权利要求3所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤2.2的具体过程为:
步骤2-2-1,通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布φk~Dir(β),其中φ为主题-词概率分布,即φk=P(w|r),Dir为BTM模型中所用到的数学概率迪利克雷分布,β是迪利克雷先验参数,标签主题用k表示,语料库联合形成的词向量为w以及主题分布为r,P(w|r)表示w,r的联合概率分布;
步骤2-2-2,在步骤2-1中得到的整个文本数据集合中随机获得一个主题分布θd~Dir(α),其中θ为文档-主题概率分布,语料库文本用d表示,Dir为BTM模型中所用到的数学概率迪利克雷分布,α是迪利克雷先验参数;
步骤2-2-3,对于词对集合B中的词对b,b∈B,从主题分布θ中任意抽取一个主题k,获得一个主题分配k~Multi(θk);从主题k中任意抽取一个词对biterm,即bi和bj,bi,bj~Multi(φk),其中Multi(*)表示参数为*的多项式分布,θk表示整个语料库中K个主题的概率分布,即θk=P(k);
文本的主题分布采用如下公式(1)表示:
P(d)=∑kP(k)P(bi|k)P(bj|k)=∑kθkφi|kφj|k (1);
其中,∑k*表示针对于每一个主题k相关的(*)操作进行求和运算;θk,P(k)表示整个语料库中第k个主题的概率分布;P(b#|k)表示文本所取词b#对应的主题分布,由于词对b=(bi,bj),所以这里的#取i或j;φ#|k表示主题k下的词b#的概率分布;
根据公式(1),将词对b=(bi,bj)的联合分布概率计算出来,语料库中含有K个主题和|B|个词对,词对b则是由bi和bj组成,因而,整个语料库中双词集合B的概率P(B)采用如下公式(2)表示:
P(B)=Π(i,j)∑kP(k)P(bi|k)P(bj|k) (2);
步骤2-2-4,根据文档中单词对的预期概率进行文档主题的推断,进行文档中的主题的条件概率分布计算:
P(k|d)=∑bP(k|b)P(b|d) (3);
其中,P(k|d)表示文档d中的主题k下的条件概率分布,∑b(*)表示对于文本语料库中的每一个词对b的(*)操作进行求和运算,P(k|b)表示词对b对应主题k的条件概率分布,P(b|d)表示文本d中包含的词对b的条件概率分布;
其中,P(k|b)表示文档b中的主题k下的条件概率分布,P(b#|k)表示主题k下所包含词对中b#的条件概率分布,由于词对b=(bi,bj),所以这里的#取i或j,∑k(*)表示对于主题k的(*)操作进行求和运算;为了获取到文档中单词对的条件概率P(b|d),可以将单词对作为中间媒介来计算:
其中,nd(b)表示共现单词对b在文档d中出现的频次总和,且在舆情文本数据集中,P(b|d)可以看作是文档d中所有的共现词对b的均匀分布;
步骤2-2-5,采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样,当Gibbs采样收敛后,收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布,即可得到所有词的采样主题,利用所有采样得到的词和主题的对应关系,得到每个文档-主题分布θd和每个主题-词分布φk,从而从爬取文本数据中过滤掉不相关数据,只留下与网络舆情主题相关的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310404738.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐热型UV阻燃涂料
- 下一篇:一种微服务注册中心多环境服务转发方法