[发明专利]基于主题识别的网络舆情文本分类方法在审

申请号：	202310404738.3	申请日：	2023-04-17
公开（公告）号：	CN116467443A	公开（公告）日：	2023-07-21
发明（设计）人：	朱磊;王菁;马维纲;黑新宏;赵钦;杨明松;文苗青	申请（专利权）人：	西安理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/242;G06F18/214;G06F18/2415;G06F18/2431;G06N3/0464;G06N3/0475;G06N3/084;G06N3/094
代理公司：	西安弘理专利事务所 61214	代理人：	韩玙
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于主题识别网络舆情文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于主题识别的网络舆情文本分类方法，其特征在于：具体包括如下步骤：

步骤1，选取原始数据集，对该数据集进行处理；

步骤2，对步骤1处理后的数据进行主题识别，得到与网络舆情主题相关的文本数据；

步骤3，采用混合数据增强技术对步骤2所得的文本数据进行对抗训练；

步骤4，对步骤3处理后的数据进行不相关词汇剔除；

步骤5，将经步骤4处理后的数据导入TextCNN模型中进行文本分类。

2.根据权利要求1所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤1的具体过程为：

步骤1.1，从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集，通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作，并经过格式转换处理为csv格式保存；

步骤1.2，使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词，然后人工删除掉拼接文本分词后的标点符号和停用词；

步骤1-3，将步骤1.2处理后的文本数据进行分类标签类别划分，划分为n类标签；

步骤1-4，按照步骤1-3划分的标签，对经步骤1.2处理后的文本进行标签标注；

步骤1-5，手动构建所分类的网络舆情主题文本的术语词典，其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本。

3.根据权利要求2所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤2的具体过程为：

步骤2.1，按照步骤1.3标注的标签对经步骤1.2处理后的文本进行拼接，构建出以主题帖为单位的文档级数据；其中假设包含D个文本的语料库，每个语料库文本中含有B个词对，每个语料库文本中有N个单词，每个语料库文本中一共涉及到K个主题；

步骤2.2，将步骤2.1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中，BTM模型中先生成词对语料库，利用语料库信息将短文本转化为词对模式，从语料库的层面去描述主题分布以及词分布。

4.根据权利要求3所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤2.2的具体过程为：

步骤2-2-1，通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布φ_k～Dir(β)，其中φ为主题-词概率分布，即φ_k＝P(w|r)，Dir为BTM模型中所用到的数学概率迪利克雷分布，β是迪利克雷先验参数，标签主题用k表示，语料库联合形成的词向量为w以及主题分布为r，P(w|r)表示w，r的联合概率分布；

步骤2-2-2，在步骤2-1中得到的整个文本数据集合中随机获得一个主题分布θ_d～Dir(α)，其中θ为文档-主题概率分布，语料库文本用d表示，Dir为BTM模型中所用到的数学概率迪利克雷分布，α是迪利克雷先验参数；

步骤2-2-3，对于词对集合B中的词对b，b∈B，从主题分布θ中任意抽取一个主题k，获得一个主题分配k～Multi(θ_k)；从主题k中任意抽取一个词对biterm，即b_i和b_j，b_i，b_j～Multi(φ_k)，其中Multi(*)表示参数为*的多项式分布，θ_k表示整个语料库中K个主题的概率分布，即θ_k＝P(k)；

文本的主题分布采用如下公式(1)表示：

P(d)＝∑_kP(k)P(b_i|k)P(b_j|k)＝∑_kθ_kφ_i|kφ_j|k (1)；

其中，∑_k*表示针对于每一个主题k相关的(*)操作进行求和运算；θ_k，P(k)表示整个语料库中第k个主题的概率分布；P(b_#|k)表示文本所取词b_#对应的主题分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j；φ_#|k表示主题k下的词b_#的概率分布；

根据公式(1)，将词对b＝(b_i，b_j)的联合分布概率计算出来，语料库中含有K个主题和|B|个词对，词对b则是由b_i和b_j组成，因而，整个语料库中双词集合B的概率P(B)采用如下公式(2)表示：

P(B)＝Π_(i，j)∑_kP(k)P(b_i|k)P(b_j|k) (2)；

步骤2-2-4，根据文档中单词对的预期概率进行文档主题的推断，进行文档中的主题的条件概率分布计算：

P(k|d)＝∑_bP(k|b)P(b|d) (3)；

其中，P(k|d)表示文档d中的主题k下的条件概率分布，∑_b(*)表示对于文本语料库中的每一个词对b的(*)操作进行求和运算，P(k|b)表示词对b对应主题k的条件概率分布，P(b|d)表示文本d中包含的词对b的条件概率分布；

其中，P(k|b)表示文档b中的主题k下的条件概率分布，P(b_#|k)表示主题k下所包含词对中b_#的条件概率分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j，∑_k(*)表示对于主题k的(*)操作进行求和运算；为了获取到文档中单词对的条件概率P(b|d)，可以将单词对作为中间媒介来计算：

其中，n_d(b)表示共现单词对b在文档d中出现的频次总和，且在舆情文本数据集中，P(b|d)可以看作是文档d中所有的共现词对b的均匀分布；

步骤2-2-5，采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样，当Gibbs采样收敛后，收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布，即可得到所有词的采样主题，利用所有采样得到的词和主题的对应关系，得到每个文档-主题分布θ_d和每个主题-词分布φ_k，从而从爬取文本数据中过滤掉不相关数据，只留下与网络舆情主题相关的文本数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310404738.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种耐热型UV阻燃涂料
下一篇：一种微服务注册中心多环境服务转发方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于主题识别的网络舆情文本分类方法在审

专利文献下载