[发明专利]基于主题识别的网络舆情文本分类方法在审

专利信息
申请号: 202310404738.3 申请日: 2023-04-17
公开(公告)号: CN116467443A 公开(公告)日: 2023-07-21
发明(设计)人: 朱磊;王菁;马维纲;黑新宏;赵钦;杨明松;文苗青 申请(专利权)人: 西安理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/242;G06F18/214;G06F18/2415;G06F18/2431;G06N3/0464;G06N3/0475;G06N3/084;G06N3/094
代理公司: 西安弘理专利事务所 61214 代理人: 韩玙
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 主题 识别 网络 舆情 文本 分类 方法
【权利要求书】:

1.基于主题识别的网络舆情文本分类方法,其特征在于:具体包括如下步骤:

步骤1,选取原始数据集,对该数据集进行处理;

步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;

步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练;

步骤4,对步骤3处理后的数据进行不相关词汇剔除;

步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。

2.根据权利要求1所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤1的具体过程为:

步骤1.1,从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集,通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作,并经过格式转换处理为csv格式保存;

步骤1.2,使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词,然后人工删除掉拼接文本分词后的标点符号和停用词;

步骤1-3,将步骤1.2处理后的文本数据进行分类标签类别划分,划分为n类标签;

步骤1-4,按照步骤1-3划分的标签,对经步骤1.2处理后的文本进行标签标注;

步骤1-5,手动构建所分类的网络舆情主题文本的术语词典,其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本。

3.根据权利要求2所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤2的具体过程为:

步骤2.1,按照步骤1.3标注的标签对经步骤1.2处理后的文本进行拼接,构建出以主题帖为单位的文档级数据;其中假设包含D个文本的语料库,每个语料库文本中含有B个词对,每个语料库文本中有N个单词,每个语料库文本中一共涉及到K个主题;

步骤2.2,将步骤2.1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中,BTM模型中先生成词对语料库,利用语料库信息将短文本转化为词对模式,从语料库的层面去描述主题分布以及词分布。

4.根据权利要求3所述的基于主题识别的网络舆情文本分类方法,其特征在于:所述步骤2.2的具体过程为:

步骤2-2-1,通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布φk~Dir(β),其中φ为主题-词概率分布,即φk=P(w|r),Dir为BTM模型中所用到的数学概率迪利克雷分布,β是迪利克雷先验参数,标签主题用k表示,语料库联合形成的词向量为w以及主题分布为r,P(w|r)表示w,r的联合概率分布;

步骤2-2-2,在步骤2-1中得到的整个文本数据集合中随机获得一个主题分布θd~Dir(α),其中θ为文档-主题概率分布,语料库文本用d表示,Dir为BTM模型中所用到的数学概率迪利克雷分布,α是迪利克雷先验参数;

步骤2-2-3,对于词对集合B中的词对b,b∈B,从主题分布θ中任意抽取一个主题k,获得一个主题分配k~Multi(θk);从主题k中任意抽取一个词对biterm,即bi和bj,bi,bj~Multi(φk),其中Multi(*)表示参数为*的多项式分布,θk表示整个语料库中K个主题的概率分布,即θk=P(k);

文本的主题分布采用如下公式(1)表示:

P(d)=∑kP(k)P(bi|k)P(bj|k)=∑kθkφi|kφj|k        (1);

其中,∑k*表示针对于每一个主题k相关的(*)操作进行求和运算;θk,P(k)表示整个语料库中第k个主题的概率分布;P(b#|k)表示文本所取词b#对应的主题分布,由于词对b=(bi,bj),所以这里的#取i或j;φ#|k表示主题k下的词b#的概率分布;

根据公式(1),将词对b=(bi,bj)的联合分布概率计算出来,语料库中含有K个主题和|B|个词对,词对b则是由bi和bj组成,因而,整个语料库中双词集合B的概率P(B)采用如下公式(2)表示:

P(B)=Π(i,j)kP(k)P(bi|k)P(bj|k)     (2);

步骤2-2-4,根据文档中单词对的预期概率进行文档主题的推断,进行文档中的主题的条件概率分布计算:

P(k|d)=∑bP(k|b)P(b|d)    (3);

其中,P(k|d)表示文档d中的主题k下的条件概率分布,∑b(*)表示对于文本语料库中的每一个词对b的(*)操作进行求和运算,P(k|b)表示词对b对应主题k的条件概率分布,P(b|d)表示文本d中包含的词对b的条件概率分布;

其中,P(k|b)表示文档b中的主题k下的条件概率分布,P(b#|k)表示主题k下所包含词对中b#的条件概率分布,由于词对b=(bi,bj),所以这里的#取i或j,∑k(*)表示对于主题k的(*)操作进行求和运算;为了获取到文档中单词对的条件概率P(b|d),可以将单词对作为中间媒介来计算:

其中,nd(b)表示共现单词对b在文档d中出现的频次总和,且在舆情文本数据集中,P(b|d)可以看作是文档d中所有的共现词对b的均匀分布;

步骤2-2-5,采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样,当Gibbs采样收敛后,收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布,即可得到所有词的采样主题,利用所有采样得到的词和主题的对应关系,得到每个文档-主题分布θd和每个主题-词分布φk,从而从爬取文本数据中过滤掉不相关数据,只留下与网络舆情主题相关的文本数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310404738.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top