[发明专利]基于主题识别的网络舆情文本分类方法在审
申请号: | 202310404738.3 | 申请日: | 2023-04-17 |
公开(公告)号: | CN116467443A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 朱磊;王菁;马维纲;黑新宏;赵钦;杨明松;文苗青 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F18/214;G06F18/2415;G06F18/2431;G06N3/0464;G06N3/0475;G06N3/084;G06N3/094 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 识别 网络 舆情 文本 分类 方法 | ||
本发明公开了一种基于主题识别的网络舆情文本分类方法,具体包括如下步骤:步骤1,选取原始数据集,对该数据集进行处理;步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练;步骤4,对步骤3处理后的数据进行不相关词汇剔除;步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。本发明解决了网络空间中涉法舆情领域所爬取的评论数据呈现短文本居多且核心内容稀疏的问题,以及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题。
技术领域
本发明属于计算机自然处理技术领域,涉及一种基于主题识别的网络舆情文本分类方法。
背景技术
随着互联网的普及以及计算机相关技术的快速发展,社会舆论的呈现方式也逐渐从口口相传或人们从报纸、收音机和电视等媒介被动式获取信息转到了虚拟网络空间中,每个人都可以通过手中的智能手机或电脑键盘去成为主动传播舆情者,从而形成了互联网背景下的网络舆情。在诸多的网络舆情分类中,涉法网络舆情极为不同,涉及到的语言术语种类繁多,隐晦难懂,并且负面的涉法社会舆论性质恶劣影响深远,对公民的人身财产安全和思想健康有着严重的威胁。
随着计算机领域深度学习的不断发展,NLP相关技术提高了各类文本语言的理解和处理能力,特别是现有的文本分类技术,在文本的语义信息挖掘有着卓越的性能表现。现有的文本分类模型有Fasttext、DPCNN、TextRNN、TextRCNN、BiLSTM_Attention和TextCNN等,其中TextCNN与传统图像的CNN网络相比,其在网络结构上没有任何变化,它只有一层convolution,一层max-pooling,最后将输出外接softmax来n分类,但这些模型中部分存在效率低下、不适用于短文本处理的缺点,同时缺乏对于专业术语和隐晦词较多的涉及法律相关文本分类的考虑。
发明内容
本发明的目的是提供一种基于主题识别的网络舆情文本分类方法,解决了网络空间中涉法舆情领域所爬取的评论数据呈现短文本居多且核心内容稀疏的问题,以及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题。
本发明所采用的技术方案是,基于主题识别的网络舆情文本分类方法,具体包括如下步骤:
步骤1,选取原始数据集,对该数据集进行处理;
步骤2,对步骤1处理后的数据进行主题识别,得到与网络舆情主题相关的文本数据;
步骤3,采用混合数据增强技术对步骤2所得的文本数据进行对抗训练;
步骤4,对步骤3处理后的数据进行不相关词汇剔除;
步骤5,将经步骤4处理后的数据导入TextCNN模型中进行文本分类。
本发明的特点还在于:
步骤1的具体过程为:
步骤1.1,从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集,通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作,并经过格式转换处理为csv格式保存;
步骤1.2,使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词,然后人工删除掉拼接文本分词后的标点符号和停用词;
步骤1-3,将步骤1.2处理后的文本数据进行分类标签类别划分,划分为n类标签;
步骤1-4,按照步骤1-3划分的标签,对经步骤1.2处理后的文本进行标签标注;
步骤1-5,手动构建所分类的网络舆情主题文本的术语词典,其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本。
步骤2的具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310404738.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐热型UV阻燃涂料
- 下一篇:一种微服务注册中心多环境服务转发方法