[发明专利]基于社交文本的网络舆情话题识别方法和系统有效

申请号：	202010150112.0	申请日：	2020-03-06
公开（公告）号：	CN111506785B	公开（公告）日：	2023-07-07
发明（设计）人：	姜元春;张吉;孙见山;任祖杰;单海军;刘心语;钱洋;梁瑞成	申请（专利权）人：	之江实验室;合肥工业大学
主分类号：	G06F16/9032	分类号：	G06F16/9032;G06F16/951;G06F40/284;G06N7/01;G06Q50/00;G06Q50/26
代理公司：	北京久诚知识产权代理事务所(特殊普通合伙) 11542	代理人：	余罡
地址：	310000 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于社交文本网络舆情话题识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于社交文本的网络舆情话题识别方法，涉及文本数据处理技术领域。本发明考虑到噪音词对文本话题发现的影响，将生成词中的主题词和生成词的噪声词分开，将噪音词过滤并推断出每个词的主题词分布，从而能准确的判断出生成该词对应的网络舆情话题，提高网络舆情话题识别的准确率，为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种基于社交文本的网络舆情话题识别方法和系统。

背景技术

随着互联网的快速发展，社交网络成为社交媒体环境中一个重要组成部分，如新浪微博、Facebook、Twitter等正在成为非常受欢迎的社交平台。越来越多的用户在社交平台上发表自己的观点和评论，产生了大量的用户数据。面对这些可用的网络数据，准确发现其对应的主题，对于舆情监测、个性化营销等实际场景具有很高的应用价值。例如，在社会舆情监测中，政府或者相关管理部门可以根据用户在不同平台上发布的言论确定其态度和感情，从而进行正确的引导。

由于海量网络信息的快速增长，近年来的研究主要集中在利用大规模的在线数据来挖掘有价值的主题信息，例如，在网络舆情分析系统中，网络事件具有突发性和快速传播性，及时迅速地对网络文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策；在知识转移领域中，将知识库中的知识进行话题检测，可以除去冗余数据并且将知识进行归类，可以提高后续知识传输和吸收过程中的效率。在话题发现中，文本聚类是常用的话题发现方法，近年来，越来越多学者开始将LDA应用到网络文本的话题发现，通过LDA模型的训练得到文本的潜在主题信息，进而有效地提取文本主题，实现话题的发现，

然而，LDA模型忽略了随意性语言(即为本申请中所述的噪声词)可能导致的问题，导致模型不能准确识别出网络舆情话题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于社交文本的网络舆情话题识别方法和系统，解决了现有技术不能准确识别出网络舆情话题的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种基于社交文本的网络舆情话题识别方法，所述方法由计算机执行，包括以下步骤：

S1、获取多个用户的社交媒体数据的文本集合，并确定所述文本集合的主题数量；

S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词；

S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计；

S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题。

优选的，在S1中，所述获取社交媒体数据的文本集合，并确定所述文本集合的主题数量，包括：