[发明专利]一种网络文本舆情分类的方法及系统有效
申请号: | 201611260608.3 | 申请日: | 2016-12-30 |
公开(公告)号: | CN107045524B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 11309 北京亿腾知识产权代理事务所(普通合伙) | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 文本 舆情 分类 方法 系统 | ||
本发明涉及一种网络文本舆情分类的方法及系统,该方法包括以下步骤:构建敏感词词表;将敏感词词表分类成多个敏感类别,每个敏感类别包含多个关键词;通过第一相似度算法将多个关键词与网络文本进行匹配,根据匹配结果对网络文本进行舆情分类。该系统包括:处理模块和匹配模块。本发明通过对文本处理获取阶段时间内人们关注的热点信息;利用敏感词词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,提供服务并助于相关信息技术工作。
技术领域
本发明涉及语言类信息处理领域,具体涉及一种网络文本舆情分类的方法及系统。
背景技术
网络舆情是指网民通过互联网对政府管理和社会生活中的种种现象,问题表达政治信念,态度,意见和情绪的总和,跟现实中的舆论相比较,网络舆情传播更快,范围更大等特点。如何提取有效的藏文信息以及开展藏文舆情分析工作,是非常值得研究的课题。
了解社会动态和发展趋势,更快更全面的抓住舆情动向,从而进行正确的引导舆论和宣传。对藏文网络舆情的分析,可以得到舆情信息的时间和空间分布,通过对热点深层次的追踪,可以了解到舆情的源头以及动向,对政府部门应对网络突发的公共事件具有推动作用。
本发明提供的一种网络文本舆情分类的方法及系统,在关于舆情处理技术部分,首先采集了敏感词库,通过敏感词库可以对网络文本进行舆情词追踪。对舆情词库进行类别分类后,利用这个词库对网络文本进行舆情分类,通过对藏文舆情词追踪以及舆情相关技术处理结果有较高的准确率。
本发明将有助于藏文文本相关信息技术工作。通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务。
发明内容
本发明的目的是解决现阶段藏文文本相关信息技术工作中的缺点,本发明通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务。
为实现上述目的,一方面,本发明提供了一种网络文本舆情分类的方法,该方法包括以下步骤:构建敏感词词表;将敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;将至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对网络文本进行舆情分类。
优选地,根据网络词汇构建敏感词词表的步骤之后还包括以下步骤:对网络文本进行分词和去停用词处理,获得第一网络文本;根据敏感词词表获得第一网络文本中的敏感词;根据词权重计算算法确定敏感词中的热度敏感词;对热度敏感词和第一网络文本进行第二相似度算法计算,并根据计算结果对第一网络文本进行舆情分类。
词权重计算算法包括以下步骤:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇;设置Temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,敏感词词表与网络文本集进行匹配,匹配出的词存储Temp表中。
权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611260608.3/2.html,转载请声明来源钻瓜专利网。