[发明专利]一种网络文本舆情分类的方法及系统有效

专利信息
申请号: 201611260608.3 申请日: 2016-12-30
公开(公告)号: CN107045524B 公开(公告)日: 2019-12-27
发明(设计)人: 胥桂仙 申请(专利权)人: 中央民族大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 11309 北京亿腾知识产权代理事务所(普通合伙) 代理人: 陈霁
地址: 100081 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 文本 舆情 分类 方法 系统
【权利要求书】:

1.一种网络文本舆情分类的方法,其特征在于,包括以下步骤:

构建敏感词词表;

对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;

将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;

将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,

所述第一相似度算法的公式如下所示:

Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|

其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。

2.根据权利要求1所述的方法,其特征在于,所述词权重计算算法包括以下步骤:

对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;

设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。

3.根据权利要求2所述的方法,其特征在于,所述权重计算公式如下所示:

weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)

其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。

4.一种网络文本舆情分类的系统,其特征在于,包括:

处理模块,用于构建敏感词词表;对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;

匹配模块,将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,所述匹配模块具体用于,所述第一相似度算法的公式如下所示:

Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|

其中,Di表示第一网络文本,Cj表示敏感类别,n表示词频总数,m表示匹配词数。

5.根据权利要求4所述的系统,其特征在于,所述词权重计算算法包括以下步骤:

对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;

设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。

6.根据权利要求5所述的系统,其特征在于,所述权重计算公式如下所示:

weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)

其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611260608.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top