[发明专利]一种网络文本舆情分类的方法及系统有效
申请号: | 201611260608.3 | 申请日: | 2016-12-30 |
公开(公告)号: | CN107045524B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 11309 北京亿腾知识产权代理事务所(普通合伙) | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 文本 舆情 分类 方法 系统 | ||
1.一种网络文本舆情分类的方法,其特征在于,包括以下步骤:
构建敏感词词表;
对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;
将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;
将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,
所述第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。
2.根据权利要求1所述的方法,其特征在于,所述词权重计算算法包括以下步骤:
对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;
设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。
3.根据权利要求2所述的方法,其特征在于,所述权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。
4.一种网络文本舆情分类的系统,其特征在于,包括:
处理模块,用于构建敏感词词表;对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;
匹配模块,将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,所述匹配模块具体用于,所述第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示词频总数,m表示匹配词数。
5.根据权利要求4所述的系统,其特征在于,所述词权重计算算法包括以下步骤:
对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;
设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。
6.根据权利要求5所述的系统,其特征在于,所述权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611260608.3/1.html,转载请声明来源钻瓜专利网。