[发明专利]一种热点话题识别的方法、装置及可读存储介质在审
申请号: | 201711092187.2 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107783961A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 毕银龙 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点话题 识别 方法 装置 可读 存储 介质 | ||
1.一种热点话题识别的方法,其特征在于,包括:
采集论坛对应的文本;
依据分词工具将所述文本划分为词语;
根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
2.根据权利要求1所述的方法,其特征在于,所述采集论坛对应的文本后,进一步包括:
对采集到的所述文本进行预处理,并进入所述依据分词工具将所述文本分为词语的步骤。
3.根据权利要求2所述的方法,其特征在于,所述对采集到的所述文本进行预处理具体包括:
获取所述文本中的错别字及表情符号,并对所述文本进行修正;
删除所述文本中的停用词。
4.根据权利要求1所述的方法,其特征在于,所述依据分词工具将所述文本划分为词语之后,进一步包括:
对存在分词错误的所述词语进行合并,并进入所述根据语料库筛选所述词语的步骤。
5.根据权利要求1所述的方法,其特征在于,所述选择频率大于设定值的所述词语作为热点话题之后,进一步包括:
依据情感词典分析包括所述热点话题的文本以获取对应的用户的情感倾向。
6.根据权利要求1所述的方法,其特征在于,所述采集论坛对应的文本具体为:
通过爬虫迭代获取论坛对应的网页的URL链接;
根据所述URL链接获取网页;
对所述网页进行正则表达式的匹配以获取所需文本。
7.一种热点话题识别的装置,其特征在于,包括:
采集单元,用于采集论坛对应的文本;
划分单元,用于依据分词工具将所述文本划分为词语;
筛选计算单元,用于根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择单元,用于选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
8.根据权利要求7所述的装置,其特征在于,还包括:
预处理单元,用于对采集到的所述文本进行预处理。
9.一种热点话题识别的装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的程序时实现如权利要求1至6任一项所述热点话题识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如下步骤:
采集论坛对应的文本;
依据分词工具将所述文本划分为词语;
根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711092187.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对无线终端的天线进行校准的设备和方法
- 下一篇:一种平坦度校准方法和系统