[发明专利]一种热点话题识别的方法、装置及可读存储介质在审
申请号: | 201711092187.2 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107783961A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 毕银龙 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点话题 识别 方法 装置 可读 存储 介质 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种热点话题识别的方法、装置及计算机可读存储介质。
背景技术
随着计算机网络的发展,基于网络的各种观点、评论等层出不穷,为了及时了解社会热点事件、观察社会动态,为企业、政府等做出适当决策提供指导,往往需要对网络上的评论、观点等进行分析,并识别出热点话题。
现有技术中,通常将获取到的文本分成词语,并直接统计各个词语出现的频率,选取频率高的词语作为热点话题。而对于网络上的论坛,用户在发表评论时,网络用语及日常用语较多,而网络用语及日常用语往往表述不规范,容易导致错误分词,并且,对于部分分词后的词语,可能并不能作为话题,导致最终选出的频率较高的词语可能并不能作为热点话题。
因此,如何更加准确地识别出热点话题,是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种热点话题识别的方法、装置及计算机可读存储介质,更加准确有效地识别出社会热点话题。
为了解决上述技术问题,本发明提供一种热点话题识别的方法,包括:
采集论坛对应的文本;
依据分词工具将所述文本划分为词语;
根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
优选地,所述采集论坛对应的文本后,进一步包括:
对采集到的所述文本进行预处理,并进入所述依据分词工具将所述文本分为词语的步骤。
优选地,所述对采集到的所述文本进行预处理具体包括:
获取所述文本中的错别字及表情符号,并对所述文本进行修正;
删除所述文本中的停用词。
优选地,所述依据分词工具将所述文本分为词语之后,进一步包括:
对存在分词错误的所述词语进行合并,并进入所述根据语料库筛选所述词语的步骤。
优选地,所述选择频率大于设定值的所述词语作为热点话题之后,进一步包括:
依据情感词典分析包括所述热点话题的文本以获取对应的用户的情感倾向。
优选地,所述采集论坛对应的文本具体为:
通过爬虫迭代获取论坛对应的网页的URL链接;
根据所述URL链接获取网页;
对所述网页进行正则表达式的匹配以获取所需文本。
本发明还提供一种热点话题识别的装置,包括:
采集装置,用于采集论坛对应的文本;
划分装置,用于依据分词工具将所述文本划分为词语;
筛选计算装置,用于根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择装置,用于选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
优选地,还包括:
预处理装置,用于对采集到的所述文本进行预处理。
本发明还提供一种热点话题识别的装置,包括处理器,所述处理器用于执行存储器中存储的程序时实现上述任一种热点话题识别的方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如下步骤:
采集论坛对应的文本;
依据分词工具将所述文本划分为词语;
根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;
选择频率大于设定值的所述词语作为热点话题;
其中,所述分词工具的词典中包括预设标准格式的词语。
采集论坛对应的文本;依据分词工具将文本划分为词语;根据语料库筛选词语,并依次计算筛选出的各词语在全部筛选出的词语中出现的频率;选择频率大于设定值的词语作为热点话题;其中,分词工具的词典中包括预设标准格式的词语。可见,分词工具的词典中包括预设标准格式的词语,可以将日常用语、网络用语作为预设标准格式的词语,对文本进行分词时,可以将预设标准格式的词语识别出来并作为分词后的词语,并对分词后的词语依据语料库进行筛选,对于不能作为话题的词语,不再计算频率并作为最终的热点话题,因此,能够更加准确地识别出热点话题。本发明提供的热点话题识别的装置及计算机可读存储介质,效果如上。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711092187.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对无线终端的天线进行校准的设备和方法
- 下一篇:一种平坦度校准方法和系统