[发明专利]一种热点话题识别的方法、装置及可读存储介质在审
申请号: | 201711092187.2 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107783961A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 毕银龙 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种热点话题识别的方法,采集论坛对应的文本;依据分词工具将文本划分为词语;根据语料库筛选词语,并依次计算筛选出的各词语在全部筛选出的词语中出现的频率;选择频率大于设定值的词语作为热点话题;其中,分词工具的词典中包括预设标准格式的词语。可见,分词工具的词典中包括预设标准格式的词语,可以将日常用语、网络用语作为预设标准格式的词语,对文本进行分词时,可以将预设标准格式的词语识别出来并作为分词后的词语,并对分词后的词语依据语料库进行筛选。能够更加准确地识别出热点话题。本发明还公开了一种热点话题识别的装置及计算机可读存储介质,效果如上。 | ||
搜索关键词: | 一种 热点话题 识别 方法 装置 可读 存储 介质 | ||
【主权项】:
一种热点话题识别的方法,其特征在于,包括:采集论坛对应的文本;依据分词工具将所述文本划分为词语;根据语料库筛选所述词语,并依次计算筛选出的各所述词语在全部筛选出的所述词语中出现的频率;选择频率大于设定值的所述词语作为热点话题;其中,所述分词工具的词典中包括预设标准格式的词语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711092187.2/,转载请声明来源钻瓜专利网。
- 上一篇:对无线终端的天线进行校准的设备和方法
- 下一篇:一种平坦度校准方法和系统