[发明专利]一种提取热点话题的方法、装置及存储介质有效

申请号：	201911126826.1	申请日：	2019-11-18
公开（公告）号：	CN111104511B	公开（公告）日：	2023-09-29
发明（设计）人：	卢珑予;俞一鹏;孙子荀	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/284;G06F18/2321;G06F18/22
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	蔡艾莹
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取热点话题方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种提取热点话题的方法、装置及存储介质，所述方法包括：根据文本得到多个聚类簇，所述聚类簇包括多个词语；根据聚类簇之间的相似度合并得到多个候选簇；根据所述多个候选簇中各候选簇的簇热度，从所述多个候选簇中选择目标簇，所述目标簇为簇热度高于热度阈值的候选簇；根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出，所述热度短语用于描述热点话题。本方案能够提高聚类效果以及发现更多的热词。

技术领域

本申请实施例涉及大数据处理技术领域，尤其涉及一种提取热点话题的方法、装置及存储介质。

背景技术

目前，一般会收集互联网中的文本信息，然后发掘其中的热点。具体来说，先从互联网下载近期一段时间内的论坛、博客、微博等网页，从这些网页中提取文本。然后分别对每个文本进行分词，获得一个词频向量，将所有文本的词频向量组合得到一个词频矩阵。再利用聚类算法对该词频矩阵进行聚类分析，使主题相同的文本聚在一起，这样就获得了很多主题的聚类簇。最后，提取每个聚类簇的文本的摘要或者每个聚类簇的关键词作为该聚类簇的解释(即对该新闻主题的解释)。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，每天的数据都在随着时间变化且内容杂乱，而基于该词频矩阵进行聚类分析得到的聚类簇的聚类效果不佳，相应的，在基于聚类得到的聚类簇的描述时，使用抽取式摘要的方法给出的描述会比较杂乱，概括性不强，而使用关键词抽取的方法给出的描述可阅读性较差，因此，难以给出合适的热点话题的描述。

发明内容

本申请实施例提供了一种提取热点话题的方法、装置及存储介质，能够提高聚类效果以及发现更多的热词。

第一方面中，本申请实施例提供一种提取热点话题的方法，所述方法包括：

根据文本得到多个聚类簇，所述聚类簇包括多个词语；

根据聚类簇之间的相似度合并得到多个候选簇；

根据所述多个候选簇中各候选簇的簇热度，从所述多个候选簇中选择目标簇，所述目标簇为簇热度高于热度阈值的候选簇；

根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出，所述热度短语用于描述热点话题。

一种可能的设计中，所述根据文本得到多个聚类簇之后，所述根据聚类簇之间的相似度合并得到多个候选簇之前，所述方法还包括：

从所述多个聚类簇中确定第一候选词语，所述第一候选词语为文档频率大于文档频率阈值的词语；

将所述第一候选词语与预设词典进行匹配，得到目标词语，所述目标词语为话题领域的话题属性和话题特征，所述目标词语与所述第一候选词语属于相同或相似的话题领域；

将所述第一候选词语与所述目标词语取并集，并更新到对应的聚类簇。

一种可能的设计中，所述根据聚类簇之间的相似度合并得到多个候选簇，包括：