[发明专利]一种提取热点话题的方法、装置及存储介质有效
| 申请号: | 201911126826.1 | 申请日: | 2019-11-18 |
| 公开(公告)号: | CN111104511B | 公开(公告)日: | 2023-09-29 |
| 发明(设计)人: | 卢珑予;俞一鹏;孙子荀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/284;G06F18/2321;G06F18/22 |
| 代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 蔡艾莹 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提取 热点话题 方法 装置 存储 介质 | ||
本申请实施例提供一种提取热点话题的方法、装置及存储介质,所述方法包括:根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。本方案能够提高聚类效果以及发现更多的热词。
技术领域
本申请实施例涉及大数据处理技术领域,尤其涉及一种提取热点话题的方法、装置及存储介质。
背景技术
目前,一般会收集互联网中的文本信息,然后发掘其中的热点。具体来说,先从互联网下载近期一段时间内的论坛、博客、微博等网页,从这些网页中提取文本。然后分别对每个文本进行分词,获得一个词频向量,将所有文本的词频向量组合得到一个词频矩阵。再利用聚类算法对该词频矩阵进行聚类分析,使主题相同的文本聚在一起,这样就获得了很多主题的聚类簇。最后,提取每个聚类簇的文本的摘要或者每个聚类簇的关键词作为该聚类簇的解释(即对该新闻主题的解释)。
在对现有技术的研究和实践过程中,本申请实施例的发明人发现,每天的数据都在随着时间变化且内容杂乱,而基于该词频矩阵进行聚类分析得到的聚类簇的聚类效果不佳,相应的,在基于聚类得到的聚类簇的描述时,使用抽取式摘要的方法给出的描述会比较杂乱,概括性不强,而使用关键词抽取的方法给出的描述可阅读性较差,因此,难以给出合适的热点话题的描述。
发明内容
本申请实施例提供了一种提取热点话题的方法、装置及存储介质,能够提高聚类效果以及发现更多的热词。
第一方面中,本申请实施例提供一种提取热点话题的方法,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。
一种可能的设计中,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为文档频率大于文档频率阈值的词语;
将所述第一候选词语与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
一种可能的设计中,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911126826.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种博物馆AR文创装置
- 下一篇:雪车雪橇赛道拉毛工艺





