[发明专利]一种提取热点话题的方法、装置及存储介质有效
| 申请号: | 201911126826.1 | 申请日: | 2019-11-18 |
| 公开(公告)号: | CN111104511B | 公开(公告)日: | 2023-09-29 |
| 发明(设计)人: | 卢珑予;俞一鹏;孙子荀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/284;G06F18/2321;G06F18/22 |
| 代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 蔡艾莹 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提取 热点话题 方法 装置 存储 介质 | ||
1.一种提取热点话题的方法,其特征在于,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据目标词频、第一比重参数、所述目标词频占历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;其中,当目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值;其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
从所述目标簇中提取多个词语,根据支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;
将所述第一热点集合中的各词语进行组合,得到多个组合短语;
根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;
将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;
根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个目标组合短语;
将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;
从所述多个热点集合中确定热度短语并输出,所述热度短语用于描述热点话题。
2.根据权利要求1所述的方法,其特征在于,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
3.根据权利要求2所述的方法,其特征在于,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
4.根据权利要求3所述的方法,其特征在于,所述得到多个候选簇之后,所述从所述多个候选簇中获得目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911126826.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种博物馆AR文创装置
- 下一篇:雪车雪橇赛道拉毛工艺





