[发明专利]兴趣主题生成方法、装置、设备及存储介质有效
| 申请号: | 201910200002.8 | 申请日: | 2019-03-15 |
| 公开(公告)号: | CN111694951B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 刘少杰;许金泉;周俊;戴明洋;王栋;石逸轩;潘剑飞 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 兴趣 主题 生成 方法 装置 设备 存储 介质 | ||
1.一种兴趣主题生成方法,其特征在于,包括:
对目标垂类中包括的各标签词进行聚类,得到至少两个标签簇;
根据所述至少两个标签簇中包括的各标签词信息,生成所述目标垂类的兴趣主题,包括:
根据每一标签簇中各标签词的权重,确定该标签簇的权重;
根据每一标签簇的权重,对所述至少两个标签簇进行筛选;
根据剩余的各标签簇,生成所述目标垂类的兴趣主题,包括:
将剩余的每一标签簇的簇中心标签词作为该标签簇的兴趣主题;
其中,所述每一标签簇的簇中心标签词采用向量形式进行表示。
2.根据权利要求1所述的方法,其特征在于,根据剩余的各标签簇,生成所述目标垂类的兴趣主题之后,还包括:
将剩余的每一标签簇中的标签词作为该标签簇所关联的兴趣主题的标签词。
3.根据权利要求1所述的方法,其特征在于,根据每一标签簇中各标签词的权重,确定该标签簇的权重之前,还包括:
确定每一标签簇中各标签词,与该标签簇中心之间的相似度;
根据相似度对该标签簇中各标签词进行筛选。
4.根据权利要求1所述的方法,其特征在于,根据每一标签簇中各标签的权重,确定该标签簇的权重之前,还包括:
根据各标签词在目标垂类文章中出现的频次,确定各标签词的权重。
5.根据权利要求1-4中任一所述的方法,其特征在于,对目标垂类中包括的各标签词进行聚类,包括:
根据目标垂类中包括的各标签词,确定各标签特征表示;
对各标签特征表示进行聚类。
6.一种兴趣主题生成装置,其特征在于,包括:
聚类模块,用于对目标垂类中包括的各标签词进行聚类,得到至少两个标签簇;
生成模块,用于根据所述至少两个标签簇中包括的各标签词信息,生成所述目标垂类的兴趣主题;
其中,所述生成模块包括:
标签簇权重确定单元,用于根据每一标签簇中各标签词的权重,确定该标签簇的权重;
标签簇筛选处理单元,用于根据每一标签簇的权重,对所述至少两个标签簇进行筛选;
兴趣主题生成单元,用于根据剩余的各标签簇,生成所述目标垂类的兴趣主题;
其中,所述兴趣主题生成单元具体用于:将剩余的每一标签簇的簇中心标签词作为该标签簇的兴趣主题;
其中,所述每一标签簇的簇中心标签词采用向量形式进行表示。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
标签词确定模块,用于将剩余的每一标签簇中的标签词作为该标签簇所关联的兴趣主题的标签词。
8.根据权利要求6所述的装置,其特征在于,所述生成模块还包括:
标签词相似度确定单元,用于确定每一标签簇中各标签词,与该标签簇中心之间的相似度;
标签词筛选单元,用于根据相似度对该标签簇中各标签词进行筛选。
9.根据权利要求6所述的装置,其特征在于,所述生成模块还包括:
标签词权重确定单元,用于根据各标签词在目标垂类文章中出现的频次,确定各标签词的权重。
10.根据权利要求6-9中任一所述的装置,其特征在于,所述聚类模块包括:
标签特征确定单元,用于根据目标垂类中包括的各标签词,确定各标签特征表示;
标签词聚类单元,用于对各标签特征表示进行聚类。
11.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-5中任一所述的兴趣主题生成方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一所述的兴趣主题生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910200002.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光模块
- 下一篇:通信方法、装置、设备及系统





