[发明专利]兴趣标签确定方法和装置有效
申请号: | 201710074401.5 | 申请日: | 2017-02-10 |
公开(公告)号: | CN108335165B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 孔行;叶浩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;H04L12/18 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 标签 确定 方法 装置 | ||
1.一种兴趣标签确定方法,其特征在于,包括:
获取群组标识和对应的群组名称;
获取与所述群组标识对应的各用户标识及各用户标识的第一用户内容;所述第一用户内容包括对与所述用户标识对应的所有群组标识的群组名称进行拼接获得的内容;
对与所述群组标识对应的所有用户标识的第一用户内容进行拼接,获得所述群组标识的第一群组内容;
根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率;
根据所述第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签;
所述主题标识和主题-词语分布结果、所述主题标识与兴趣标签之间的关联关系的确定方式包括:
获取满足预设条件的各群组标识及对应的群组名称;
获取与各群组标识对应的每个用户标识的第二用户内容;所述第二用户内容包括对与所述用户标识对应的所有群组标识的群组名称拼接获得的内容;
对与各群组标识对应的所有用户标识的所述第二用户内容进行拼接,得到各群组标识的第二群组内容;
确定目标主题数量;
采用主题模型对各所述第二群组内容进行分析,获得与所述目标主题数量对应的各主题标识下的主题-词语分布结果;所述主题-词语分布结果包括各词语在各主题下的分布概率;
根据所述主题-词语分布结果中每个主题标识下的分布概率最大的前N个词语对每个主题标识设置标签,并从中确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果。
2.根据权利要求1所述的方法,其特征在于,根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率的方式包括:
根据所述主题标识和主题-词语分布结果,采样得到所述第一群组内容中每个词语所属的主题标识;
统计每个主题标识下每个词语出现的次数得到所述第一群组内容在各主题标识下的概率。
3.根据权利要求1所述的方法,其特征在于,根据所述第一群组内容在各主题标识下的概率、根据所述预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签的方式包括:
根据第一群组内容在各主题标识下的概率,提取概率最大的前M个概率对应的主题标识,并获取与概率最大的前M个概率对应的主题标识关联的兴趣标签;
建立M个所述兴趣标签与所述群组标识的对应关系,将M个所述兴趣标签确定为所述群组标识的兴趣标签。
4.根据权利要求1所述的方法,其特征在于,在确定所述群组标识的兴趣标签之后,还包括步骤:
获取与用户标识对应的所有群组标识及群组标识的兴趣标签;
为所述用户标识设置兴趣标签;所述用户标识的兴趣标签包括与所述用户标识对应的所有的群组标识的兴趣标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710074401.5/1.html,转载请声明来源钻瓜专利网。