[发明专利]用户标签的生成方法及设备在审
申请号: | 202210101598.8 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114443734A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 吴嘉伟 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/958;G06V10/764;G06V10/22;G06K9/62;G10L15/26 |
代理公司: | 北京同钧律师事务所 16037 | 代理人: | 许怀远 |
地址: | 310056 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 标签 生成 方法 设备 | ||
本申请提供一种用户标签的生成方法及设备,应用于大数据技术领域。通过获取预设时段内热度值大于阈值的多个目标内容,从多个目标内容中确定已创建的用户标签,获取已创建的用户标签在多个目标内容的上下文信息,通过对已创建的用户标签在多个目标内容的上下文信息进行数据分析,可得到每个已创建的用户标签所对应的新用户标签。上述方案是基于已有用户标签从数据平台时下热点内容中挖掘新的用户标签,可学习到新的网络词,并将其转换为新用户标签,可提高用户标签挖掘的效率和质量。
技术领域
本申请涉及大数据技术领域,尤其涉及一种用户标签的生成方法及设备。
背景技术
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。用户标签是用户画像的核心要素,以数据共享平台为例,通过对某用户在数据共享平台内产生的如点赞、收藏等行为数据进行综合分析,可确定该用户具有差异性特征的用户标签。
目前,在大多数业务场景中,主要采用人工运营的方式进行用户标签的构建,该方式受到人工经验的局限,难以发现知识体系以外的标签内容,用户标签的扩展性较差。
随着大数据时代的来临,如何在海量数据中进行用户标签的挖掘,以提高用户标签挖掘的准确率,是各大数据平台亟待解决的一个问题。
发明内容
本申请实施例提供一种用户标签的生成方法及设备,提高用户标签挖掘的效率和质量。
本申请实施例的第一方面提供一种用户标签的生成方法,包括:
获取预设时段内热度值大于阈值的多个目标内容;
从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息;
通过对所述已创建的用户标签在所述多个目标内容的上下文信息进行数据分析,生成新用户标签。
本申请第一方面的一个可选实施例中,所述获取预设时段内热度值大于阈值的多个目标内容,包括:
获取第一内容在所述预设时段内的交互统计数据,所述第一内容为用户发布的任一内容;
根据所述第一内容的交互统计数据确定所述第一内容在所述预设时段内的热度值,若所述第一内容的热度值大于所述阈值,确定所述第一内容为所述目标内容。
本申请第一方面的一个可选实施例中,所述第一内容的交互统计数据包括浏览数量、点赞数量、收藏数量、转发数量、留言数量的至少一项;
所述根据所述第一内容的交互统计数据确定所述第一内容在所述预设时段内的热度值,包括:
根据所述第一内容的各类交互统计数据以及预设的各类交互统计数据的权重值,确定所述第一内容在所述预设时段内的热度值。
本申请第一方面的一个可选实施例中,所述多个目标内容包括文本内容;所述从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息,包括:
基于文本关键词检测算法从所述文本内容中提取多个关键词;
若所述多个关键词中包含与所述已创建的用户标签相匹配的目标关键词,获取所述目标关键词在所述文本内容的上下文信息。
本申请第一方面的一个可选实施例中,所述多个目标内容包括视频内容;所述从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息,包括:
提取所述视频内容中的音频数据,基于语音识别算法将所述音频数据转化为第一文本数据,从所述第一文本数据中提取多个关键词;
若所述多个关键词中包含与所述已创建的用户标签相匹配的目标关键词,获取所述目标关键词在所述第一文本数据的上下文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210101598.8/2.html,转载请声明来源钻瓜专利网。