[发明专利]标签挖掘方法、装置及电子设备在审

专利信息
申请号: 202010687778.X 申请日: 2020-07-16
公开(公告)号: CN113946605A 公开(公告)日: 2022-01-18
发明(设计)人: 何攀;高小平;秦烁;王建明;黄冲;张丹峰 申请(专利权)人: 北京达佳互联信息技术有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/22
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 王萌
地址: 100085 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签 挖掘 方法 装置 电子设备
【说明书】:

本公开关于一种标签挖掘方法、装置及电子设备,涉及数据分析技术领域,其中,方法包括:获取挖掘需求,其中,挖掘需求包括需求关键词;根据需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本生成挖掘需求对应的正样本集合和负样本集合;根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型;以及根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息。由此,实现了根据挖掘需求以及样本数据库自动生成挖掘需求对应的标签挖掘模型,从而自动进行标签挖掘,节省了大量的人工成本,提高了标签挖掘效率。

技术领域

本公开涉及数据分析技术领域,尤其涉及一种标签挖掘方法、装置及电子设备。

背景技术

在数据分析和用户运营等领域,经常需要根据实际业务需要,给用户添加业务属性的标签,比如,为用户添加“有车”、“有房”等标签,以供分析、运营和营销活动时对用户进行筛选,以锁定高转化目标人群,实现精准营销。

相关技术中,一般根据单个用户的特征信息,例如年龄、性别、职业、应用使用记录等人工来确定业务所需的该用户的用户标签,这种人工确定用户标签的方式浪费了大量的人力成本,且效率低。

发明内容

本公开提供一种标签挖掘方法、装置及电子设备,以至少解决相关技术中的根据单个用户的特征信息,人工来确定业务所需的该用户的用户标签的方法,浪费了大量的人力成本,且效率低的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种标签挖掘方法,包括:获取挖掘需求,其中,所述挖掘需求包括需求关键词;根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,其中,所述样本数据库中的样本包括对象,以及对象的特征信息;根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型;以及根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息,其中,所述待挖掘对象为待确定是否有所述挖掘需求的对象。

在一种可能的实现形式中,所述根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,包括:根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征;根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合;以及根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。

在另一种可能的实现形式中,在所述根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合之后,包括:获取所述正样本集合中各个特征的出现次数;根据所述正样本集合中各个特征的出现次数确定待过滤特征;删除所述正样本集合的每个样本中的所述待过滤特征。

在另一种可能的实现形式中,当特征满足以下条件时,判断为所述待过滤特征:对应的出现次数小于预设次数阈值,且为非第一特征;和/或,对应的出现次数的排序序号小于预设序号阈值,且为非第一特征。

在另一种可能的实现形式中,所述根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合,包括:获取所述样本数据库中在第一预设时间段内处于活跃状态的活跃样本;以及根据所述活跃样本中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。

在另一种可能的实现形式中,所述根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型,包括:根据所述挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型;以及根据所述挖掘需求对应的正样本集合和负样本集合,对所述初始标签挖掘模型进行训练,以得到所述挖掘需求对应的标签挖掘模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010687778.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top