[发明专利]一种用户识别方法、装置、电子设备和存储介质在审
申请号: | 201811271801.6 | 申请日: | 2018-10-29 |
公开(公告)号: | CN111104628A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 林蕾;林灯;李焜 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06Q30/02 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 识别 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种用户识别方法、装置、电子设备和存储介质。所述方法包括:获取各用户的用户行为数据;从所述用户行为数据中提取出若干个特征,根据提取的特征生成特征向量;将所述特征向量输入预先训练得到的用户识别模型,得到各用户的用户识别结果。该技术方案利用机器学习训练得到的用户识别模型,从原生的用户行为数据中提取特征进行用户识别,区别于人工规则的方式,能够从用户行为数据中挖掘出更多信息和潜在规律,相较于现有技术中的用户识别方式,识别精度更高,效率也更高。
技术领域
本发明涉及计算机技术领域,具体涉及一种用户识别方法、装置、电子设备和存储介质。
背景技术
在各行各业,产品都离不开用户的支撑。为了吸收更多用户(也称为“获客”),产品往往通过不同的渠道来推广内容,例如依赖于广告进行推广,在互联网时代,用户可以非常方便地通过点击广告跳转到产品的注册页面,注册成为产品的用户。
产品往往会选择多个内容渠道进行推广,通常会按照推广效果进行付费。例如,通过某广告渠道进行注册的用户数量就是一个考察的因素。部分广告渠道提供方为了牟利,进行了作弊,使得注册的用户中实际存在一部分作弊用户。因此需要一种能够识别出作弊等特定类型用户的方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户识别方法、装置、电子设备和存储介质。
依据本发明的一个方面,提供了一种用户识别方法,包括:
获取各用户的用户行为数据;
从所述用户行为数据中提取出若干个特征,根据提取的特征生成特征向量;
将所述特征向量输入预先训练得到的用户识别模型,得到各用户的用户识别结果。
可选地,所述获取各用户的用户行为数据包括:
从用户行为打点日志中,根据用户标识提取并整理得到各用户的用户行为数据。
可选地,该方法还包括:
提供包含若干个埋点的前端页面,根据所述埋点收集所述用户行为打点日志;
所述前端页面包括:注册页面和/或产品页面。
可选地,所述各用户的用户行为数据为与用户注册相关的用户行为数据。
可选地,所述特征包括如下的一类或多类:
设备特征、手机号码特征、网络特征、内容渠道特征、行为特征。
可选地,所述设备特征包括如下的一种或多种:
设备信息、系统信息。
可选地,所述手机号码特征包括如下的一种或多种:
手机号码前三位、手机号码中间四位。
可选地,所述网络特征包括如下的一种或多种:
点分十进制IP地址的第一段、点分十进制IP地址的第二段、点分十进制IP地址的第三段、点分十进制IP地址转成的整数、IP地址的数目、IP地址对应的地理位置的数目。
可选地,所述内容渠道特征为内容渠道数目。
可选地,所述行为特征包括如下的一种或多种:
点击次数、发送第一次点击时的时间、页面停留时长、同时发生的行为数目、点击时间间隔的最大值、点击时间间隔的平均值、点击时间间隔的标准差。
可选地,所述用户识别模型是基于梯度提升树GBDT训练得到的。
可选地,该方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811271801.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:壳体的制造方法及壳体
- 下一篇:一种用户识别方法、装置、电子设备和存储介质