[发明专利]一种刷量用户识别方法及装置在审
| 申请号: | 202011338380.1 | 申请日: | 2020-11-25 |
| 公开(公告)号: | CN112529051A | 公开(公告)日: | 2021-03-19 |
| 发明(设计)人: | 王嘉伟 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16;G06Q30/00;G06Q50/00 |
| 代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 郭智 |
| 地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 识别 方法 装置 | ||
本发明实施例提供一种刷量用户识别方法及装置,其中,所述方法包括:获取网站访问用户最近时间段内的设定次数的网站访问日志;按访问时间顺序获取所述设定次数的网站访问日志中的访问接口,从而建立访问用户矩阵数据;根据设定的目标维度对所述访问用户矩阵数据以及预先建立的正常用户矩阵数据和刷量用户矩阵数据进行降维,得到降维后的访问用户行向量、正常用户行向量和刷量用户行向量;分别计算所述访问用户行向量与正常用户行向量和与刷量用户行向量的余弦相似度;根据余弦相似度判断访问用户是否为刷量用户。根据本发明的技术方案,提升整个系统的计算速度和网络传输速度的同时,解决了因内存和计算力量不足所导致的程序无法运行的问题。
技术领域
本发明涉及数据处理领域,具体涉及一种刷量用户识别方法及装置。
背景技术
在现代的社交媒体中,一些用户通过脚本或者工具不断的执行一些操作,这种行为干扰了平台正常的秩序,需要把这些用户找出来。现在原始数据是访问日志,格式是:
访问时间,访问接口,访问用户id,即uid
2020-03-22-08:33:21:888,A,39
一条日志代表了用户对网站的一次访问行为,这种日志一般数量巨大,以肉眼来分析其中的用户性质几乎是不可能的。
在实现本技术方案的过程中,发现现有技术中存在以下问题:现有技术中通过分析用户网站访问日志数据,与预先设置的对比矩阵数据进行计算判断,所使用的矩阵在实际使用中可能过于巨大,导致其运算、网络传输均极慢。还会因矩阵过于巨大导致内存、算力不足进而程序无法运行的问题。
发明内容
本发明实施例提供一种刷量用户识别方法及装置,在尽量缩小矩阵大小,提升整个系统的计算速度和网络传输速度的同时,解决了因内存和计算力量不足所导致的程序无法运行的问题。
为达到上述目的,一方面,本发明实施例提供了一种刷量用户识别方法,所述方法包括:
获取网站访问用户最近时间段内的设定次数的网站访问日志,所述网站访问日志记录访问时间、访问接口及访问用户;
按访问时间顺序获取所述设定次数的网站访问日志中的访问接口;
根据所述访问接口的排序序列建立访问用户矩阵数据;
根据设定的目标维度对所述访问用户矩阵数据以及预先建立的正常用户矩阵数据和刷量用户矩阵数据进行降维,得到降维后的访问用户行向量、正常用户行向量和刷量用户行向量;
分别计算所述访问用户行向量与正常用户行向量和与刷量用户行向量的余弦相似度;若所述访问用户行向量与所述正常用户行向量的余弦相似度大于与所述刷量用户行向量的余弦相似度,则判定所述访问用户为正常用户;反之,则判定所述访问用户为刷量用户。
另一方面,本发明实施例提供了一种刷量用户识别装置,所述装置包括:
日志获取单元,用于获取网站访问用户最近时间段内的设定次数的网站访问日志,所述网站访问日志记录访问时间、访问接口及访问用户;
访问接口获取单元,用于按访问时间顺序获取所述设定次数的网站访问日志中的访问接口;
用户矩阵建立单元,用于根据所述访问接口的排序序列建立访问用户矩阵数据;
降维单元,用于根据设定的目标维度对所述访问用户矩阵数据以及预先建立的正常用户矩阵数据和刷量用户矩阵数据进行降维,得到降维后的访问用户行向量、正常用户行向量和刷量用户行向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011338380.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种印刷电路板的浸沾设备
- 下一篇:一种用于建筑施工的混凝土旋转搅拌混合装置





