[发明专利]一种恶意用户的识别方法和系统有效
申请号: | 201611147191.X | 申请日: | 2016-12-13 |
公开(公告)号: | CN108616491B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 陈华 | 申请(专利权)人: | 北京酷智科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100190 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 用户 识别 方法 系统 | ||
本发明提供了一种恶意用户的识别方法和系统,涉及互联网技术领域。所述方法包括:获取某一段时间内的历史注册用户;利用指定维度的边缘行为数据筛选出真实用户生成正样本集;选取已被禁封的恶意用户生成负样本集;针对正、负样本集中的每一个注册用户,提取N个不同维度的边缘特征以构建相应注册用户的特征向量;将上述正、负样本集中的每一个注册用户的特征向量输入机器学习框架中进行训练,得出恶意用户识别模型;根据上述的恶意用户识别模型对新注册用户进行识别。通过本方法可以有效识别应用平台上注册的恶意用户,并能降低对真实用户的误伤率。
技术领域
本发明涉及互联网技术领域,特别是涉及一种恶意用户的识别方法和系统。
背景技术
随着网络技术的不断发展,各种类型的网络平台为人们的生活带来了便捷和愉悦。热门的网络平台吸引了大量的用户注册,但同时也吸引了大量的垃圾用户恶意注册。如何对注册用户进行识别和过滤,已经成为每个网络平台研发人员必不可少的工作。
在先的对注册用户识别的方法大致是通过设定用户注册方式或者用户行为的各个阈值来确定,例如,同一个IP(Internet Protocol,网络之间互连的协议)犯罪次数大于5次为恶意账号,同一个设备ID(Device ID,设备唯一标识)犯罪次数大于10次为恶意账号等。
在发明人应用上述方法的过程中发现,由于利益的牵制,恶意用户往往通过多次尝试就可以获取该阈值,并调整其作弊策略以绕过现有的反作弊机制。并且,类似于该种常见的单维度的特征的识别方式,可能遗漏其他恶意用户,对真实用户误伤几率也较高。
发明内容
鉴于上述现有技术的缺陷,本发明要解决的技术问题是提供一种恶意用户的识别方法和系统,用以识别恶意用户并降低对真实用户的误伤率。
为了解决上述问题,本发明公开了一种恶意用户的识别方法,所述方法包括:
根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集;所述初始真实用户样本集包括初始的真实用户,所述初始恶意用户样本集包括初始的恶意用户;
根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户,以生成正样本集;
根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户,以生成负样本集;
针对所述正样本集与负样本集中的每一个注册用户,提取N个不同维度的边缘特征,以构建相应注册用户的特征向量;
将所述正样本集与负样本集中每一个注册用户的特征向量作为输入,训练恶意用户识别模型;
对于新注册的用户,提取所述N个不同维度的边缘特征构建特征向量;
利用所述恶意用户识别模型对所述特征向量输入进行识别,以确定所述新注册用户是否为恶意用户。
优选的,所述根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集的步骤,包括:
对于每个历史注册用户,当所述历史注册用户的使用行为数据中有唱歌操作数据,且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据小于等于相应的筛选条件阈值,且所述历史注册用户的属性信息中的注册IP是没有被禁封的历史记录,则将所述历史注册用户加入初始真实用户样本集;
当所述历史注册用户的使用行为数据中没有唱歌操作数据,且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据大于相应的筛选条件阈值,且所述历史注册用户的属性信息中的注册IP有被禁封的历史记录,则将所述历史注册用户加入初始恶意用户样本集。
优选的,所述根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户,以生成负样本集的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷智科技有限公司,未经北京酷智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611147191.X/2.html,转载请声明来源钻瓜专利网。