[发明专利]一种用于UGC网站平台的多账户检测方法及装置有效
申请号: | 201410454038.6 | 申请日: | 2014-09-05 |
公开(公告)号: | CN104239490B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 罗绪成;刘梦娟;刘峤;陈伟;刘亚军;张翔;刘倩倩;汤四见;李伟铭;赵鹏 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 电子科技大学专利中心51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 ugc 网站 平台 账户 检测 方法 装置 | ||
技术领域
本发明属于数据关联技术领域,尤其涉及一种用于UGC网站平台的多账户检测。
背景技术
UGC(User Generated Content)用户生成内容,即用户将自己原创的内容(文本、视频、语音等)通过互联网平台进行展示或者提供给其他用户。UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站和在线论坛等,例如twitter、google+、facebook等,它们已经成为主流分享信息的网络平台。
随着UGC网站功能逐渐完善,随之带来的问题也逐渐增多,最为显著的就是“多账号攻击”,这种现象对UGC网站平台的后台管理带来了严重的困扰,在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销,妨碍了网络资源的合理应用,严重影响了UGC网站平台的性能。因此,对UGC网站上属于同一用户的的多个帐户进行检测识别引起了广泛的关注。
在多账户检测方法选取方面,现有的研究大部分采用多类分类器的方法来检测属于同一用户的多个帐户。在训练多类分类器时,使用的训练集是由一系列标有真实用户身份的帐户组成,将一个帐户所包含的数据分成多个部分,每一部分代表一个虚拟的用户帐户,从而假设出属于同一用户的多个帐户,来训练和测试分类器。但是,在实际应用中,UGC网站后台处理“多账户攻击”时,如果使用多类分类器的方法,很难确定UGC网站中帐户的真实身份,以及UGC网站中总共含有真实用户的数量,从而很难构成真实的训练集。因此,在UGC网站平台后台管理过程中,使用多类分类器的方法对属于同一用户的多账户进行检测不可行。
另外,现有的多用户帐户检测系统有很多种,这些方法的主要区别之处在于特征和检测方法的选取不同。在特征选取方面,主要可分为以下三种:第一种是基于帐户的名字提取特征检测属于同一用户的多帐户。通过从帐户名称中抽取特征来识别名字相似的用户帐户,将帐户名字相似的帐户划分为一个集合,这样可以把UGC网站的帐户划分为若干子集,每个子集对应于一位用户,但是,这种方法有个严重的缺点:如果某个用户在注册多个帐户时刻意使用了无规则的帐户名字,那么这种方法是无效的。因此,这种方法的健壮性不能满足实际需求。第二种是基于对帐户的语言书写风格来识别多用户帐户。因为每个人都有各自的书写习惯,并且该特征比较稳定不容易改变,但是现有的研究主要是针对博客等内容较长的网站进行分析,并且现有研究中所提取的语言书写风格特征数量比较大,种类比较少,同时,准确率还不是很理想。第三种是基于对帐户公开的信息进行分析来识别多个用户帐户。除每个帐户在注册时所公布的个人资料以外,用户帐户生成的信息中往往也含有关于用户个人的信息,例如时间、性别等,通过对帐户公布的这些信息进行分析,往往可以对公开信息相似的多个帐户进行识别。然而,帐户所公布的个人信息属于用户的个人隐私,用户所公布的不一定真实,尤其对于那些不法用户来说,所以这种方法的健壮性和准确率都不能得到保障,不能投入到实际使用中。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于单类分类器的多账户检测方法识别。
本发明的一种用于UGC网站平台的多账户检测方法,包括下列步骤:
步骤1:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;
步骤2:对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;
步骤3:分别计算用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
步骤301:用户账号Di的自关联相似度:
每选取K个特征向量样本点组成用户账号Di的一个数据点,所述K的取值为[1,10];
对每个用户账号Di,选取两组不同数据点组成集合N1i和N2i,两个集合所包含的数据点个数均为M个,所述M大于或等于2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410454038.6/2.html,转载请声明来源钻瓜专利网。