[发明专利]一种用于UGC网站平台的多账户检测方法及装置有效

申请号：	201410454038.6	申请日：	2014-09-05
公开（公告）号：	CN104239490B	公开（公告）日：	2017-05-10
发明（设计）人：	罗绪成;刘梦娟;刘峤;陈伟;刘亚军;张翔;刘倩倩;汤四见;李伟铭;赵鹏	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	电子科技大学专利中心51203	代理人：	周刘英
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于 ugc 网站平台账户检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于UGC网站平台的多账户检测方法，其特征在于，包括下列步骤：

步骤1：从UGC网站平台的本地数据库中确定用户账户集D，并对所述用户账户集D中的每个用户账号，分别提取各用户账号生成的四个以上文本内容；

步骤2：对用户账户集D中的每个用户账号的各个文本内容进行特征提取，生成对应的特征向量样本点；

步骤3：分别计算用户账户集D中的每个用户账号D_i的自关联相似度和互关联相似度：

步骤301：用户账号D_i的自关联相似度：

每选取K个特征向量样本点组成用户账号D_i的一个数据点，所述K的取值为[1,10]；

对每个用户账号D_i，选取两组不同数据点组成集合N1_i和N2_i，两个集合所包含的数据点个数均为M个，所述M大于或等于2；

以数据点集合N1_i作为训练集训练单类分类器，将数据点集合N2_i作为测试集，记录当前单类分类器输出的准确率为S_i(N1_i,N2_i)；以数据点集合N2_i作为训练集训练单类分类器，将数据点集合N1_i作为测试集，记录当前单类分类器输出的准确率为S_i(N2_i,N1_i)；

用户账号D_i的自关联相似度为所述准确率S_i(N1_i,N2_i)和准确率S_i(N2_i,N1_i)的乘积；

步骤302：用户账号D_i关于用户账号Q_j的互关联相似度：

分别从用户账号D_i与用户账号Q_j中选取M个不同数据点，组成集合ND_i和NQ_j，其中用户账号Q_j属于用户账户集D，且与用户账号D_i的账户名不同；

以数据点集合ND_i作为训练集训练单类分类器，将数据点集合NQ_j作为测试集，记录当前单类分类器输出的准确率为S_i(ND_i,NQ_j)；以数据点集合NQ_j作为训练集训练单类分类器，将数据点集合ND_i作为测试集，记录当前单类分类器输出的准确率为S_i(NQ_j,ND_i)；

用户账号D_i的互关联相似度为所述准确率S_i(ND_i,NQ_j)和准确率S_i(NQ_j,ND_i)的乘积；

步骤4：基于用户账号D_i的自关联相似度和互关联相似度，输出用户账号D_i的相同账号：若用户账号D_i的自关联相似度与关于用户账号Q_j的互关联相似度的差值小于或等于预设阈值，则用户账号Q_j与用户账号D_i的相同账号。

2.如权利要求1所述的方法，其特征在于，所述步骤4中，预设阈值的取值范围为(0，3％]。

3.如权利要求1所述的方法，其特征在于，所述步骤2中，在对每个用户账号的各个文本内容进行特征提取时，首先基于每个文本的字符数和语种对提取的多个文本内容进行初始过滤处理，再基于预设特征字符对过滤后的各个文本进行特征提取；

所述初始过滤处理具体为：若文本的字符数小于预设阈值，则从用户账户集D中删除所述文本对应的用户账号；若文本内容是非英语语种的文本，则删除该文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410454038.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载