[发明专利]一种基于层次聚类的虚假用户检测方法在审

申请号：	201710550833.9	申请日：	2017-07-07
公开（公告）号：	CN107358075A	公开（公告）日：	2017-11-17
发明（设计）人：	方勇;刘亮;黄诚;刘道胜;李扬	申请（专利权）人：	四川大学
主分类号：	G06F21/31	分类号：	G06F21/31;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	610065 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种基于层次聚类的虚假用户检测方法。主要包括以下步骤将网站用户数据表进行备份，将用户唯一性标识字段映射为字符串组成模式，并根据不同组成模式对海量数据进行预分类；计算每个分类中元素间的字符串相似度；设置合适的阈值对各个分类进行层次聚类，进而发现藏匿在海量注册数据中的成组的虚假账户。实验表明，本发明提出的研究方法有效，与现有的方法相比，该方法对数据维度、数据特性依赖较小。该发明可应用于当前大数据环境下的虚假用户检测。
搜索关键词：	一种基于层次虚假用户检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

本发明提出的一种基于层次聚类的虚假用户检测方法，其特征主要包括以下步骤：步骤一：备份用户数据表，从数据表中的获取数据集，然后确定哪些列可以作为用户唯一性标识字段；步骤二：将用户唯一性标识字段映射成字符串模式，并存储到另一个数据表中，以保证数据完整性；同时按不同字符串组成模式对海量数据进行预分类；步骤三：针对每个分类，将分类中每个元素作为一个集合，基于字符串相似性计算数据集间的相似度，并把相似度最高的两个集合合并；步骤四：重复计算新的集合间的相似度，合并相似度最高的集合，直至相似度最小值达到阈值K1；步骤五：过滤所有集合，取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710550833.9/，转载请声明来源钻瓜专利网。

上一篇：便于肥料储存的新型肥料储存装置
下一篇：PVC汽车密封条颗粒料的包装收集装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于层次聚类的虚假用户检测方法在审

专利文献下载