[发明专利]一种微博无效用户的检测方法在审
| 申请号: | 201711083894.5 | 申请日: | 2017-11-07 |
| 公开(公告)号: | CN107832413A | 公开(公告)日: | 2018-03-23 |
| 发明(设计)人: | 高建彬;薛美琦 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00;H04L12/58 |
| 代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 李小金,王正楠 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无效 用户 检测 方法 | ||
1.一种微博无效用户的检测方法,其特征在于,包括以下步骤:
步骤1、通过新浪API收集微博用户数据;
步骤2、对步骤1中的微博用户数据进行特征提取,并确定后续判定用户类型所选用的特征空间;
步骤3、利用步骤1得到的微博用户数据与步骤2中得到特征空间进行半监督聚类算法,得到初步的用户判别模型;
步骤4、使用决策树作为最终的训练算法,根据步骤3中得到的初步判决模型进行决策,得到最终的用户类型预测。
2.按照权利要求1所述的微博无效用户检测方法,其特征在于,所述步骤1具体包括如下步骤:
步骤1-1、创建一个用户列表,通过新浪API随机收集一部分用户信息,得到用户的关注者、粉丝和转发微博的博主一并填入用户列表,以此形成一张用户关系网;
步骤1-2、根据所述用户关系网获取网中每一位用户的微博数据资料,包括:用户的个人资料、微博发表总数量、转发微博数量、原创微博数量、微博总评论数、点赞内容、粉丝与关注者数量的变化曲线;
步骤1-3、将步骤1-1获得的用户关系网和步骤1-2获得的每一位用户的微博数据资料一起作为微博用户数据进行下一步处理。
3.按照权利要求1中所述的微博无效用户检测方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2-1、从所述步骤1中得到的所有微博用户数据中选取N个微博用户数据作为半监督学习中的标记数据,将这N个微博用户数据进行逻辑回归从而实现特征处理,得到活跃用户的基本属性;
步骤2-2、根据步骤2-1中的得到的基本属性,选取前15个区别度最大的基本属性作为半监督学习的特征空间。
4.按照权利要求3所述的微博无效用户的检测方法,其特征在于:所述步骤2-1得到的基本属性包括内容属性和行为属性。
5.按照权利要求3所述的微博无效用户的检测方法,其特征在于:N=1000。
6.按照权利要求1所述的微博无效用户检测方法,其特征在于,步骤3所述半监督聚类算法为CLARANS算法,所述步骤3具体包括如下步骤:
步骤3-1、使用CLARANS算法利用步骤2中的特征空间对步骤1得到的微博用户数据进行聚类,进行初步分类实验;
步骤3-2、利用CLARANS输出的训练结果,评估各个分类类别的性能,利用K折交叉验证解决过拟合问题,形成初步的用户判别模型。
7.按照权利要求6所述的微博无效用户的检测方法,其特征在于:所述步骤3-2所述的K折交叉验证过程为,将每次试验的原始样本划分为10个子样本并选择其中9个作为训练样本,剩余1个作为测试样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711083894.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文献引用关系的刊物聚类方法
- 下一篇:用于推送信息的方法和装置





