[发明专利]一种微博无效用户的检测方法在审
| 申请号: | 201711083894.5 | 申请日: | 2017-11-07 |
| 公开(公告)号: | CN107832413A | 公开(公告)日: | 2018-03-23 |
| 发明(设计)人: | 高建彬;薛美琦 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00;H04L12/58 |
| 代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 李小金,王正楠 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无效 用户 检测 方法 | ||
技术领域
本发明涉及社交网络管理领域,特别涉及一种微博无效用户的检测方法。
背景技术
当今中国,微博已经成为人们最主要的社交平台之一。微博允许用户发布原创内容,转发感兴趣的博文、关注感兴趣的用户、参与投票、发表评论并同时转发的社交软件。无数用户选择在微博上展示自己的生活,发表自己的原创博文等。对于关注数量多的话题或微博会出现在微博的热搜页面,该页面会向所有用户展示其他人这一段时间最关注的内容。根据现有的调查结果,绝大部分用户会选择关注微博热搜上出现的内容以及被点赞数量最多的评论等。随着用户数量的不断上升,微博的其他功能也越来越多的渗透到人们的生活中,一些商家在微博上发布广告,一些不法分子发布带有病毒的链接、图片和视频等,有些商家控制数以百计的微博账号,并使用这些帐号进行投票、对某些评论或内容进行点赞或转发,使得其控制的内容出现在微博的热搜,成为某一用户的空头粉丝。完成上述某一功能之后该微博账号便弃之不用,这些微博账号实则为无效的微博账号。这部分账户仅仅被使用在不法商家手里企图实现舆论控制,另外有不少无效账户是被用来对正常用户进行骚扰,如对正常用户私信不法内容等,情况严重的会干扰正常用户的使用体验。有效鉴别上述无效用户十分重要,但是由于用户数量巨大,不可能进行人工检测。
专利文件CN 103258039 B公布了一种微博伪造信息的检测方法,方法是在微博发布和管理部门设立微博检测系统,系统通过信息采集模块采集并保存被检测的微博帐号所发布的微博数据;由特征分析模块分析被检帐号发布的微博静态、动态及传播特征,建立特征库并定期更新;由检测预警模块检测被检帐号的微博信息,若当前采集的微博静态、动态及传播特征与特征库的特征差异超出了预定的报警阈值时则自动报警,表明出现了微博帐号盗用和伪造信息的发布;报警后由响应处理模块采取相应的措施处理。该专利文献主要通过分析热门微博的静态特征、动态特征和传播特征来鉴定微博信息是否伪造,主要特征包括常用字集合、转发数和转发速度等。不过该专利考虑的微博用户特征简单、容易出现较高的偏差、人工设定各特征权重可使实验结果出现过拟合。
专利文件CN 103458042 B公布了一种一种微博广告用户检测方法,方法是手动进行微博账户数据特征的提取和权重的确定、用WEKA进行数据特征的分类建模并进行判定。这种方法的缺点是采集的微博用户数量少、特征简单、容易出现较高的偏差、人工设定各特征权重可使实验结果出现过拟合的缺点。
发明内容
针对上述现有技术中检测微博无效用户的方法中采集的微博用户特征简单、容易出现较高的偏差、人工设定各特征权重可使实验结果出现过拟合的缺点。本发明提供一种微博无效用户的检测方法,其目的在于:实现精准、快速、有效地识别微博中的无效账号,从而减轻用户所受骚扰并提高微博用户的使用体验。
本发明采用的技术方案如下:
一种微博无效用户的检测方法,包括以下步骤:
步骤1、通过新浪API收集微博用户数据;
步骤2、对步骤1中的微博用户数据进行特征提取,并确定后续判定用户类型所选用的特征空间;
步骤3、利用步骤1得到的微博用户数据与步骤2中得到特征空间进行半监督聚类算法,得到初步的用户判别模型;
步骤4、使用决策树作为最终的训练算法,根据步骤3中得到的初步判决模型进行决策,得到最终的用户类型预测。
采用该技术方案后,所有数据特征采用半监督学习方式,保证计算结果精确度高、可被重复使用。采用建模的方法提高检测效率,适用于大规模的用户检测。
优选的,步骤1具体包括如下步骤:
步骤1-1、创建一个用户列表,通过新浪API随机收集一部分用户信息,得到用户的关注者、粉丝和转发微博的博主一并填入用户列表,以此形成一张用户关系网;
步骤1-2、根据所述用户关系网获取网中每一位用户的微博数据资料,包括:用户的个人资料、微博发表总数量、转发微博数量、原创微博数量、微博总评论数、点赞内容、粉丝与关注者数量的变化曲线;
步骤1-3、将步骤1-1获得的用户关系网和步骤1-2获得的每一位用户的微博数据资料一起作为微博用户数据进行下一步处理。
本优选方案直接使用爬虫获取样本数据,获取的微博信息特征比较简单,具有快速高效的特点。
优选的,步骤2具体包括如下步骤:
步骤2-1、从所述步骤1中得到的所有微博用户数据中选取N个微博用户数据作为半监督学习中的标记数据,将这N个微博用户数据进行逻辑回归从而实现特征处理,得到活跃用户的基本属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711083894.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文献引用关系的刊物聚类方法
- 下一篇:用于推送信息的方法和装置





