[发明专利]网络水军的检测方法及装置有效

专利信息
申请号: 201410027720.7 申请日: 2014-01-21
公开(公告)号: CN103795592B 公开(公告)日: 2017-01-25
发明(设计)人: 孙卫强;牛温佳;赵卫中;管洋洋;黄超;李倩;胡玥;刘萍;郭莉 申请(专利权)人: 中国科学院信息工程研究所
主分类号: H04L12/26 分类号: H04L12/26
代理公司: 北京轻创知识产权代理有限公司11212 代理人: 杨立
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 水军 检测 方法 装置
【说明书】:

技术领域

发明涉及网络技术领域,尤其涉及一种网络水军的检测方法及装置。

背景技术

随着信息技术的发展与进步,网络空间已成为继陆、海、空、天四维空间以外的人类第五维活动空间,尤其在WEB2.0技术应用于互联网领域之后,论坛、微博等社交应用的发展更是如火如荼。然而在网络空间迅速发展的同时,它所带来的安全问题也越来越突出,其中以来源于“网络水军”的安全问题最为常见。“网络水军”是受雇于网络公关公司,针对特定主题进行发回帖造势的网络用户,据相关机构调查,我国从事网络营销活动的推手已达数百万人,受雇于商业组织的“网络水军”日趋规模化、公开化、集团利益化。从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙牛陷害门”丑闻,可以说,“网络水军”已经触碰到了法律的底线,甚至有一部分“网络水军”在国外别有用心的机构操纵之下,在国内各大论坛发布攻击信息、造谣言论和挑拨语言,制造矛盾,进行恶意的网络文化渗透,危害国家安全。可见,对“网络水军”进行监管已经刻不容缓。

不同于实体环境,网络论坛的虚拟环境存在固有的开放性特点和独特的信息传播规律,这就给“网络水军”监管带来很大挑战,主要体现在以下两个方面:

首先,网络论坛中热门信息的传播呈爆炸趋势,因此事后删帖的方式并不能对损害结果进行彻底补救,甚至,删帖行为本身反而会被水军利用,从某种程度上“证实”消息内容的真实性。

其次,网络论坛包含海量数据,如何构造有效的算法从大量无规则数据中提取可用信息,成为“网络水军”监管的最大障碍。

因此,对“网络水军”的监管不仅要从法律与制度层面完善相关网络法律体系、及时公布政务情况和公共事件动向,更需要结合网络论坛的特点,从技术层面提高大规模用户数据处理能力,研究和改进适用于“网络水军”检测的相关算法,从而识别论坛中的“网络水军”用户,在源头上阻止水军贴的发布。

“网络水军”检测实质上是分类问题,一种普遍的做法是分析已知分类用户的相关信息及历史行为,从中提取水军用户区别于正常用户的特点,进而对未知分类用户信息进行分析,判定哪些用户最可能是“网络水军”。目前常用于分类问题的算法包括贝叶斯网络、支持向量机、KNN、神经网络等,其中,贝叶斯网络是用概率统计知识进行分类的算法,它通过贝叶斯定理预测样本类别,但是贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性会大大下降;支持向量机需要事先计算样本的空间向量,并设定向量中每个维度对最终结果的影响权值,权值设定过程很大程度上依赖于历史经验及问题分析,权值设定的好坏也直接影响了算法的判定准确性;KNN算法是一种懒惰学习方法,它存放样本,直至需要分类时才运行学习算法,如果样本集比较复杂,可能会导致很大的计算开销,影响分类的实时性。神经网络算法是最常用于分类问题的算法,该算法通过训练的方式确定模型参数,可以客观地反映各个影响因素对最终结果的影响程度,而且神经网络的训练是在分类之前进行,不会给分类过程带来额外的时间开销。但是基本神经网络模型复杂,当训练集规模较大时,训练过程耗时太长,且极易因为网络初始权值设置不当而陷入局部最优解,这就意味着用基本神经网络算法进行“网络水军”发现时会存在收敛性差、准确率低、耗时长的问题。

发明内容

本发明所要解决的技术问题是提供一种网络水军的检测方法及装置,提高了网络水军检测算法的收敛性和准确率,缩短海量样本数据下模型训练时间。

为解决上述技术问题,本发明提出了一种网络水军的检测方法,包括:

步骤一,将原始的用户描述信息表示为归一化的用户描述向量,从所述用户描述向量中筛选出已分类数据,将该已分类数据的a%作为深度信念网络DBN模型的训练数据,将该已分类数据的b%作为DBN模型的检测数据,a大于b,且a与b之和等于100,所述用户描述信息的类型由用户预先选定,所述已分类用户数据指已经被标记为是否网络水军的用户数据;

步骤二,用所述训练数据训练DBN模型,输出训练得到的DBN模型,将该输出的DBN模型称为输出DBN模型;

步骤三,检验所述输出DBN模型的收敛性和判定准确率,根据检验结果调整所述步骤一和步骤二中的相关参数,直至所述输出DBN模型达到预设收敛条件或终止条件,其中,所述判定准确率通过采用所述检测数据检测所述输出DBN模型而得到;

步骤四,使用最终DBN模型对网络水军进行检测,所述最终DBN模型是指达到所述预设收敛条件或终止条件的输出DBN模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410027720.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top