[发明专利]网络水军的检测方法及装置有效
| 申请号: | 201410027720.7 | 申请日: | 2014-01-21 |
| 公开(公告)号: | CN103795592B | 公开(公告)日: | 2017-01-25 |
| 发明(设计)人: | 孙卫强;牛温佳;赵卫中;管洋洋;黄超;李倩;胡玥;刘萍;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26 |
| 代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 水军 检测 方法 装置 | ||
技术领域
本发明涉及网络技术领域,尤其涉及一种网络水军的检测方法及装置。
背景技术
随着信息技术的发展与进步,网络空间已成为继陆、海、空、天四维空间以外的人类第五维活动空间,尤其在WEB2.0技术应用于互联网领域之后,论坛、微博等社交应用的发展更是如火如荼。然而在网络空间迅速发展的同时,它所带来的安全问题也越来越突出,其中以来源于“网络水军”的安全问题最为常见。“网络水军”是受雇于网络公关公司,针对特定主题进行发回帖造势的网络用户,据相关机构调查,我国从事网络营销活动的推手已达数百万人,受雇于商业组织的“网络水军”日趋规模化、公开化、集团利益化。从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙牛陷害门”丑闻,可以说,“网络水军”已经触碰到了法律的底线,甚至有一部分“网络水军”在国外别有用心的机构操纵之下,在国内各大论坛发布攻击信息、造谣言论和挑拨语言,制造矛盾,进行恶意的网络文化渗透,危害国家安全。可见,对“网络水军”进行监管已经刻不容缓。
不同于实体环境,网络论坛的虚拟环境存在固有的开放性特点和独特的信息传播规律,这就给“网络水军”监管带来很大挑战,主要体现在以下两个方面:
首先,网络论坛中热门信息的传播呈爆炸趋势,因此事后删帖的方式并不能对损害结果进行彻底补救,甚至,删帖行为本身反而会被水军利用,从某种程度上“证实”消息内容的真实性。
其次,网络论坛包含海量数据,如何构造有效的算法从大量无规则数据中提取可用信息,成为“网络水军”监管的最大障碍。
因此,对“网络水军”的监管不仅要从法律与制度层面完善相关网络法律体系、及时公布政务情况和公共事件动向,更需要结合网络论坛的特点,从技术层面提高大规模用户数据处理能力,研究和改进适用于“网络水军”检测的相关算法,从而识别论坛中的“网络水军”用户,在源头上阻止水军贴的发布。
“网络水军”检测实质上是分类问题,一种普遍的做法是分析已知分类用户的相关信息及历史行为,从中提取水军用户区别于正常用户的特点,进而对未知分类用户信息进行分析,判定哪些用户最可能是“网络水军”。目前常用于分类问题的算法包括贝叶斯网络、支持向量机、KNN、神经网络等,其中,贝叶斯网络是用概率统计知识进行分类的算法,它通过贝叶斯定理预测样本类别,但是贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性会大大下降;支持向量机需要事先计算样本的空间向量,并设定向量中每个维度对最终结果的影响权值,权值设定过程很大程度上依赖于历史经验及问题分析,权值设定的好坏也直接影响了算法的判定准确性;KNN算法是一种懒惰学习方法,它存放样本,直至需要分类时才运行学习算法,如果样本集比较复杂,可能会导致很大的计算开销,影响分类的实时性。神经网络算法是最常用于分类问题的算法,该算法通过训练的方式确定模型参数,可以客观地反映各个影响因素对最终结果的影响程度,而且神经网络的训练是在分类之前进行,不会给分类过程带来额外的时间开销。但是基本神经网络模型复杂,当训练集规模较大时,训练过程耗时太长,且极易因为网络初始权值设置不当而陷入局部最优解,这就意味着用基本神经网络算法进行“网络水军”发现时会存在收敛性差、准确率低、耗时长的问题。
发明内容
本发明所要解决的技术问题是提供一种网络水军的检测方法及装置,提高了网络水军检测算法的收敛性和准确率,缩短海量样本数据下模型训练时间。
为解决上述技术问题,本发明提出了一种网络水军的检测方法,包括:
步骤一,将原始的用户描述信息表示为归一化的用户描述向量,从所述用户描述向量中筛选出已分类数据,将该已分类数据的a%作为深度信念网络DBN模型的训练数据,将该已分类数据的b%作为DBN模型的检测数据,a大于b,且a与b之和等于100,所述用户描述信息的类型由用户预先选定,所述已分类用户数据指已经被标记为是否网络水军的用户数据;
步骤二,用所述训练数据训练DBN模型,输出训练得到的DBN模型,将该输出的DBN模型称为输出DBN模型;
步骤三,检验所述输出DBN模型的收敛性和判定准确率,根据检验结果调整所述步骤一和步骤二中的相关参数,直至所述输出DBN模型达到预设收敛条件或终止条件,其中,所述判定准确率通过采用所述检测数据检测所述输出DBN模型而得到;
步骤四,使用最终DBN模型对网络水军进行检测,所述最终DBN模型是指达到所述预设收敛条件或终止条件的输出DBN模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410027720.7/2.html,转载请声明来源钻瓜专利网。





