[发明专利]用于识别论坛用户马甲账号的方法和系统有效
申请号: | 201410032746.0 | 申请日: | 2014-01-23 |
公开(公告)号: | CN103729474B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 许洪波;樊茜;梁英;程学旗;张国清 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。 | ||
搜索关键词: | 用于 识别 论坛 用户 马甲 账号 方法 系统 | ||
【主权项】:
一种用于识别论坛用户马甲账号的方法,所述方法包括:步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;步骤3,基于所述分类结果来识别马甲帐号;其中,所述步骤3包括:301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;302)对于测试集中待识别用户账号,采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度:pi,j=yi,jΣ0<k≤nkyi,k,ri,j=yi,jΣ0<k≤lkyk,j]]>其中,yi,j是测试集中待识别的第i个用户账号的文本被分类到训练集中第j个用户账号的数量,l表示测试集中用户账号的个数,n表示训练集中用户账号的个数;303)对于待识别的用户账号,在所计算得到的两组相似度中分别取相似度值大的前一个或几个相似度对应的用户账号作为该待识别的用户账号的马甲账号。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410032746.0/,转载请声明来源钻瓜专利网。