[发明专利]一种基于多任务学习的微博水军识别的方法在审
| 申请号: | 202310190085.3 | 申请日: | 2023-03-02 |
| 公开(公告)号: | CN116484087A | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 杨建锋;愉滨铨;高岭;贺侯伟;任杰 | 申请(专利权)人: | 西北大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9537;G06F16/906;G06F18/2415;G06N20/10 |
| 代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王芳 |
| 地址: | 710069 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 任务 学习 水军 识别 方法 | ||
本发明公开了一种基于多任务学习的微博水军识别的方法:步骤S1,把用户关注数量、粉丝数量、性别、微博等级、是否认证、认证类别、阳光信用、会员类别、会员等级、博文内容进行数据预处理,按照用户认证类别将任务分为tsubgt;1/subgt;,tsubgt;2/subgt;...,tsubgt;5/subgt;;排序π∈δsubgt;5/subgt;,δsubgt;5/subgt;是5个元素上所有排列的对称群,使用SVM模型为每个任务训练分类器,并计算排序π中每一个任务所对应的权重;步骤S2,通过解决平均误差研究顺序π,遍历δsubgt;5/subgt;中的每个π,通过最小化尚未解决任务的对应项上限确定π(i),确定学习的最佳顺序;步骤S3,根据最佳学习顺序,通过并行化训练SVM模型实现微博水军识别。本发明的方法能够有效解决目前主流的舆情处理微博水军分类问题存在耗时长、准确率较低的缺陷。
技术领域
本发明属于计算机领域和自然舆情分类领域,具体涉及一种基于多任务学习的微博水军识别的方法。
背景技术
互联网的发展让人们的交流不再受限,也推动了社交软件的发展。微博的出现使得信息得到快速传播,并且具有较强的影响力,作为国内最受欢迎的社交平台之一,很多网友都会在微博上分享自己的生活和观点,也会在微博上讨论自己感兴趣的事情。据微博发布的最新发展报告中显示,2020年9月,微博的月活跃用户达到了5.11亿,日活跃用户也有2.24亿。在微博用户群体中,90后和00后成为了主力军,占比接近80%;80后用户占比18%;70后用户占比3%。微博用户正呈现年轻化趋势。
早期的网络水军识别研究主要是基于内容特征展开的,网络水军刚开始出现时,主要是通过发布邮件诱导用户,其邮件内容重复率高、内容形式较单一,与正常邮件区别较大,易于识别、处理,主要使用文本分类、文本倾向性、文本情感分析等自然语言处理的方法进行识别。大量用户的涌现以及利益的趋势,使得水军问题越来越难解决。近几年来由于数据的庞大导致的高耗时、高耗财等问题使得半监督学习被研究的相对较多,并且出现了很多半监督学习算法,其中具有代表性的算法有:协同训练(co-training)算法、半监督EM算法等,通过应用先进的数据采集等技术可以获得大量无标记样本,而有标记样本的获得难度很大。但是通过这种方法存在于未认证用户和普通用户中的水军比较容易识别出来,然而舆论引导性更强的橙V/红V认证用户充当水军的角色混淆视听干扰群众的判断力时会很难识别出来。
因此,需要一种既能够解决耗时长、消费高又能准确、高效地识别出存在于认证用户中高级水军的方法。
发明内容
本发明的目的在于提供一种基于多任务学习的微博水军识别的方法,以解决目前主流的舆情处理微博水军分类问题存在的耗时长、准确率较低的缺陷。
为实现上述目的,本发明提供了如下技术方案:
一种基于多任务学习的微博水军识别的方法,具体包括以下步骤:
步骤S1,把用户关注数量、粉丝数量、性别、微博等级、是否认证、认证类别、阳光信用、会员类别、会员等级、博文内容进行数据预处理,按照用户的认证类别将任务分为t1,t2...,t5;排序π∈δ5,δ5是5个元素上所有排列的对称群,使用SVM模型为每个任务训练分类器,并计算排序π中每一个任务所对应的权重;
步骤S2,通过解决平均误差er来研究顺序π,遍历δ5中的每个π,在这个过程中,假设用在解决每一个单独的任务tπ(i)的学习算法和所有的任务一样且具有确定性,通过最小化尚未解决任务的对应项上限来确定π(i),来确定学习的最佳顺序;
步骤S3,根据步骤S2返回的任务的最佳学习顺序,通过并行化训练一个独立的SVM模型实现微博水军识别。
进一步的,所述步骤S1包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310190085.3/2.html,转载请声明来源钻瓜专利网。





