[发明专利]一种基于多任务学习的社交媒体谣言检测方法有效
申请号: | 202110269307.1 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112685541B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 李芳芳;张盼曦;宁肯;刘志 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9536;G06F40/205;G06F40/216;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 黄敏华 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 社交 媒体 谣言 检测 方法 | ||
1.一种基于多任务学习的社交媒体谣言检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;
S2:对步骤1处理过后的语料提取行文风格的特征,处理为向量的形式;
S3:对步骤1处理过后的语料提取用户置信度的特征,处理为向量的形式;
S4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示,来输入后续任务;
S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;
S6:将拼接后的向量放入一个共享的BERT层,通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示;
S7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构;
S8:将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务,输出立场分类和谣言分类;
S1中:
源帖子用s表示,回复用表示,源帖对应有多个回复,下标表示回复编号,回复对应的传播链用表示,表示传播链上的最后一条帖子源贴的回复,传播链可构成多条,是自上而下的传播结构,的下标表示传播链编号,即s对应形成多分枝的树状结构会话;
S2中,行文风格的特征包括:
帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词,其中,将帖子长度用根据空格分隔的单词数量表示;表示帖子是否含有URL,表示帖子是否含有图片,取值为0或1;表示是否含有负面词,所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”;表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1;源帖与对应评论的相似度运用余弦相似度计算公式计算,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:
(1)
这里的和分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表向量的长度;
S3中,用户置信度的特征包括:
发帖人的职务、身份是否认证;
S4中,预处理部分包括:
使用文本处理工具去除帖子文本中的非字母内容;把所有单词转化成小写字母的形式;用BERT预训练模型的tokenizer模块对文本进行词级别的切分;用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部,处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量;
S6中,在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组,其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式,处理后输入共享BERT层中,得到维度形式为Ru×d的向量表示, R表示向量的空间值域,u为帖子的最大长度,d为表示每个词的向量维度;
S7中,神经网络结构为,共享BERT层后,紧接dropout层,加入dropout的计算公式如下:
Z()~Bernoulli(p)(2)
通过Bernoulli概率值p表示神经元丢弃概率,表示第层,Z()表示层的dropout概率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量,
(3)
表示层的神经元数目, Z()表示层的dropout概率,表示+1层的dropout结果,分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用softmax,将上一步得到的logits映射到0到1之间;
(4)
其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,j表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1;
S8中,
子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:
(5)
子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该源贴内容 的真实性:
(6);
还包括S9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失;
S9中,使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整,计算公式如下:
(7)
其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110269307.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟气布袋智能除尘器
- 下一篇:一种基于深度神经网络的密集小目标检测方法