[发明专利]一种基于多任务学习的社交媒体谣言检测方法有效

专利信息
申请号: 202110269307.1 申请日: 2021-03-11
公开(公告)号: CN112685541B 公开(公告)日: 2021-05-25
发明(设计)人: 李芳芳;张盼曦;宁肯;刘志 申请(专利权)人: 中南大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/9536;G06F40/205;G06F40/216;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06Q50/00
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 黄敏华
地址: 410000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 学习 社交 媒体 谣言 检测 方法
【权利要求书】:

1.一种基于多任务学习的社交媒体谣言检测方法,其特征在于,具体包括如下步骤:

S1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;

S2:对步骤1处理过后的语料提取行文风格的特征,处理为向量的形式;

S3:对步骤1处理过后的语料提取用户置信度的特征,处理为向量的形式;

S4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示,来输入后续任务;

S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;

S6:将拼接后的向量放入一个共享的BERT层,通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示;

S7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构;

S8:将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务,输出立场分类和谣言分类;

S1中:

源帖子用s表示,回复用表示,源帖对应有多个回复,下标表示回复编号,回复对应的传播链用表示,表示传播链上的最后一条帖子源贴的回复,传播链可构成多条,是自上而下的传播结构,的下标表示传播链编号,即s对应形成多分枝的树状结构会话;

S2中,行文风格的特征包括:

帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词,其中,将帖子长度用根据空格分隔的单词数量表示;表示帖子是否含有URL,表示帖子是否含有图片,取值为0或1;表示是否含有负面词,所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”;表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1;源帖与对应评论的相似度运用余弦相似度计算公式计算,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:

(1)

这里的和分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表向量的长度;

S3中,用户置信度的特征包括:

发帖人的职务、身份是否认证;

S4中,预处理部分包括:

使用文本处理工具去除帖子文本中的非字母内容;把所有单词转化成小写字母的形式;用BERT预训练模型的tokenizer模块对文本进行词级别的切分;用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部,处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量;

S6中,在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组,其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式,处理后输入共享BERT层中,得到维度形式为Ru×d的向量表示, R表示向量的空间值域,u为帖子的最大长度,d为表示每个词的向量维度;

S7中,神经网络结构为,共享BERT层后,紧接dropout层,加入dropout的计算公式如下:

Z()~Bernoulli(p)(2)

通过Bernoulli概率值p表示神经元丢弃概率,表示第层,Z()表示层的dropout概率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量,

(3)

表示层的神经元数目, Z()表示层的dropout概率,表示+1层的dropout结果,分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用softmax,将上一步得到的logits映射到0到1之间;

(4)

其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,j表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1;

S8中,

子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:

(5)

子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该源贴内容 的真实性:

(6);

还包括S9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失;

S9中,使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整,计算公式如下:

(7)

其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110269307.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top