[发明专利]一种基于多任务学习的社交媒体谣言检测方法有效

申请号：	202110269307.1	申请日：	2021-03-11
公开（公告）号：	CN112685541B	公开（公告）日：	2021-05-25
发明（设计）人：	李芳芳;张盼曦;宁肯;刘志	申请（专利权）人：	中南大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/9536;G06F40/205;G06F40/216;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06Q50/00
代理公司：	长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228	代理人：	黄敏华
地址：	410000 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于任务学习社交媒体谣言检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多任务学习的社交媒体谣言检测方法，其特征在于，具体包括如下步骤：

S1：对社交媒体文本数据集中的语料进行数据提取及格式转换，获取帖子的源、回复及传播路径；

S2：对步骤1处理过后的语料提取行文风格的特征，处理为向量的形式；

S3：对步骤1处理过后的语料提取用户置信度的特征，处理为向量的形式；

S4：对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示，来输入后续任务；

S5：将S2和S3提取到的特征与S4的文本表示做向量拼接；

S6：将拼接后的向量放入一个共享的BERT层，通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示；

S7：分别构建子任务I立场检测和子任务II谣言检测的神经网络结构；

S8：将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中，进行子任务I的四分类任务和子任务II的三分类任务，输出立场分类和谣言分类；

S1中：

源帖子用s表示，回复用表示，源帖对应有多个回复，下标表示回复编号，回复对应的传播链用表示，表示传播链上的最后一条帖子源贴的回复，传播链可构成多条，是自上而下的传播结构，的下标表示传播链编号，即s对应形成多分枝的树状结构会话；

S2中，行文风格的特征包括：

帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词，其中，将帖子长度用根据空格分隔的单词数量表示；表示帖子是否含有URL，表示帖子是否含有图片，取值为0或1；表示是否含有负面词，所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”；表示是否含有讽刺意味的词，通过比对整合得到的讽刺词词表确定，取值为0或1；源帖与对应评论的相似度运用余弦相似度计算公式计算，源帖的向量表示为A，对应回复的向量表示为B，则相似度计算公式为：

（1）

这里的和分别代表源帖向量A和回复向量B的各分量，i代表第i个分量，n代表向量的长度；

S3中，用户置信度的特征包括：

发帖人的职务、身份是否认证；

S4中，预处理部分包括：

使用文本处理工具去除帖子文本中的非字母内容；把所有单词转化成小写字母的形式；用BERT预训练模型的tokenizer模块对文本进行词级别的切分；用‘[CLS]’标识符表示帖子开头放在首部，‘[SEP]’标识符表示帖子结尾放在尾部，处理过后通过查询BERT词表，将文本编码为BERT词表所对应的向量；

S6中，在向量拼接后，加入需要遮盖部分的位置信息和分句信息，处理为BERT输入的形式，该输入形式为包括[ids, mask, segment]三个部分的二维数组，其中，ids表示经BERT词表转换后的向量，mask表示帖子中需要遮盖训练的部分，segment表示上下句切分的形式，处理后输入共享BERT层中，得到维度形式为R^u×d的向量表示， R表示向量的空间值域，u为帖子的最大长度，d为表示每个词的向量维度；

S7中，神经网络结构为，共享BERT层后，紧接dropout层，加入dropout的计算公式如下：

Z⁽⁾～Bernoulli（p）（2）

通过Bernoulli概率值p表示神经元丢弃概率，表示第层,Z⁽⁾表示层的dropout概率，公式中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量，

（3）

表示层的神经元数目, Z⁽⁾表示层的dropout概率,表示+1层的dropout结果，分别为子任务I和子任务II搭建全连接层，全连接层的激活函数使用softmax，将上一步得到的logits映射到0到1之间；

（4）

其中，k表示神经网络的多个输出或类别数，e表示指数函数，Z为输出向量，j表示当前所需要计算的类别，计算结果在0到1之间，且所有类别的softmax值求和为1；

S8中，

子任务I立场检测任务中，对应标签包括支持，反对，疑问，陈述四个类别，源帖和每一个回复都对应有立场检测的标签，表达发帖人的个人主张：

（5）

子任务II谣言检测任务中，对应标签包括真，假，中立三个类别，只有源帖对应有谣言检测的标签，表达该源贴内容的真实性：

（6）；