[发明专利]一种基于多模态融合的假新闻检测方法在审
申请号: | 202011026886.9 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112131347A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 刘爽;潘云锋 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/55;G06F16/583;G06F40/30;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 新闻 检测 方法 | ||
本发明公开一种基于多模态融合的假新闻检测方法,包括以下几个步骤:(1)对新闻的新闻文本数据和新闻图片数据进行预处理;(2)新闻数据的特征提取;利用预训练模型BERT模型和VGG19模型组成的新闻数据特征提取模型,对预处理完的新闻文本和新闻图片数据进行特征提取,并进行优化训练,得到训练好的新闻数据特征提取模型;(3)数据特征分类;将训练数据集输入新闻数据特征提取模型中获取新闻特征集,再将新闻特征集作为训练数据输入到分类器中进行分类模型的训练,至此训练结束,基于假新闻检测方法的模型训练完成。
技术领域
本发明涉及谣言检测技术领域,尤其涉及一种多模态融合的假新闻检测方法。
背景技术
随着各类社交媒体的日益普及,社交媒体的各类信息,如图片文字或者视频等以其传播速度快、获取渠道多、产生门槛低等特点迅速成为大众信息消费的热点。然而,这些特点也使虚假消息得以广泛传播,由于信息的不对称性,虚假消息可以通过社交媒体传播来误导不明真相的易感人群,可以造成不可估量的负面影响,甚至操纵社会舆论,虚假消息已经成为关系到社会安定的重大问题,因此,对虚假消息的进行迅速的检测是一项重要的任务。
早期的研究通过人工抽取文本特征、用户特征、传播特征及其他潜在属性特征,构造分类器,如[1][2][3][4]等,这种基于特征提取的方法可以充分地利用专家总结的经验和知识,但是这需要人工提取特征,而且虚假信息生成的技术、手段和形式在不断更新换代,而专家知识和经验又有一定的滞后性,很难做到与时俱进来应对新出现的虚假信息形式。相比于传统的机器学习方法,深度学习模型则可以自动学习数据集中蕴含的特征,摒弃了繁琐的特征构造过程。深层神经网络能够比传统的手工特征更准确地学习图像和句子的特征表示。
由于社交媒体内容信息载体多样,并且较为分散,如文本和图像等,还有社交媒体本身自带的属性,并没有一个统一的方式来整合这些彼此相关的信息,因此,研究人员开始构建新的模型,从多种模式中提取特征,并将它们融合在一起,可以弥合单模态表示不足问题,获得更丰富的数据表示,现有的假新闻检测模型中多模态融合效果较好,如Jin等人提出了一种提取图片、文本和社交背景特征的假新闻检测模型attRNN,通过注意机制将文本和图片两者进行融合,最后进行分类[5]。Wang等人在此基础上建立了一种基于对抗神经网络的假新闻检测模型EANN学习事件的共性特征,从而提高检测的准确率[6]。Khattar等人提出了MVAE,其旨在发现各模态间的相关性,从而得到更好的多模态特征融合表示用于检测的任务[7]。Singhal等人提出一个更简单的框架SpotFake,直接采用预训练模型将提取的文本和图片特征简单融合后做分类[8]。但是,这些模型在检测模块对多模态特征向量只进行简单拼接融合,而后直接采用softmax等作为简单的分类器,这样做融合的特征中可能存在多余无效的特征或者缺失重要特征,其结果会导致泛化性不强,影响到准确率的提升。
发明内容
本发明的目的是为了克服现有技术中的不足:1.对现有的大部分检测模型来说,在模型进行特征提取时,需要引入子模块来辅助提取特征,这增加了训练的计算开销。2.在检测分类模块中,现有的检测方法直接采用softmax作为分类器,存在着特征语义的丢失情况,也使得泛化性不高的问题,从而导致模型的鉴别能力受制。3.模型检测的准确率和泛化性还可进一步提高。因此,本发明提供了一种基于多模态融合的假新闻检测方法。首先采用基于预训练模型BERT和VGG19的特征提取方法,对文本和图像的语义特征表示进行提取并融合,使整个提取模型更加简便,减少计算开销。再对融合特征进行分类,本发明通过以GDBT模型作为分类器来对特征再次进行选择分类,实现检测准确度的提升和泛化性的加强,相比现有的方法,能更好完成对新闻数据真实性的鉴别。
本发明的目的是通过以下技术方案实现的:
一种基于多模态融合的假新闻检测方法,包括以下几个步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026886.9/2.html,转载请声明来源钻瓜专利网。