[发明专利]一种基于内容及特征差异性的谣言检测方法及系统在审
| 申请号: | 202111313004.1 | 申请日: | 2021-11-08 | 
| 公开(公告)号: | CN114036259A | 公开(公告)日: | 2022-02-11 | 
| 发明(设计)人: | 王昕岩;陈乔;魏康;顾耀;曹成钱;丁悦 | 申请(专利权)人: | 中通服咨询设计研究院有限公司 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/951;G06F16/9536;G06Q50/00;G06K9/62;G06N3/04;G06N3/08 | 
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 | 
| 地址: | 210019 江苏*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 内容 特征 差异性 谣言 检测 方法 系统 | ||
本发明提供了一种基于内容及特征差异性的谣言检测方法及系统,所述系统包括:事件信息获取模块,用于获取社交媒体平台的相关事件信息;事件预处理模块,用于分别获取事件的原文句向量以及评论句向量;事件检测模块,通过事件原文、评论处理模型,分别得到事件的原文、评论表征特征,再通过特征拼接得到事件表征特征,最后得到模型对事件的预测分类。本发明充分考虑了不同类信息在内容、结构上的差异性,相比于现有的技术方法,能够大幅提升谣言检测的准确率、精确率、召回率以及F1值。
技术领域
本发明涉及一种基于内容及特征差异性的谣言检测方法及系统。
背景技术
信息化时代下,越来越多的人们在社交媒体上分享、获取信息,这些信息中往往夹杂着谣言,极大地影响了人们的日常生活,有的甚至造成了社会的恐慌,影响了社会稳定。
目前针对谣言检测的方式大多分为基于传统机器学习模型的谣言检测方法,以及基于深度学习模型的谣言检测方法。
基于传统机器学习模型的谣言检测方法大多将研究工作的重心置于对事件的内容特征、用户特征以及传播特征的人工特征设计。主要通过人为地对事件的内容、用户及传播设计特征的方式计算特征,并使用传统机器学习分类器完成对事件的分类。比如中国专利:一种基于LDA和随机森林的微博谣言识别方法(专利申请号:201711483228.0),使用线性判别分析模型提取人工设计的特征,通过随机森林分类器模型完成微博事件的分类。但是该专利存在着不足:1、手工设计特征的方式仅能提取表层的特征,特征表征能力较差,并且泛化能力较弱。2、传统的机器学习模型的分类性能较差。
基于深度学习模型的谣言检测方法大多通过预训练模型将文本信息转换为向量,使用神经网络模型来自动对向量数据提取特征。目前预训练模型包括:独热编码模型、Word2Vec模型、BERT模型等。与独热编码模型、Word2Vec模型相比,BERT模型通过增加模型深度等方式,能更好地关注到文本数据中上下文的语义信息,大大加强了对文本信息的表征能力。目前的神经网络模型主要包括:卷积神经网络模型、循环神经网络模型等。卷积神经网络模型能够在最大程度保留信息的同时大幅度减少数据量,循环神经网络模型能够处理具有序列结构的数据。与传统机器学习模型相比,深度学习模型对人工特征的依赖小,泛化能力好,分类性能优。然而目前的深度学习模型,大多没有考虑到事件文本信息的差异性。比如中国专利:一种基于CNN优化的社交网络谣言方法(专利申请号:201811168129.8),通过融合事件的内容与时序信息,使用卷积网络模型进行多层次训练提取特征,最后完成谣言事件的分类。但是该专利存在着不足:1、该技术针对事件文本信息只使用单一的卷积神经网络模型进行特征提取,得到的特征表征能力不强。2、该技术对事件文本中的原文文本信息与评论文本信息采取了相同的模型进行处理,没有考虑到这两种信息在内容、结构上存在的差异性。
发明内容
发明目的:对获取的社交媒体事件的文本信息进行数据清理,分析发现事件的原文与评论文本在文本长度、以及文本内容上存在着较大差异。具体表现为:
在文本长度上:事件原文的文本长度,平均为90.7,最长为156;事件评论的文本长度平均为14.9,最长为280。可以看出,事件的原文与评论文本的平均长度相差近6倍,最长长度相差近2倍。
在文本内容上:事件的原文内容多为针对事件主题的观点阐述、其他观点的引用等,与事件主题具有强关联性。而事件的评论内容形式多样,包括与事件主题的关联性较强的质疑、更正评论,以及与事件主题关联性较弱,甚至无关联的表情包、对其他主题的评论、无关评论等。
为解决背景技术中存在的技术问题,本发明提出一种基于内容及特征差异性的谣言检测方法及系统,用以解决目前基于深度学习模型的谣言检测方法,存在忽略事件不同文本信息,在内容、结构上具有差异性的缺陷,该缺陷对检测效果造成了一定影响。本发明提出的谣言检测模型,相比于现有的基准方法,能够大幅提升谣言检测的准确率、精确率、召回率以及F1值。
本发明包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中通服咨询设计研究院有限公司,未经中通服咨询设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111313004.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
 - 内容记录系统、内容记录方法、内容记录设备和内容接收设备
 - 内容服务系统、内容服务器、内容终端及内容服务方法
 - 内容分发系统、内容分发装置、内容再生终端及内容分发方法
 - 内容发布、内容获取的方法、内容发布装置及内容传播系统
 - 内容提供装置、内容提供方法、内容再现装置、内容再现方法
 - 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
 - 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
 - 内容再现装置、内容再现方法、内容再现程序及内容提供系统
 - 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法
 





