[发明专利]一种基于预训练语言模型的网络谣言检测方法有效
申请号: | 201911379298.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144131B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 张勇东;毛震东;邓旭冉;付哲仁 | 申请(专利权)人: | 北京中科研究院;中国科学技术大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/215;G06F16/9536;G06Q50/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 网络 谣言 检测 方法 | ||
本发明公开了一种基于预训练语言模型的网络谣言检测方法,包括:获取待检测的源文本以及多个其他用户的转发文本;对源文本以及多个其他用户的转发文本各自进行预处理,将预处理后的转发文本连接,得到转发文本的集合;将预处理后的源文本与转发文本的集合看作一对句子,构造成线性序列并输入至预训练语言模型中,通过预训练语言模型的挖掘出源文本与转发文本的语义关系,并经过全连接层与softmax函数得到源文本为谣言与非谣言的概率。该方法能自动学习并获取有帮助的高层次语义特征,不依赖特定的先验知识,因此具有很好的泛化性。该方法不需要依赖于源文本相关的大量转发/评论信息,可以做到早期检测。
技术领域
本发明涉及谣言检测技术领域,尤其涉及一种基于预训练语言模型的网络谣言检测方法。
背景技术
随着互联网技术的发展以及智能终端设备的兴起,社交媒体平台为人们分享多种多样的消息提供便捷的通道,人们经过简单的操作便能快速上传海量的多媒体数据。然而,网络谣言也能借此广泛地传播,误导大众。恶劣的谣言能引导社会舆论,造成人民恐慌,影响政府公信力。因此,为了确保用户能获得可靠的消息,维护社会秩序,检测社交媒体上的谣言是一项重要的任务。
传统的网络谣言检测办法依赖于特征工程,如从用户发表的消息与用户的个人信息中手工地提取特征,再应用统计学习的分类策略。由于社交媒体数据量庞大,汉语的信息量丰富等特点,这类方法不仅耗费大量劳动力资源,而且不能获取到潜在的语义信息,因此检测效果较差。
为了更好地,更早地检测出谣言,基于人工神经网络或深度学习的检测模型应运而生,并取得了巨大成功。这些技术大多引入循环神经网络(RNN),卷积神经网络(CNN),词向量嵌入(word2vec)等模型去学习文本内容的潜在表示,获得高层次的关键特征。
然而这些方法有很大的缺点。第一,社交媒体上的文本信息短小精悍,语法不规范,书写格式复杂,语义信息很难获取;第二,网络谣言在早期传播时用户习惯不带任何文本内容的转发评论消息,并且喜欢直接在源事件上转发,而不是间接的,因此时间域上的语义特征不充分,结构特征不可用。
发明内容
本发明的目的是提供一种基于预训练语言模型的网络谣言检测方法,可以实现谣言在发布后短时间内的高正确率检测。
本发明的目的是通过以下技术方案实现的:
一种基于预训练语言模型的网络谣言检测方法,包括:
获取待检测的源文本以及多个其他用户的转发文本;
对源文本以及多个其他用户的转发文本各自进行预处理,将预处理后的转发文本连接,得到转发文本的集合;
将预处理后的源文本与转发文本的集合看作一对句子,构造成线性序列并输入至预训练语言模型中,通过预训练语言模型挖掘出源文本与转发文本的语义关系,并经过全连接层与softmax函数得到源文本为谣言与非谣言的概率。
由上述本发明提供的技术方案可以看出,对文本的预处理简单,不需要人工提取特征,需要作为输入的信息少,因此模型可被端到端的训练。该方法能自动学习并获取有帮助的高层次语义特征,不依赖特定的先验知识,因此具有很好的泛化性。该方法不需要依赖于源文本相关的大量转发/评论信息,可以做到早期检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于预训练语言模型的网络谣言检测方法的流程图;
图2为本发明实施例提供的双向Transformer语言模型结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科研究院;中国科学技术大学,未经北京中科研究院;中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911379298.0/2.html,转载请声明来源钻瓜专利网。