[发明专利]一种基于图注意网络的灾难信息过滤方法及系统在审
申请号: | 202210102364.5 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114428914A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 何梦雨;冯瑞 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F16/335;G06F16/33;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 程宗德 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意 网络 灾难 信息 过滤 方法 系统 | ||
本发明公开了一种基于图注意网络的灾难信息过滤方法,具有这样的特征,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括以下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果。其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。本发明还公开了一种基于图注意网络的灾难信息过滤系统,包括预处理部和信息过滤部。
技术领域
本发明属于机器学习领域,具体涉及一种基于图注意网络的灾难信息过滤方法及系统。
背景技术
社交媒体已经成为紧急情况下分享信息的重要媒介。社交媒体和传统新闻来源的主要区别在于能够实时收到受影响人群的反馈。救援组织可以从这一双向沟通渠道中获益,向人们通报情况,并从受影响人群收到的最新情况中获得见解。因此,从社交平台上的帖子中提取危机信息,可以充分利用情境意识,从而更快地做出反应。
大多数研究都将社交媒体中的信息提取作为二进制文本分类问题。研究表明,在灾难发生时,社交媒体作为主要信息来源的作用。有些研究专注于从帖子中过滤相关信息,而另一些研究则提出了注释方案,将帖子分类为细粒度标签,这些标签考虑了人们在灾难发生前、期间和之后发布帖子的态度、信息源和决策行为。为了推进社会媒体危机监测解决方案的状态,最近几年推出了相关的倡议。其中之一是始于2018年的文本检索会议的事件流跟踪。该专题旨在将与灾难相关的推文分类为多种信息类型。
同时,帖子分类是一项具有挑战性的短文本自然语言处理任务。这是因为帖子没有足够的上下文信息,而且包含固有的嘈杂,例如拼写错误、缩略词、表情符号等。此外,在多标签的情况下,分类任务变得更加困难,因为一条帖子可能同时属于一个或多个标签。早期的文本分类研究将特征工程和模型训练作为不同的子任务。随着端到端深度学习方法和注意机制的出现,多标签文本分类领域取得了显著进展。传统方法可以适当地截取文本的特征。
然而,这些方法忽略了文本语料库中词语之间的结构信息和关系。预先训练过的语言模型,如BERT,在文本分类任务中变得越来越流行。然而,由于BERT仅捕获本地上下文信息,BERT嵌入不能充分捕获关于语言词汇的全局信息。为了解决这一问题,理解词汇表中单词之间的全局关系,基于图的方法,如图卷积网络和图注意网络是很有前景的。
最近的研究利用了BERT和图网络相结合的优势。对于输入句子,采用BERT嵌入方法获取局部上下文信息,采用图嵌入方法提取句子中每个单词的全局信息,然后用BERT连接。然后,BERT和图卷积网络的两种表示通过自我注意机制相互作用来执行分类任务。
然而,目前还缺乏有效的系统来将相关帖子映射到更细粒度的标签上。这种细粒度的标签对危机应对者尤其有价值,因为他们可以过滤关键信息,以快速做出灾难响应。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于图注意网络的灾难信息过滤方法及系统。
本发明提供了一种基于图注意网络的灾难信息过滤方法,具有这样的特征,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括以下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果。其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。
在本发明提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,BERT编码器捕捉推文的语义,并表示为一个低维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102364.5/2.html,转载请声明来源钻瓜专利网。