[发明专利]基于图片和句子的多模态联合事件检测方法有效
申请号: | 202110660692.2 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113535949B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 张旻;曹祥彪;汤景凡;姜明 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/55;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图片 句子 多模态 联合 事件 检测 方法 | ||
本发明公开了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。本发明一方面利用现有的单模态数据集分别学习图片和文本事件分类器;另一方面利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。
技术领域
本发明设计事件检测方法,具体来讲是一种基于图片和句子的多模态联合事件检测的方法,属于多模态信息抽取领域。
背景技术
随着电脑、手机等现代科技逐渐走入寻常百姓家,参与社交平台互动、浏览新闻网站等行为已成为人们获取网络信息的主要途径,这也极大简化了网民获取信息的流程。随之而来的是消费信息的网络用户不断增加,据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》1显示,截至2020年12月,中国网民人数达到98900万,相较于去年3月份,网民人数增加了8540万人。因此,每天都会有大量新的信息涌入网络,这些信息通常以文本、图片、音频等多种形式在大众之间进行传播。在面对如此海量且杂乱无章的网络信息时,信息抽取技术能对数据进行处理,并将结构化的信息展示给用户,从而准确地为用户提供有价值、感兴趣的信息。
信息抽取是为了从图片、文本或音频中抽取出结构化的信息,进行存储和展示,同时也是构建知识图谱的重要技术手段,通常由命名实体识别、关系抽取和事件抽取三个子任务构成。以文本为例,命名实体识别任务是为了发现描述地缘政治、设施、人名的实体。关系抽取任务的目的是确定两个实体之间的二元语义关系。而事件抽取任务包括事件检测(找出句中的触发词,并确定它们的事件类型)和论元识别(为每个参与事件的实体分配论元角色)两个环节。相比关系抽取,事件抽取任务能够同时抽取多实体间的相互关系,从而获得更加细粒度的结构化信息。因此,事件抽取任务更具挑战性。
事件检测是事件抽取任务的重要环节,该环节可以识别出标志着事件发生的图片动作和文本触发词,并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。
发明内容
本发明主要针对于图片或句子等单模态数据提供的信息往往不足以进行正确的事件分类,通常需要借助于其他模态的特征信息。提出了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。提出的一种基于图片和句子的多模态联合事件检测的方法。
基于图片和句子的多模态联合事件检测的方法,按照如下步骤进行:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征表示序列对于第j个候选触发词,然后将其对应的特征向量输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中,文本事件分类器的损失函数定义为LT;
步骤2、对图片特征进行编码,获取图片中描述动作以及多个实体的特征表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中,图片事件分类器的损失函数定义为LI;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110660692.2/2.html,转载请声明来源钻瓜专利网。