[发明专利]一种基于文本-图片关系预训练的多模态推文命名实体识别的方法在审
申请号: | 202011116968.2 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112257445A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 翁芳胜;孙霖;王跻权;孙宇轩 | 申请(专利权)人: | 浙大城市学院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图片 关系 训练 多模态推文 命名 实体 识别 方法 | ||
本发明涉及一种基于文本‑图片关系预训练的多模态推文命名实体识别的方法,包括:步骤1、大规模数据收集;步骤2、建立关系推断和视觉注意的预训练多模态网络模型(RIVA模型);步骤3、预训练任务。本发明的有益效果是:本发明利用关系推断和视觉注意,通过减轻在多模态模型在融合不匹配的视觉与文本信息时产生的负面影响,以帮助多模态信息更好的融合。本发明使用教师‑学生半监督学习方法,在可批量获取的大型未标记的推文数据上进行了图文关系预训练,生成一个带有标签的数据集,然后在人工标注的小型数据集上做微调,扩充数据的同时提高了文本图像分类网络的性能。
技术领域
本发明属于推文命名识别领域,主要涉及基于关系推断和视觉注意的预训练多模态网络 (RIVA),并使用教师-学生半监督范式对大型无标记多模态语料库进行文本-图像关系分类。
背景技术
推特等社交媒体已成为许多人日常生活的一部分。它是开放域事件抽取,社交知识图谱 等各种应用的重要数据来源,而推文的命名实体识别则是这些任务的第一步。命名实体识别 (NER)在新闻文章上取得了出色的表现。但是,由于推文消息简短,可用于推理的上下文不足, 在推特上做的命名实体识别结果仍然不能令人满意。
为了克服这个问题,近来有研究人员从多模态角度出发,发现了视觉信息与语言信息有 内在关联性。于是他们试图利用注意力机制关联视觉与文本信息,来增强文本的上下文信息, 以获得更好的推理效果。Zhang等人在Thirty-Second AAAI Conference onArtificial Intelligence上的Adaptive co-attention network for named entityrecognition in tweets中设计了适应性共同注意网络层,利用一个门控多模态融合模块学习融合向量的视觉 和语言特征,同时他们还提出了一个多模态推文数据集,我们称为复旦大学的多模态推文数 据集;把Zhang等人的视觉语言模型简称为ACN,ACN采用滤波门来判断融合特征是否有助于 提高各特征的标注精度。Lu等人在Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics上的Visualattention model for name tagging in multimodal social media中提出了一种视觉注意模型,用于寻找与文本内容相 关的图像区域,同时还提出了一个多模态命推文数据集,我们称为Snap Research的MNER Twitter数据集;把Lu等人的视觉语言模型简称为VAM,VAM通过文本查询向量和区域视觉 表示的线性投影来计算图像区域的关注权值并给出了一系列视觉注意实例。成功的视觉注意 示例中可以看到文本的实体在图像中对应出现;失败的视觉注意示例中可以看到图片中的对 象与文本中的实体没有关系。往前的视觉语言模型工作大多是建立在图像与文本有相关性这 个假设上,忽略了图像可能与图片没有关系的情况。Vempala等人在In Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics上的 Categorizing and inferring therelationship between the text and image of twitter posts中,根据图像是否增加了推文的含义这个标准对彭博数据集上进行了分类统计;他们 得出的结论是图文无关的类型约占所有图文对的56%。Huetal等人于2017年在IEEE Transactions on Multimedia上提出Twitter100k:A real-world dataset for weakly supervised cross-mediaretrieval,我们测试大型无标记语料库-推特100k后发现图文无关 的比例可以达到60%,与Vempala等人发现的结果类似;这证实了推文中的文本和图像并不 总是相关的,如果强行将无关的图文对关联起来,就有可能引入错误的信息,降低视觉语言 模型的性能。因此,往前的多模态融合方法不能很好解决当文本遇到不相关的视觉线索时产 生的负面影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011116968.2/2.html,转载请声明来源钻瓜专利网。