[发明专利]一种多模态语义协同交互的图文联合命名实体识别方法在审
| 申请号: | 202211112121.6 | 申请日: | 2022-09-13 |
| 公开(公告)号: | CN115455970A | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 王海荣;钟维幸 | 申请(专利权)人: | 北方民族大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/953;G06V10/42;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 750021 宁夏回族*** | 国省代码: | 宁夏;64 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多模态 语义 协同 交互 图文 联合 命名 实体 识别 方法 | ||
本发明针对现有命名实体识别方法主要聚焦于文本数据的实体识别,忽略了现存的大量图片、文本等多模态数据具有语义互补性,提出了一种多模态语义协同交互的图文联合命名实体识别方法,建立了多模态语义协同交互的图文联合命名实体模型(Image‑TextJointnamedentityrecognition,ITJNER),在ITJNER中加入了图像描述作为额外特征丰富了多模态特征表示,用于过滤从图像特征中引入的噪声并以文本形式总结图像语义信息,还构建了多模态协同交互的多模态语义融合模型,用于加强多模态信息融合并减少图像信息的语义偏差。最后,在TWITTER‑2015和TWITTER‑2017数据集上进行实验,与AdaCAN、UMT、UMGF、Object‑AGBAN等方法相比,本发明的准确率、回召率、F1值分别提高了0.67%、0.95%、0.93%,在Twitter2015数据集上,召回率提高了0.19%。
技术领域
本发明属于知识挖掘和知识管理技术领域,具体涉及一种多模态语义协同交互的图文联合命名实体识别方法。
背景技术
随着自媒体的广泛应用,致使互联网上的海量数据呈现图像、文本、视频等多模态交融态势,这些数据具有语义互补性,因此,多模态数据的知识抽取和应用成为研究热点,作为基础任务的多模态命名实体识别(multimodal named entity recognition,MNER)方法得到广泛关注。
MNER领域的初期工作旨在将图像信息利用起来以提升命名识别识别的效果,通过将单词与图像区域进行对齐的方式,获取与文本相关的有效视觉上下文。Diego首次在MNER任务中使用了视觉信息,将图文联合命名实体识别带入研究者的视野。其后Zhang等人提出了一种基于双向LSTM模型(BiLSTM)和共注意力机制的自适应共注意网络,这是首个在MNER研究上有突出表现的工作。同年Moon、Lu等人也相继提出自己的MNER方法,前者提出了一个通用的注意力模块用于自适应地降低或增强单词嵌入、字符嵌入和视觉特征权重,后者则提出了一个视觉注意模型,以寻找与文本内容相关的图像区域。在之前工作中仅用单个单词来捕捉视觉注意,该方式对视觉特征的利用存在不足,Arshad等人将自注意机制扩展到捕获两个词和图像区域之间的关系,并引入了门控融合模块,从文本和视觉特征中动态选择信息。但是在MNER中融合文本信息和图像信息时,图像并不是总是有益的,如在Arshad和Lu的工作中均提及了不相关图像所带来的噪声问题,因此如何在MNER中减小无关图像的干扰开始成为研究者的研究重点。
Meysam扩展设计了一个多模态bert来学习图像和文本之间的关系。Sun等人提出了一种用于预测图文相关性的文本图像关系传播模型,其可以帮助消除模态噪声的影响。为了缓解视觉偏差的问题,Yu等人在其模型中加入了实体跨度检测模块来指导最终的预测。而Liu等人则结合贝叶斯神经网络设计了一种不确定性感知的MNER框架,减少无关图像对实体识别的影响。Tian Y等提出了多头层次注意(MHA)来迭代地捕获不同表示子空间中更多的跨模态语义交互。上述方法学习了粗粒度的视觉对象与文本实体之间的关系。但粗粒度特征可能会忽略了细粒度视觉对象与文本实体之间的映射关系,进而导致不同类型实体的错误检测。为此,一些研究开始采用探索细粒度的视觉对象与文本实体之间的关系。Zheng等人提出了一种对抗性门控双线性注意神经网络(AGBAN),将文本和图像的不同表示映射为共享表示。Wu等提出了一种针对细粒度交互的密集协同注意机制,它将对象级图像信息和字符级文本信息相结合来预测实体。Zhang[14]提出了一种多模态图融合方法,充分利用了不同模态语义单元之间的细粒度语义。除了直接利用图像的原始信息,一些额外信息加入也有益于MNER任务,如Chen等人在其模型中引入了图像属性和图像知识,Chen等人则研究了使用图像的描述作为丰富MNER的上下文的一种方法。
虽然上述技术,都能实现MNER任务,然而,MNER仍面临两个问题:一是无关的图像信息带来的噪声干扰,二是图文语义交互中有效语义信息的丢失。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方民族大学,未经北方民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211112121.6/2.html,转载请声明来源钻瓜专利网。





