[发明专利]一种基于标签注意力的武器装备领域多模态命名实体识别方法在审
申请号: | 202310061847.X | 申请日: | 2023-02-04 |
公开(公告)号: | CN116029297A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 吕学强;肖刚;游新冬;韩君妹 | 申请(专利权)人: | 北京信息科技大学;复杂系统仿真总体重点实验室 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06V10/40;G06V10/764;G06V10/82;G06N7/01;G06N3/0464;G06N3/045;G06N3/048;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 注意力 武器装备 领域 多模态 命名 实体 识别 方法 | ||
本发明解决武器装备领域文本数据因其稀缺性,存在噪声大、句子短、质量差、不具备丰富的上下文语义等现象,利用多模态方法可有效提高实体识别的效果,包括以下步骤:由ResNet提取视觉特征,同时对图像进行分类;将分类标签在字典中的解释通过BERT得到向量信息,取到包含全部分类信息的[CLS];由BERT提取整个文本特征,将含有分类信息的[CLS]替换文本向量的[CLS]部分,然后进行自注意力得到关注实体的特征向量;将两种模态处理好的特征向量进行跨模态注意,通过互注意力模块对两种特征向量进行交互感知;最后通过CRF层提取出实体。在武器装备多模态数据集上进行实验,表明本发明优于单文本模态和主流多模态模型,可实现对武器装备领域实体的有效识别。
技术领域
本发明涉及武器装备领域的命名实体识别方法,特别涉及利用视觉模态与文本进行跨模态注意力提高差质量文本的实体识别效果。
背景技术
命名实体识别,又称为实体抽取,是指识别出文本中含有一定意义的实体,并将这些实体进行分类,比如地名、人名、组织名等。命名实体识别一般任务形式是序列标注任务,是分类问题的一种推广形式,对每个输入的字符或是词组进行分类。通常情况下,先通过预训练模型得到句子的隐含状态向量表示,再通过概率模型得到对应分类,由此识别出实体。命名实体识别是信息抽取中的重要任务,在机器翻译、句法分析、系统问答等下游任务中起着决定性作用,也是自然语言处理领域多项任务落地的重要因素之一。然而,武器装备领域数据存在大量质量不佳的短文本数据,这类数据上下文语义不丰富导致单一的文本模态信息对其实体识别的准确性有限。在武器装备领域的命名实体识别任务中,现有的公开文献只关注了文本信息的抽取,并未涉及到其他模态。
因此,近年来研究者们针对一些上下文语义不足的情况,考虑到借助图像的信息来丰富文本语义,帮助模型更好的识别实体,多模态命名实体识别(MNER)便是利用与文本相关的视觉信息来增强文本的语义表达。不同于普通的命名实体识别,这项工作重点在于如何获得图像的视觉向量表示和如何将图像的视觉表示融入到文本的表征向量当中。针对第一个部分,通常使用ResNet来获得视觉信息的向量表示,ResNet网络由微软研究院提出,通过使用ResNet Unit成功训练出了152层的神经网络,模型的训练速度得到极大提升,同时准确性也非常高。针对第二个问题,早期方法主要通过一个简单拼接来构建起图像和文本之间的联系,通过BiLSTM和CRF解码出实体。由于整张图片是含有噪声的,后面研究开始将视线落在得到细粒度视觉信息,进行对象级不同模态的语义单元对应融合。后续研究利用基于Transformer的预训练文本中的注意力机制,得到与视觉信息相关的文本语义,赋予这部分较大的权重,以此来得到更丰富的语义表达。
综上,排除非相关的图片,充分利用正确的视觉信息,将视觉信息与文本进行细粒度的融合是多模态命名实体的关键,现有方法对视觉信息利用的还不足够充分。
发明内容
为解决上述技术问题,本发明在利用视觉全局信息的基础上,加入视觉分类信息,将与文本不相关图片剔除,利用正确分类标签进一步提高对识别实体的关注度。
本发明的一种基于标签注意力的武器装备领域多模态命名实体识别方法,包括以下步骤:
1、爬取武器装备相关的文本和视觉数据;
2、将图片输入ResNet模型得到图片特征向量和图片分类标签,将文本输入BERT模型得到文本特征向量;
3、将分类标签在字典中的解释通过BERT得到向量信息,取到包含全部分类信息的[CLS];4、由BERT提取整个文本特征,将含有分类信息的[CLS]替换文本向量的[CLS]部分,然后进行自注意力得到关注实体的特征向量;
5、将两种模态处理好的特征向量进行跨模态注意,通过互注意力模块对两种特征向量进行交互感知;
6、通过CRF层提取出实体;
7、根据训练数据训练网络模型并更新参数,然后在测试集上提取文本特征和视觉特征进行互注意力操作并进行测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;复杂系统仿真总体重点实验室,未经北京信息科技大学;复杂系统仿真总体重点实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310061847.X/2.html,转载请声明来源钻瓜专利网。