[发明专利]一种基于双重自注意力机制的图像描述方法在审
申请号: | 202011235688.3 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112329794A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 杨金福;李智勇;李明爱;李亚萍 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双重 注意力 机制 图像 描述 方法 | ||
本发明公开了一种基于双重自注意力机制的图像描述网络,包括特征提取器、双重自注意力模块、解码器。其中,Faster R‑CNN网络作为特征提取器用于提取图像的重要特征。双重自注意力模块由两个自注意力分支组成,利用自注意力机制能够捕获长范围依赖关系的特性分别从空间和通道维度捕获特征的依赖性。解码器由两层LSTM构成,分别为注意层和语言层,注意层来预测生成当前词汇在图像上的注意力分布,语言层生成描述。本发明能自适应地将局部特征与全局相关性结合起来,从而获得图像的上下文信息,有利于生成更精确的描述,提高了描述语句的准确性。
技术领域
本发明涉及图像识别领域,尤其涉及一种基于双重自注意力机制的图像描述方法,使机器理解图像内容并用自然语言来描述。
技术背景
随着科学技术的飞速发展,如何使计算机快速准确地理解图像内容,对计算机分析处理图像数据具有重要意义。图像描述技术已经成为理解图像内容一种重要的解决方案。近年来,图像描述在人工智能领域受到了广泛的关注,并且在视障辅助、人机交互等领域有着广泛的应用。而用自然语言表达图像内容是一项非常具有挑战性的任务。
现有的图像描述工作通常采用编码-解码架构,其中编码器为卷积神经网络(Convolutional Neural Network,CNN),用于提取图像特征,解码器为递归神经网络(Recurrent Neural Network,RNN)用于生成描述,即根据视觉信息逐字构造图像描述。现有的研究已经取得了令人印象深刻的结果,但仍然存在较高的误识别问题。目前,研究者们为解决上述问题,通常针对生成端提出改进方案。例如2017年Dai,B.,Fidle,r S.,Urtasun,R.,Lin,D.:Towards Diverse and Natural Image Descriptions via aConditional GAN.In:Proceedings of the International Conference on ComputerVision,pp.2989-2998(2017)在条件生成对抗网络的基础上,提出了一个新的网络构架,同时学习两个网络。一个是用来生成描述的生成网络,另一个是用来评价生成句子是否和图像对应的评价网络,两个网络相互对抗,不断提高生成描述的准确性。2019年Fan,Z.,Wei,Z.,Wang,S.,Huang,X.:Bridging by Word:Image Grounded Vocabulary Constructionfor Visual Captioning.In:Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics,pp.6514-6524(2019)通过构建语义词汇表的方式,限制生成单词的选择空间,以减少误识别问题。虽然上述方法利用对抗、词表限制等手段在一定程度上减少了误识别问题,但却忽视了图像本身所包含的上下文信息,这种做法会限制描述对图像的概括程度,即由于生成过程受限,导致生成的描述不足以完全概括图像内容。2020年Longteng Guo,Jing Liu,Xinxin Zhu,Peng Yao,Shichen Lu,Hanqing Lu,Normalized and Geometry-Aware Self-Attention Network for ImageCaptioning,CVPR(2020)提出了一种用于图像描述自注意力网络,该网络利用自注意力机制捕获图像中对象的空间几何关系,考虑了图像特征的空间特性,但忽略了图像特征的多通道特性。
发明内容
针对上述问题,本发明利用自注意力机制能够捕获长程依赖的特性,设计了用于图像描述的双重自注意力模型,目的在于提供一种基于双重自注意力机制的图像描述方法,以减少错误识别的问题。与现有方法不同,本发明注重对图像信息的挖掘,通过自注意力机制建立图像特征的内在关系,充分利用图像的上下文信息提高特征表达,从而减少错误识别的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011235688.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防冻液过滤装置
- 下一篇:一种面向移动机器人多目标检测的分层特征融合方法