[发明专利]一种图像描述的方法有效
申请号: | 202010240856.1 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111523534B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 王俊豪;罗雪妮;罗轶凤;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/774;G06K9/62;G06N3/04;G06T9/00;G06F40/30;G06F40/295;G06F40/284;G06V10/764;G06V10/25;G06V10/82;G06V10/44 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 描述 方法 | ||
本发明公开了一种图像描述的方法,其特点是采用双线性编码器与多模式解码器,以改善具有细粒度区域对象特征的图像描述。在编码器中,双线性池化用于编码细粒度的区域图像特征,使用transformer的简单编码器对图像的感兴趣区域特征进行编码,并且编码所有的特征,与门结构融合在一起,作为图像的整体编码特征。在解码器中,从细粒度的区域图像特征与类别特征中提取多模态特征,并将它们与整体编码特征融合在一起,解码语义信息以生成描述。本发明与现有技术相比具有为图像描述及其应用工作提供了一个新的解决方案,方法简便,效率高。
技术领域
本发明涉及计算机视觉领域,尤其是一种将多层次Transformer模型与细粒度特征融合以此丰富图像描述的方法。
背景技术
图像描述(Image Caption)为图像生成自然语言描述,并利用所生成的描述帮助应用程序理解图像视觉场景中表达的语义。例如,图像描述可以将图像检索转换为文本检索,用于对图像进行分类并改善图像检索结果。人们通常只需快速浏览一下即可描述图像视觉场景的细节,而自动为图像添加描述则是一项全面而艰巨的计算机视觉任务,需要将图像中包含的复杂信息转换为自然语言描述。与普通的计算机视觉任务相比,图像字幕不仅需要从图像中识别对象,而且还需要将识别出的对象与自然语义相关联并以自然语言进行描述。因此,图像描述需要人们提取图像的深层特征,与语义特征关联并转换用于生成描述。
基于传统机器学习的早期图像描述方法倾向于从图像中提取对象和属性,然后将获得的对象和属性填充到预定义的句子模板中。随着深度学习的普及,现代的图像描述方法主要遵循编码器-解码器体系结构,其中卷积神经网络(CNN)通常用作特征提取的编码器,而递归神经网络(RNN)作为生成描述的解码器。编码器-解码器体系结构可以生成超出预定义模板的描述语句,大大提高了所生成语句的多样性。
传统的编码器-解码器图像描述模型通常基于图像中提取的全局特征来生成图像描述。即使注意机制与编码器-解码器体系结构结合在一起,从全局特征中提取感兴趣区域特征以关注图像感兴趣区域,生成过程中仍然损失了图像视觉场景中的大量详细信息。因而,具有注意力机制的编码器-解码器模型面临以下两个挑战:1)当复杂的对象和属性包含在图像中时,从全局图像特征图中提取的区域特征不能很好地表示对象的语义。2)RNN的固有顺序性质使其难以执行并行优化计算,导致模型训练的时间成本过高。
发明内容
本发明的目的是针对现有技术的不足而设计的一种图像描述方法,采用了一种新颖的编码器-解码器模型,通过提取检测对象的细粒度区域特征,并利用transformers模型对图像中包含的语义信息进行编码和解码,以生成图像描述,从而改善图像描述的质量。具体来说,使用预先训练的ResNet模型来提取从图像中检测到的物体区域的图像特征。然后,在编码器中使用双线性池化特征抽取器,以从图像的物体区域图像特征中编码细粒度的语义特征,使用transformer中的多层简单编码器将从图像的全局特征中抽取出来的感兴趣区域特征自底向上编译,生成多层图像特征,将每层图像特征与细粒度的语义特征融合成精细化特征,并将所有层次的精细化特征与门结构融合在一起,作为图像的整体编码特征。从解码器中细粒度的区域对象特征中提取多模态特征,并将它们与整体编码特征融合在一起,以解码语义信息以进行描述生成,为图像描述提供了一个新的解决方案。
本发明的目的是这样实现的:
一种图像描述的方法,按下述步骤进行图像描述:
步骤1,找到开源的并且标注好描述的图像描述数据集,将数据集切分为训练集、验证集和测试集;
步骤2,对步骤1中的描述,利用BERT工具对图像的描述中的每个词进行识别,获取固定长度的词向量并组成相对应的词汇表;
步骤3,对图像,使用Faster-RCNN工具抽取图像感兴趣区域特征向量并识别图像实体区域框以及图像实体类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010240856.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种屏幕同步显示方法、装置、系统及其电子设备
- 下一篇:一种剩余电缆收卷装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序