[发明专利]基于视觉显著性与语义属性跨模态图像自然语言描述方法有效
申请号: | 201710560024.6 | 申请日: | 2017-07-11 |
公开(公告)号: | CN107688821B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 田春娜;王蔚;高新波;李明郎君;王秀美;张相南;刘恒;袁瑾 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 显著 语义 属性 跨模态 图像 自然语言 描述 方法 | ||
本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。
技术领域
本发明属于计算机视觉与自然语言处理技术领域,尤其涉及一种基于视觉显著性与语义属性跨模态图像自然语言描述方法。
背景技术
图像自动描述系统能够基于图像中物体与环境之间的交互关系,自动生成准确、流利、接近于人的自然语言描述,从而对视觉场景中的内容进行语义理解。该系统将图像视觉特征与语义信息统一起来,使得图像语义信息更为客观的反映其视觉内容,利用语义信息进行高层推理、大规模图像组织和实现最终的图像理解。与计算机视觉领域中其他热门方向如图像检索,图像分割等领域相比,图像自动描述的本质问题是由视觉到语言,涉及到两种模态(即图像和文本)之间的“翻译”过程。当前的研究结果表明,受到目标种类数目及场景复杂度的限制,基于单一图像全局特征的自动生成结果准确度仍有待提升。因此,如何引入丰富的视觉信息和语义信息进而获得对图像更加全面理解概括,是提升图像描述系统准确度的关键问题之一。目前图像描述方法主要分为以下两类:第一类是自下而上的图像描述,将图像描述分解为若干个独立的子问题,并依次解决。美国Stony Brook大学的Kulkarni等利用条件随机场选择图像中概率最大的语义标签,填充语义模板生成自然语言描述。微软研究院的H.Fang等将问题分解为三个步骤:通过多示例学习对图像划分子区域进行语义属性检测,再根据语言模型生成句子,对其得分排序筛选。瑞士Idiap研究所的Lebret等利用了语料库的统计特性,将图像中预测到的短语级词汇重组为自然语言描述。这类方法往往能够从图像模态中检测到丰富的语义属性,并在语句生成阶段利用了文本模态的句法特征,因此最终生成结果较符合人类语言的描述方式。然而,这种方法仍然依赖于硬编码的视觉概念,因此在输出结果的多样性上有所欠缺,不能很好地描述训练库中未出现过的目标组合或新场景。在由视觉概念生成句子的转化过程中,如何制定一种端到端的机制对子问题进行组合也仍待解决。第二类是自上而下的图像描述。受到机器翻译的思想启发,近年来一种利用深度卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络的端到端翻译方法日渐成熟。这类方法将图像视为翻译任务中的源语言,用CNN对图像模态进行特征编码,再输入到循环神经网络中实现解码过程,最终将其翻译为文本模态的自然语言输出。谷歌的Vinyals等首先提出了利用CNN的倒数第二个全连接层表示图像特征编码,再经过长短期记忆(Long Short-Term Memory,LSTM)循环神经网络生成图像描述。这个端到端的系统在MSCOCO等大数据集上取得了很好的效果。随后,美国Stanford大学的Karpathy等使用了另一种卷积网络提取图像特征,并在解码阶段使用相对于LSTM而言更简洁的循环神经网络,在速度上有一定提升。在此基础上,注意力机制和语义信息的加入使得图像描述结果的准确度得到了提升。美国Rochester大学的You等将图像中检测到的视觉概念选择性的分阶段加入到循环神经网络的语句生成过程中,利用图像中的语义信息指导图像自然语言描述的生成。澳大利亚Adelaide大学的Wu等应用图像分类原理分区域对目标属性进行检测,选择语义属性较强的图像区域的特征替代传统意义上的全局图像特征,输入修正后的LSTM模型来输出图像的语句描述。目前,自上而下的图像描述方法虽然是图像自动描述领域内的主流方向之一,但这种方法很难关注到一些低层细节信息,而这些细节信息对最终生成的图像描述可能存在较大影响。因此,在场景复杂度较高、目标较多的图像中,其模型在生成语句的过程中仍存在关注重点不集中以及各目标描述精度低的问题,如何解决这些问题有待于进一步研究。
综上所述,现有技术存在的问题是:目前的自上而下图像描述方法关注重点不集中以及各目标描述精度低。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710560024.6/2.html,转载请声明来源钻瓜专利网。