[发明专利]基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备有效
申请号: | 201910393359.2 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110288665B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 郑向涛;卢孝强;吴思远 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06N3/04;G06N3/08 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 郑丽红 |
地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 图像 描述 方法 计算机 可读 存储 介质 电子设备 | ||
本发明提供一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题。该方法包括以下步骤:1)将卷积神经网络预训练好;2)提取图像的全局特征和局部特征,将图像的全局特征和局部特征投影到多模态映射空间中;3)对步骤2)中多模态映射空间下的图像表达进行卷积编码;4)单词特征表达;5)对步骤4)的描述语句进行卷积编码,6)计算注意力,得到输入图像对应生成单词的概率;7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;8)将测试图像输入训练的神经网络系统,得到测试图片对应的描述性自然语句。
技术领域
本发明涉及图像与文本多模态融合技术,具体涉及一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,可用于儿童早教、人机交互、视觉障碍人群的辅助视觉等。
背景技术
随着科技的发展,人工智能已逐步成为推动人类进入智能时代的决定性力量。人工智能研究如何让机器模拟人的思维过程和智能行为,让计算机从自然图像中自动生成一段描述性文字,用一句话描述图像的内容。近几年,深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大突破,在图像描述领域也获得广泛关注。
目前,图像描述的方法主要有两大类:
一是基于检索的图像描述方法,该方法在深度学习广泛应用之前较为流行。M.Hodosh等人在文献“M.Hodosh,P.Young,and J.Hockenmaier.Framing imagedescription as a ranking task:Data,models and evaluation metrics.Journal ofArtificial Intelligence Research,2013,47:853–899”中提出了一种基于检索的图像描述方法,即给定一张待描述的图像,在图像-文本数据库中检索出相似的图像,然后根据对应的描述语句生成新的语句来描述该图像。该方法存在的不足之处是,产生的语句缺乏变化,而且描述性语句和图像之间存在较大的偏差,描述精度不理想。
二是基于多模态神经网络的图像描述方法,该方法运用计算机视觉领域和自然语言处理领域取得极大成功的卷积神经网络和递归神经网络。J.Mao等人在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille,“Deep captioning with multimodalrecurrent neural networks(m-rnn).in International Conference on LearningRepresentations(ICLR),2015.”中提出了一种基于多模态递归神经网络的方法,利用卷积神经网络提取图像全局特征,利用递归神经网络对图像特征和自然语句特征进行融合,最后实现图像描述。然而,该方法中多模态融合模块和语言模块使用的是递归神经网络(Recurrent Neural Network,RNN),与卷积神经网络(Convolutional Neural Network,CNN)相比,RNN有许多不足之处。首先,RNN对序列处理是串行处理,即逐词顺序处理,这大大增加了运算复杂度(或时间),这和CNN并行计算隐层状态相反;其次,RNN在处理有单词构成的自然语句中,假设句子长度为T,那么RNN对第一个单词处理次数为T,而对最后一个单词的处理为1次,因此,RNN对序列中的每一个元素处理是不平衡的,而CNN对每一个元素的处理却是平等的。此外,很多研究成果表明,注意力机制对于图像描述任务具有重要的作用,那么当RNN换为CNN时,如何实现注意力机制也需要进一步研究。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910393359.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序